(КНИГА) - - Часть 1: "что учить"? -- Про слова - Corpus Linguistics

Mar 13, 2013 04:50

CORPUS LINGUISTICS AND THE "CORE WORDS LIST"

Понимание что такое "выучить язык" - и больше, понимание "что такое язык" -
довольно сильно изменилось после середины 1980х. Тогда компьютеры наконец доросли
и подешевели до степени, когда стало практичным использовать их для исследований
человеческих языков.

[add: Corpus lingusitics, more details]

Одним из самых первых и примитивных следствий создания размеченных "корпусов"
языка стали подсчеты самых частых слов и их веса в реальной речи и на письме.
Наконец стало доказательно ясно, что "самые частые 2000-3000 слов" любого
европейского языка (и в частности, английского) покрывают примерно 75%-80%
общего, не узкоспециального, текста.
Подобные подсчеты вручную делались еще в 19 веке, сегодня объем скормленных
компьютеру примеров реального использования языка так велик, что современные
списки стали статистически доказательны, они верно отражают реальность.

Более того, этих слов достаточно чтобы выразить почти все остальное, хотя
придется прибегать к более длинным речениям вместо точных (редких) слов:
доказательством служит то, что в современных учебных одноязычных словарях для
иностранцев все 35-40 тысяч слов основы языка объяснены с помощью 2000-3000
слов, отобранных для использования в толкованиях.

Итак, вывод номер один: в первую очередь, на первой стадии иностранцу
надо изучить 2000-3000 "самых частых слов языка".
Они дадут свободу понимать тексты (до 4/5х слов общих текстов) и выражать
любые мысли, хотя иногда и не лучшим образом.

ПРОБЛЕМА ПОДСЧЁТА

Однако примитивный подсчет повторяемости на уровне "слов" может быть обманчив.
Самые частые слова английского могут иметь до 50-80 значений (как отражено в
, на мой взгляд, лучшем учебном одноязычном словаре английского для иностранных
учеников, о нем ниже).

Более точным должен был бы быть подсчет на уровне значений, в каких значениях
какие "слова" оказываются самыми частыми в языке? Такая работа, на самом деле,
была тоже (недавно) проведена.

Однако не копаясь в деталях для простоты можно общий ответ сформулировать так:
иностранец должен усвоить все или большинство значений 2000-3000 самых частых
слов языка чтобы иметь возможность свободно выражать любые мысли (хотя иногда
"обиняком", с объяснениями, а не кратко одним точным более редким словом), и
понимать до 75-80% общих текстов на английском.

Ни один известный мне современный учебник английского, включая все серии от
ведущих издательств (Longman, Oxford, Cambridge, ...) не делает этого. Они вводят
самые частые слова так, словно у них по 1, реже 2-3 смысла.
В результате иностранец "знающий" 3000 на самом деле может выразить грубо оценивая,
1/10 смыслов, доступных носителю языка, который действительно знает все их смыслы.

Более точную оценку можно сделать прямым подсчетом.

(a) Подсчет в "полном" словаре
В одном из учебных словарей (лучшем на мой взгляд) слова помечены в соответствии
с частотой их употребления в текстах, как показывает "корпус" английского языка
(сотни миллионов слов). Сделав быстрый поиск по электронной версии словаря,
получаем:
    [*] 655 "первых" самых частых слов имеют в сумме 8396 разных значений/употреблений,
    выделенный в словаре, т.е. в среднем по 13 смыслов на слово
    [*] Следующие 1026 - 6291 смыслов в сумме, или по 6 смыслов на слово
    [*] Следующие 1530 слов (т.е. в сумме до сих пор - примерно 3000) - 6307 значений,
    или по 4 смысла на слово в среднем
    [*] Далее, еще 3166 слов (до 6000-7000 в сумме) - по 2.5 смысла/слово;
    [*] Последняя группа из 8099 слов (т.е. примерно до 15000 в сумме) - по 1.5 смысла/слово.
(Всего в Словаре порядка 35,000 слов, покрывающих весь "взрослый" неспециализированный
английский; не верьте рекламным надписям о "100,000" слов и выше - они вас обманывают).

Эти цифры и представляют то, что нужно усвоить иностранцу:
по 6000-8000 "смыслов" и "фраз" как минимум, на 3х ступенях, до примерно 3000
"заглавных слов" (или примерно 20,000 смыслов и употреблений) в сумме.

(b)Подсчет в сокращенном словаре
Если взять не "полный" словарь, а сокращение для "учеников среднего уровня",
где более редкие смыслы и фразы не включены, то подсчет для "самых частых слов",
отмеченных в словаре даст:
3087 "заглавных слов", помеченных как частые.
У них в сумме 11902 разных "смыслов" и "применений".
Т.е. в целом получаем примерно 4 смысла/слово.

Если все эти смыслы не показаны иностранцу, он остается беспомощным - даже формально
якобы "зная" самые частые слова, он может выразить лишь ничтожную долю смыслов,
которые с ними связаны и могут быть переданы носителем языка, формально оперирующим
теми же самыми 3000.
Previous post Next post
Up