Задался мыслью о том, сколько же нужно знать слов языка, чтобы смочь на нем читать и общаться. В различных местах фигурируют всякие разные цифры типа 2000 слов - минимум плюс-минус (чаще плюс:) лапоть. И лапоть может быть большим.
Провел небольшой эксперимент - посмотрел распределение слов по частоте использования на примере "Брауновского корпуса", включающего в себя всяких разных текстов (из газет, статей, художественных книг и т.п.) суммой в миллион слов. Если считать уникальными словами все, что отделяется пробелами и знаками препинания, то в этом миллионе получается около 40 тысяч разных слов. Если же за одно слово считать все формы do (do/did/done/does/doing), все формы car (car/cars), hopeful (hopeful/hopefully) и т.д. и т.п. и учитывать всякие приставки, то уникальных слов на самом деле окажется поменьше - сколько пока не прикидывал (втрое меньше? впятеро?).
Пролистывая список слов, упорядоченных по частоте употребления, определил, что я где-то 12-15 тысяч из 40 знаю очень хорошо (редко что-то незнакомое проскакивало), а дальше - заметно хуже.
Потом мне стало интересно само распределение. Оказалось, что на списке из миллиона слов количество повторений слова примерно равно стам тысячам, поделенным на позицию слова в частотном списке (например, 100-е слово повторяется около 1000 раз в миллионе). Конечно, зависимость не четко обратно-пропорциональная, но качественно и количествеено ее очень и очень напоминает.
А теперь главное... Если проскладывать повторения слов с самого первого (the) до того, которое примерно приходится на конец твоих познаний, и поделить на полное количество слов корпуса, то можно очень грубо оценить в процентах понимание текста корпуса и даже знания языка.
Складывать повторения влом, по-этому беру свое примерное обратно-пропорциональное распределение и считаю интеграл...
Считаю интеграл от 1 (позиция слова the) до N (позиция последнего известного мне слова) от выражения 105/x.
Получаю 105 * ln(N).
К миллиону это будет 10 * ln(N) %.
Расклад следующий:
N (тысяч) % корпуса
0.1 46
0.5 62
1 69
2 76
4 83
8 90
12 94
16 97
20 99
32 103
40 106
Да, да, не может (не должно) быть больше ста процентов, но распределение я выбрал грубое (на самом деле the встретится 70 тысяч раз на миллион, а не 100 тысяч по моему распределению - вот уже и 3% лишних у меня объясняются), и считать нужно было сумму, а не интеграл. Все это правда, но тем не менее...
Что мы видим из таблицы:
1. В целом, наиболее эффективно учить слова, начиная с самых частых и продолжая в порядке убывания частоты использования, что вроде-бы очевидно. Нужен только частотный словарь/список чтобы его придерживаться.
2. Следствия к предыдущему пункту: если учили как вышло, без частотного списка, то можно подметить очевидные пробелы в знаниях, глядя в список, на незнакомые слова, расположенные между знакомыми. А можно узнать примерно где вы находитесь, вспомнить, что вы знали, но забыли, или забыли, что знали. :)
3. 50% корпуса покрывается где-то 500-ми самыми частыми словами, 75% - 4-мя тысячами, 90% - 16-ю тысячами.
4. Каждые последующие 7% приходят с удвоением словарного запаса. Каждый последующий процент дается все более трудно, особенно после 75% или 4-х тысяч слов. Нужно еще не забывать, что запоминается слово тем чаще, чем употребляется, а значит под конец дело усложняются не только за счет удвоения на каждые 7%, но и еще из-за того, что эти новые 7% более редкие, чем все, что было выучено до них.
5. Следствие предыдущего пункта: язык можно учить практически бесконечно. :) Даже родной. :))
В 4-м пункте можно еще одну оценку дать. Положим, слово находится на позиции x в частотном списке. Сколько в среднем нужно прочесть слов, прежде чем это слово встретится один раз? Считаем... В нашем миллионе число встретится 105/x раз. А нужно 1.
Делим. 106/(105/x) = 10 * x.
Т.е. слово встретится через 10 * x слов, где x - позиция этого слова в частотном списке. И, например, слово на 5000-й позиции появится через 50000 слов или, если принять 300 за кол-во слов на странице книги, 167 страниц. А тысячное - всего через 33.
Так сколько же нужно знать слов чтобы читать и общаться на языке?
А фиг его знает. :) Число зависит от того, как хорошо требуется знать язык, в какой области, от того какие слова учить, и от того, как эти слова считать (ну, или что считать уникальным словом). Еще стоит не забывать про то, что слова в языке часто имеют несколько различных смыслов, а также достаточно часто объединяются в пары, тройки и более длинные выражения, которые нередко несут дополнительный смысл по отношению к индивидуальным значениям составляющих слов (вспоминаем фразовые глаголы и идиомы и моментально хватаемся за голову :).
Но без двух-четырех тысяч наиболее употребимых слов никак не обойтись. Если знать меньше, то половина смысла книг точно пройдет мимо, а то и больше. К слову, я уже достаточно уверенно читаю по-испански, зная более двух тысяч слов. Недавно книгу прочел практически без словаря (нарочно) и не очень сильно мучался при этом.
P.S. в средней книжке около ста тысяч слов (80 - 150). Миллион слов - это десяток книг. Очевидно, что частотный список будет зависеть от того, какой корпус брать по размеру и типу вошедших в него текстов (сравните политические или экономические новости с любовным романом или научным трудом).
UPD: Судя по своему опыту с испанским, чтение десяти книг (миллиона слов) на языке очень и очень помогает. Эффект уже виден после первых двух книг. Дальше - больше.
Продолжение.