Частотный словарь как зеркало русской души

Sep 21, 2019 16:40

Много лет назад, когда я был любопытным школьником-ботаном, на глаза мне попалась статья одного лингвиста, который с помощью орфографического словаря пытался проникнуть в глубинные тайны русской души. Сейчас расскажу, как он это делал.




Трудно спорить с тем, что язык каким-то хитрым образом отражает менталитет своего народа. Примем в качестве нулевой гипотезы очевидный факт, выраженный известной поговоркой «что у кого болит, тот о том и говорит». Установив, какие слова наиболее часто употребляет в речи и в писаных текстах русский человек, мы вправе ожидать, что эти слова расскажут нам о русской душе что-то такое, о чём мы и сами давно подозреваем :~).

Существует на свете такая забавная штука как частотный словарь. Один такой уже 30 лет лежит у меня в кладовке - с тех самых давних пор, когда на старших курсах института я по настоянию научного руководителя слегка прикоснулся к компьютерной лингвистике. В те стародавние времена составление частотных словарей было сродни подвигу. Прикиньте, небольшой коллектив энтузиастов берёт кучу текстов общим объёмом около 1 000 000 слов и читает их, аккуратно записывая на карточки все встречающиеся слова. Если попадается слово, которое раньше встречалось, энтузиаст находит в картотеке нужную карточку и ставит на ней ещё одну палочку. После нескольких месяцев или лет напряжённого труда, мы получаем представление о том, сколько раз на миллион встречается в русскоязычных текстах то или иное слово.






В наше время, в эпоху быстродействующих компьютеров и оцифровки всех мыслимых и немыслимых текстов, вся эта процедура занимает значительно меньше времени. Зайдя в Гугл я без труда нашёл электронную версию свеженького частотного словаря на материале 90+ миллионов словоупотерблений:

О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка. М.: Азбуковник, 2009.

Тут же нашёлся xls-файл, где 32 000 наиболее употребительных слов этого словаря приведены в удобной для анализа форме.

И вот, отсортировав все слова по частоте употребления, мы неожиданно обнаружим, что список ничегошеньки не говорит нам о русской душе. Просто потому, что наиболее часто встречающиеся слова в русском (да, наверное, и в любом другом) языке - это союзы и предлоги :~). Если убрать из списка служебные части речи, благо составители любезно предусмотрели такую возможность, обнаружим, что наиболее часто встречаются местоимения «он» (18 900 на миллион), «я» (15 600), «это» (8000), глаголы «быть» (11 200), «сказать» (3500), «мочь» (3300), «говорить» (2100), существительные «человек» (2900), «год» (2000), «время» (1900), «рука» (1800). Я бы сильно удивился, если бы у других народов чаще употреблялись какие-то другие слова.



Можно попробовать сделать тематические выборки, например, наиболее употребительных названий животных. Наверное, у чукчей, зулусов, монголов и русских эти списки будут сильно различаться. Тут мы ожидаемо обнаружим, что наиболее часто упоминаемое животное - собака + пёс (225 + 59 = 284), далее лошадь и конь (129 + 101 = 230), кошка и кот (84 + 80 = 164) на третьем месте.

Больше всего поражает в списке животных то, что национальный русский символ медведь находится во втором десятке (60), идёт ноздря в ноздрю со слоном (58) и отстаёт от обезьяны (64). Если у кого-то и стоит поучиться умелой пропаганде своих идей, так это у старика Дарвина :~).

А теперь расскажу, что сделал упомянутый в начале повествования лингвист.

Он взял орфографический словарь и путём кропотливого подсчёта определил, что больше всего в русском языке слов, начинающихся на букву «П» (подтверждаю, их примерно 15%). Далее, среди слов, начинающихся на «П», он нашёл самую популярную вторую букву, и ею оказалась буква «Р». Затем среди слов, начинающихся на «ПР» он нашёл самую популярную третью букву, которой оказалась буква «О». Доведя этот процесс до логического завершения, он получил два слова - «простота» и «простор» :~).

Выражают ли эти два слова глубинную сущность русской души? Ну, наверное да. По крайней мере, поискав в Яндексе по ключу «простота и простор», обнаружите огромное количество радующих сердце текстов и картинок:






Гугл, между прочим, даёт картинки совсем иного рода :~):






Но это было с старые добрые советские 1970-е годы. А изменилось ли что-нибудь с воцарением на русской земле светлого капиталистического будущего? Быстренько набросав формулки в словаре Шарова, я получил вот что:



Вот такие дела. Простота и простор ушли из нашей души, а их место заняли подставы :~)

Мне оставалось только утешаться мыслью, что количество слов, начинающихся на «ПО» (2073) и «ПР» (1928) находятся рядом в пределах статистической погрешности. Осуществив тот же процесс, начиная с трёхбуквенных сочетаний (здесь слова, начинающиеся с «ПРО» были явным лидером, а слова на «ПОД» заняли только третье место), я пришёл к следующему результату:



Воодушевлённый, я захлопнул ноутбук и пошёл в поля обнимать берёзки на кухню пить чай с истинно русским вареньем из лимонника. И там меня догнала мысль: а как там у англосаксов? Вернувшись, я отыскал в интернете список наиболее часто используемых английских слов (к сожалению, всего 5000 штук) и быстро получил такую табличку:



Здесь ситуация похожа на русский язык - несмотря на то, что буква «s» лидирует, префикс «st» не является в словаре самым популярным. Если вести поиск сразу с двухбуквенных сочетаний, начать придётся с «со»:



Англичанин-мудрец, чтоб работе помочь,
Изобрёл за машиной машину...
:~)

P.S. Вся эта бурная деятельность была инспирирована статьёй г-на Бородина bor_odin Самые длинные слова русского языка. Понятно, что теоретически в русском языке можно сконструировать слово любой длины, хотя бы потому что разрешены порядковые числительные неограниченной длины типа «тысячавосемсотдвадцативосьмикратный» или названия сложных органических веществ типа «дихлордифенилтрихлорметилметан». Также понятно, что в такой постановке это вопрос совершенно праздный, поскольку интересны только те слова, которые хотя бы изредка реально используются в речи. И тут снова приходят на помощь частотные словари.

В частотном словаре 1977 года, куда помещены слова, встречающиеся не реже, чем одно на миллион, самые длинные слова - 24-буквенные «высокопревосходительство» и «человеконенавистничество». В словаре 2009 года, если ограничить его частотой словоупотребления 1/1 000 000, «человеконенавистничество» куда-то уходит (видимо, заменяется братской любовью, которая выражается гораздо более короткими словами). Впрочем, если взять выборку из 52 000 слов (нижний предел частоты 0,4 миллионных), то оказывается, что «человеконенавистничество» никуда не делось, а полный список самых длинных слов выглядит так:



Понятно, что здесь не приведены сложные слова через дефис, поскольку интуитивно такое словообразование не кажется полноценным. Если же слова через дефис всё же учитывать, получится так:


Язык - дом бытия

Previous post Next post
Up