Pour la Science (№ 406) - Ngram

Sep 01, 2011 10:01

Много раз видел результаты google Ngram, но ни разу сам не игрался, а тут замечательная статья о них. В двух словах - создан корпус текстов на разных языках (грубо говоря, отсканировали кучу книжек), по которому можно искать и анализировать употребление тех или иных слов.

Поскольку автор статьи - математик (это всё тот же Jean-Paul Delahaye развлекается, которого я регулярно цитирую, и которого называю французским коллегой Мартина Гарднера), первый поиск - по цифрам (я все поиски перевёл на русский корпус).



По теории здесь можно наблюдать закон Бенфорда (чем бы мы не мерили что бы то ни было, чаще всего результат будет начинаться с единицы), но «круглость» пятёрки выкидывает её чуть выше четвёрки.
Это легко исправляется другим поиском (в статье приводится пример с 135, 235 и т.д., но по-русски он тоже выкидывает 535 выше 435, я так и не понял, почему, поэтому сжульничал :->)

Другой пример, когда кривые имеют совершенно другую форму - поиск по годам. Очевидно, что упоминание каждого конкретного года растёт с приближением к этому году, а затем постепенно спадает. Во французской версии чётко виден эффект 1968 года, упоминание которого спадало существенно медленнее (и сейчас о нём говорят чаще, чем о любом другом годе того десятилетия), русская же версия выпячивает 1965-й - то ли из-за пятилеток, то ли 20-летие Победы.

Ещё один красивый поиск - по дням недели. Во-первых, видно наличие второго смысла у слова «среда» (с «воскресеньем» непонятно, т.к. по-французски оно тоже вырывается вверх - по воскресеньям больше всего происходит, об этом чаще пишут). Во-вторых, видна реформа русского языка 1918 года, а также слова, которые она затронула (если кто-нибудь знает, как писался «понедельник» до реформы, интересно было бы взглянуть на его кривую).

Поиск сильно затрудняет склонение в русском языке - система пока что не принимает во внимание тот факт, что «понедельник» и «понедельнику» - это одно и то же слово. Во французском с этим проще.
Вторая проблема - буква «ё», которая в половине случаев пишется как «е». Автор проводит сравнение частот упоминаний математиков (Тьюринг, Гёдель, Кантор и Бурбаки), которое из-за этих двух факторов практически нереально повторить по-русски.

Ещё один график - использование слова «война». Хорошо видны периоды, когда Россия воевала с кем-то.

Поиск по главам государства - история страны как на ладони. Вот смерть Сталина. Вот скромный холмик Хрущёва - никакого культа личности. Вот период, когда о Хрущёве уже, а о Брежневе ещё не пишут - тут же Ленин идёт вверх (ну и 100-летие со дня рождения, конечно, помогает). Вот перестройка, Сталина опять вытащили на первые полосы, а Ленин стал откровенно немодным.

Какой простор для игр, оказывается!

pour la science

Previous post Next post
Up