Google - парадоксов друг

Dec 25, 2010 18:59

Вычитал тут  в одном журнале о новом сервисе Google Ngrams. Он предназначен для поиска числа вхождений слова или фразы в тексты книг, изданных в определенный год, нормализованного по общему числу книг. Искать можно на разных языках, в том числе и на русском (не ясно, использует ли Google свой собственный набор текстов или каким-то образом сотрудничает с национальным корпусом русского языка).

Так как результат выдается в виде графика по годам, то довольно интересно наблюдать за изменением употребления отдельных слов. Вот, например, слово победа - максимум использования приходится где-то на 1942 год.

Правда, сервис ещё довольно сырой. Под графиком есть ссылочки, нажав на которые можно посмотреть собственно тексты, из которых составлена база поиска. И тогда становится понятно, откуда в литературе за 1900 год появилось слово Internet - оно там оттуда, что 1900 годом оказались датированы вполне современные книжки, типа "United States Participation in the United Nations", которая вышла всего несколько лет назад.

С русским языком проблем доставляет и реформа орфографии. Дело в том, что корпус пытались привести к современной норме, но сделали это не до конца - где-то твердые знаки на конце слов убрали, где-то заменили на *, где-то просто оставили. Букву "ять" заменили на "е", но тоже, видимо, не везде, потому что слова с "ять"  (тело) всё же имеют на графике скачок в районе 1917 года.
Поэтому пока нельзя корректно сравнивать результаты для дореформенных и послереформенных годов.

Кстати, поиск чувствителен к регистру, но не спешите делать далеко идущих выводов из разницы картинок для россия и Россия - в основном она является результатом ошибок оцифровки материалов гуглом.

В общем, пока Ngrams можно использовать только для развлечения.

русский язык

Previous post Next post
Up