Google на службе у лингвистов

Dec 23, 2010 09:39

Поисковый сервис Google ученым удалось приспособить для проведения лингвистических исследований, в частности определения эволюции языка за последние два века. В этом исследователям помогли 5 миллионов отсканированных книг. Результаты ученые опубликовали в журнале Science.

Ранее лингвисты просто не располагали методом анализа такого значительного количества текстов. Но к настоящему времени в цифровой формат переведены 15 миллионов книг, из которых ученые выбрали третью часть - книги на английском, русском, немецком, французском, испанском и китайском языках. Лингвисты составили базу в 500 миллиардов слов из всех использованных в текстах, проанализировали их и сделали ряд выводов. В частности, было установлено, что за истекший век количество повседневных слов увеличилось с 544 тысяч слов в 1900 году до 1 миллиона в 2000 году, причем 52%  неологизмов появилось после 50-х годов. Также исследователи обратили внимание на то, как под влиянием цензуры менялось употребление слов. В частности, после 1989 года из китайской литературы почти полностью исчезло словосочетание "площадь Тяньаньмень", повторив судьбу имени Льва Троцкого в СССР в 1940-е годы и имен звезд Голливуда, которые были уличены в связях с Советским Союзом в США.
http://news.bcm.ru/doc/18719

Компания Google продолжает регулярно удивлять пользователей интернета все новыми и новыми интересными проектами. Накануне Рождества поисковик обнародовал сервис Ngram Viewer - анализатор текстов или поисковик по культурным трендам.

Сервис работает с коллекцией книг, ранее оцифрованных Google в рамках проекта Google Books. Напомним, что сейчас она насчитывает порядка 5,2 млн. книг. Уникальность Books Ngram Viewer в том, что проект позволяет не просто искать заданные термины в текстах книг, но и представляет результаты в хронологическом порядке, ориентируясь на время издания книг. Благодаря этому можно получить представление об истории употребления термина: о том, когда то или иное слово появилось в языке и как часто использовалось. С помощью сервиса можно увидеть, как язык и литература менялись с течением времени. В основу проекта легли результаты исследований ученых Гарвардского университета Жана-Батиста Мишеля (Jean-Baptiste Michel) и Эреза Либермана Эйдена (Erez Lieberman Aiden).

Основную часть базы данных составляют слова на английском языке, однако сервис позволяет проводить поиск на других языках: китайском, французском, немецком, испанском и русском. Например, с его помощью можно узнать, что слово «компьютер» стали использовать в русском
языке в 1960 году. Эксперты высоко оценивают разработку Google. Так, директор Центра истории и новых медиа Университета Джорджа Мейсона Дэн Коэн (Dan Kohen) считает, что запуск Ngram Viewer - это «настоящая победа». Проект предоставляет колоссальный объем данных для исследователей в области как гуманитарных, так и точных наук, и в то же время будет интересен любителям словесности и литературы.
http://webcrunch.ru/news/2010/12/21/google-launches-ngram-viewer/
Previous post Next post
Up