t2t

Leave a comment

Comments 12

sorokinyuri February 7 2011, 18:10:36 UTC
ОК, сервис дествительно стоящий, но - вопрос: в дата-базу гугла занесены русскоязычные книги в той же пропорции как, например, англоязычные?? Где узнать, что за информация лежит в основе?

Reply

t2t February 7 2011, 18:18:07 UTC
Но, насколько я знаю, при составлении частотных словарей используются специальные алгоритмы, высчитываются квоты разных жанров литературы и т.д.
Количество книг на английском, конечно, больше.
Но сервис позволяет разделять эти книги на разные категории, чего нет для русскоязычных книг.

Reply

sorokinyuri February 7 2011, 18:33:04 UTC
да, для моноязычной "интеллегенции" может быть проблема :)

Reply

t2t February 7 2011, 18:18:30 UTC
Да, этот вопрос всегда возникает. Поэтому я и уточнила, что, перед тем, как использовать сервис в серьезных научных исследованиях, необходимо ознакомиться с методикой составления базы данных книг. Они эту методику частично описали в информации к сервису: http://ngrams.googlelabs.com/info
Больше будет написано в их научных статьях:
http://www.sciencemag.org/content/early/2010/12/15/science.1199644

Reply


earmir February 7 2011, 19:02:39 UTC
t2t February 7 2011, 19:08:16 UTC
Спасибо большое! Отличное объявление. Если получится - постараюсь сходить. Запись предварительная не нужна?

Reply

earmir February 7 2011, 19:09:46 UTC

ivanpoukhkal February 8 2011, 16:58:54 UTC
Следует быть внимательным со старыми книгами на русском - не всегда новое правописание совпадает с дореформенным. Например, нормативной формой было «наказанье».


... )

Reply

t2t February 8 2011, 17:16:50 UTC
Спасибо за ценный комментарий!
Я как раз готовлю пост про ошибки этого сервиса. Правда, в отношении слов английского языка.
Я полностью согласна: не только быть внимательнее, но, если выбрали в качестве метода исследования, серьезно обосновать формы, используемые для анализа, и объяснить полученные результаты конкретными примерами из литературы - благо, сервис сразу дает ссылки на источники слов.

Reply


Ошибки anonymous March 15 2011, 22:56:15 UTC
Данная ошибка может произойти по невнемательности, просмотрите нашу работу (Труса и Гелея) в ней есть утверждение, относящееся к одному из графиков:
"На графиках видно что в англоязычной литературе частота встречаемости понятия manipulation с 1800 по 1900 годя выше чем в русскоязычной литературе. Однако начиная примерно с 1910-х годов, в русскоязычной литературе частота встречаемости понятия манипуляция встречается чаще чем в англоязычной литературе и начинает постепенно расти до 1980-х годах, после чего происходит сильный всплеск частоты встречаемости данного понятия, достигнув пика в первой половине 2000-х годов."
Обратите внимание на нули в процентной строке, а точнее их колличество.
Надеюсь наша ошибка позволит в дальнейшем более внимательно относиться к подобному. Ибо от этого во-многом зависит и интерпритация графиков.
С уважениям Гелей Илья

Reply

Re: Ошибки t2t March 16 2011, 09:05:21 UTC
Илья, спасибо большое за добавление. Если можно, вышлете мне два графика, чтобы я могла разместить их здесь в комментариях для наглядной демонстрации Вашего дополнения.

Reply

Размещаю работы, про которые говорит Илья t2t March 19 2011, 16:31:32 UTC
Обратите внимание на количество нулей после запятой в показателях частоты употребления слов: с первого взгляда кажется, что в русском языке слово встречается значительно чаще, пока не обратишь внимание на разрядность чисел:

... )

Reply


Leave a comment

Up