Comments | zeisig: Бог, мужики с бабами и наука.

zeisig

Бог, мужики с бабами и наука.

Dec 20, 2010 16:51

Отличную статейку в Сайнсе накатали на той неделе ребята из Гарварда. Гугл сделал новый сервис - можно строить график по встречаемости заданного слова во всех отсканированных книгах мира (это около 5 миллионов книг, примерно 4% от всех книг за всю историю). Ну ребята поигрались с этим сервисом, со всякими интересными словами и сравнениями и ( Read more... )

Comments 11

nachinashka December 20 2010, 16:08:13 UTC

меня вот это вот очень позабавило:
http://ngrams.googlelabs.com/graph?content=body%2Csoul&year_start=1800&year_end=2000&corpus=0&smoothing=3
http://ngrams.googlelabs.com/graph?content=%D1%82%D0%B5%D0%BB%D0%BE%2C%D0%B4%D1%83%D1%88%D0%B0&year_start=1800&year_end=2000&corpus=12&smoothing=3

zeisig December 22 2010, 18:58:23 UTC

наверное, как пишет Хахуля, "тело" писалось через ять. Но все равно прикольно получается;)))
Как освоение стадистики?

nachinashka December 22 2010, 20:59:41 UTC

хехе, это интересный вопрос - где в теле ять?)

а стадистика ждет пока своего часа... много дел, много пациентов... вот послезавтра наступят праздники, и можно взяться за освоение) хотя более важно пока глубокое освоение шизофрении - перечитываю ночами учебники по психиатрии.

zeisig December 23 2010, 01:18:48 UTC

да... вопрос забавный))) а что разве правило не в том, что если во множественном числе е не превращается в ё, то надо писать ять? ну и там десяток исключений...

Круто, уже прямо пациенты... то есть ты уже так хорошо знаешь испанский? или там не надо хорошо знать? А они сильно от наших, отечественных пациентов отличаются?

olesar December 20 2010, 16:13:20 UTC

предвижу здесь большие проблемы из-за того, что объем коллекций в разные периоды разнится и жанровая подборка кажется тоже. Ребята из гугла держатся пучком: все нормализовано, а Станиславский говорит:
http://ngrams.googlelabs.com/graph?content=прийти%2C+приехать&year_start=1800&year_end=2000&corpus=12&smoothing=3

zeisig December 22 2010, 18:53:18 UTC

Ну судя по всему статья и была написана для выявления этих проблем:) Думаю, что ученые самые клевые тестировщики, каждый захочет написать о несоответствии, которое он нашел в статье в Сайнсе. Вот и весь баг-трекинг без лишних затрат.

Но все равно игрушка клевая;)
http://ngrams.googlelabs.com/graph?content=%D0%BF%D1%80%D0%B8%D0%B4%D1%82%D0%B8,+%D0%BF%D1%80%D0%B8%D0%B9%D1%82%D0%B8&year_start=1800&year_end=2000&corpus=12&smoothing=3

hahulka December 22 2010, 17:12:15 UTC

Чижик, меня тут осенило:
Слово "Бог" нужни было искать с твердым знаком на конце!
Вообще очень интересно получается, если искать слова так, как они писались до революции. Например, "Дворец" и "Дворецъ". Жалко, что никаких старых букв, кроме Ъ на раскалдке нету.

вот так плучается с Богом: hahulka December 22 2010, 17:17:37 UTC

( ... )

Re: вот так плучается с Богом: zeisig December 22 2010, 18:46:25 UTC

Кстати да, ну старых шрифтов то хватает, вбить в том же гугле "дореволюционный шрифт" и качнуть по первой ссылке.
Да... сыроватый продукт, сыроватый, но думаю что гугло-менеджеры этого и добивались своей совместной статьей с гарвардцами. Сделали сервис, написали статью в одном из самых влиятельных журналов и все тестировщики мира нервно курят в уголке, тонны писем с находками всяких багов:)

Re: вот так плучается с Богом: hahulka December 22 2010, 22:51:01 UTC

Дааа,
я нашла чудесный словарь, который любое слово переводит в дореволюционую орфографию. И пыталась через эту гугл-систему что-то искать с 'ять', но нифига не получилось.

Может просто браузер не распознает, или баг в системе.

Ну да, статью в Сайенс про такой незамысловатый сервис - это прикольно. С другой стороны, это ж столько работы, создать базу данных! Так что может они и заслуживают.

Thread 5