Culturomics

Aug 29, 2014 08:38


Я когда-то писал об n-gram’ах, а тут автор той рубрики (Jean-Paul Delahaye) выпустил более подробную книгу на эту же тему. Надо брать!

Книга немного более полна, чем набор его же статей в журнале (я увидел там следы статьи про n-gram, про задачу рейтинга учёных, про словари чисел и последовательностей, про закон Бенфорда), и, самое главное, хорошо структурирована, плавные переходы от одной темы к другой, связи становятся более понятными.
Очень рекомендую, и с удовольствием дам почитать.

Автор рассматривает вопрос «базового уровня». Есть, оказывается, некий комфортный нам уровень, до которого мы предпочитаем усложнять или упрощать понятия. Например, нормальный человек не будет указывать породу лошади, даже если он знает её, он скажет просто «лошадь». Но при этом он же не обобщит и до «парнокопытного» или «животного». Аналогично «собака», а не «водолаз» (mbla, конечно же, скажет про ньюфа «ньюф», но мы о среднестатистическом человеке).
И наоборот - у каждого общего понятия есть универсальное конкретное представление. Назовите поэта - Пушкин. Представьте себе фрукт - яблоко.

Эти конкретные представления чаще всего обозначают хорошо знакомые нам реализации общего понятия. Но есть и непонятные исключения, так у «птицы» конкретное представление - это очень часто «канарейка». Не «воробей» или «голубь», которых мы видим каждый день, а жёлтая канарейка, которую мы, скорее всего, в жизни никогда не видели.

Автор описывает исследование корпуса текстов на частоту использования разных чисел. В качестве потенциальных проблем приводит пример пика 2044 - это число упоминается в разных книгах существенно чаще, чем, скажем, 2043 или 3044. Объяснение прекрасное - огромная часть книг, оцифрованных google, пришла из библиотеки Гарвардского университета. Штрих-код которого начинается с 2044 - ошибка оцифровки, штрих-код считается частью содержания книги.

Какие-то аномалии легко объясняются, а какие-то не объяснены до сих пор. Есть общее правило - частота упоминания чисел уменьшается с увеличением числа. Есть очевидные исключения «круглых чисел» - их упоминают чаще. Но почему 8 упоминается чаще, чем 7? Причём автор проверял на разных языках, и везде восьмёрка регулярно обгоняла семёрку. Нашему программистскому сердцу 8, конечно же, ближе и круглее. Но за 7 говорит вся мировая религия и мифология.

Цитирует инвертор иррациональных чисел - программу, пытающуюся найти символическую запись для примерной десятичной записи какого-то числа. Тоже развлечение не на одну минуту :-)

Оказывается, во французском языке «миллиард» - это неофициальное название 109, правильное обозначение - это «тысяча миллионов». Декрет 1961 (ещё в силе) определяет названия степеней десятки группами по 6 знаков - миллион (106), биллион (1012), триллион (1018) и т.д. А между ними используются тысячные множители.
Наконец-то я понял путаницу между триллионом, который с 12-ю нулями, и триллионом, который с 18-ю!

Заключительная глава - данных будет всё больше, жизнь гиков будет всё интереснее. Упоминает общественно-политические движения за открытость данных (у читателей Навального в этом месте нервный смех), открытые государством данные. Но при этом уточняет, что из всех данных, выложенных парижской мэрией в открытый доступ, наибольшей популярностью пользуется список мест съёмок художественных фильмов :-)

популярная наука, knigi

Previous post Next post
Up