Популярность имен Московского региона в 1891-2007 гг.

Feb 27, 2016 22:47

http://names.mercator.ru/

Автор прекрасной инфографики по ссылке выше Константин Варик недавно в комментариях у Тёмы поделился исходной базой данных о популярности различных имен в Московском регионе за разные годы - от 1891 (!) до 2007 (!)

Поколдовав над этой базой, привел ее в удобоваримый вид - разделил мужчин и женщин и представил в виде таблицы абсолютных значений в координатах [имя;год]. Объем данных поражает - более 10 млн М и еще чуть больше Ж, в базу внесены 3447 мужских и 2734 женских имен.

Обозначу недостатки: по 1891-99 годам выборка очень малая, не репрезентативная, причем заметил большую концентрацию еврейских имен в этом периоде - не подумайте ничего плохого; данные 1900-01 и 1910-11 годам сильно выбиваются из окружения, причем "шум" соответствует частотности имен более поздних лет - видимо, это некие default years, которые зачастую указаны вместо реальных. По 1910-11 гг., кстати, это отчетливо видно на инфографике. Ну и в небольших количествах есть варианты написаний имен с опечатками, а также уменьшительные формы.

Во всем остальном - просто клад! Пока не делал никаких расчетов, но тут непочатый край работы - все впереди. Даже по сырым данным находится много интересного. Скачивайте:

http://sevabashirov.ucoz.ru/names.xls

имена, годы, ©, статистика

Previous post Next post
Up