В какие дни человек предпочитает рождаться?

May 21, 2024 22:16

Казалось бы - кто же его спросит? Но, оказывается, всё не так просто.


Исходным материалом для этого исследования послужил пиратский диск "1998 NEW YEAR RELEASE OF TELEPHONE DATABASE (P.T.S.)", в конце прошлого тысячелетия купленный мною на рынке. Диск этот содержал, в частности, паспортную базу жителей Санкт-Петербурга. (В те времена к разглашению персональных данных относились ещё довольно спокойно). Если кому интересно, вот здесь ссылка на обезличенные данные.

Итак, в исходной базе содержалось 5006967 записей. После отбрасывания тех из них, которые вообще не содержат даты рождения (ДР), или содержат, но подозрительную (раньше 1899 или позже 1998 года), их остается 3542146.

Для начала посмотрим, как количество ДР распределяется по годам:


Рис.1. Количество дней рождений (BD) в год.
Не буду останавливаться на этом графике, ничего неожиданного здесь нет. Помним только, что это не количество родившихся в городе, а годы рождения живших там в конце 1990-х людей. (В скобках замечу, что мне непонятно, какие паспорта могли иметь жители города, рождённые после середины 1980-х, в 1998 году, ну да ладно).

Второй график интереснее:


Рис.2. Распределение дней рождений по году. Точка "1 января" исключена. Количество рождённых 29 февраля помножено на 4. Красный пунктир - среднее.

Прежде всего, количество родившихся 1 января (не показанное на графике) аномально велико - в 6 раз выше среднего. Вероятно, это артифакт базы данных - ДР "1 января" может означать, что реально известен только год рождения, а в поля "День" и "Месяц" всё же нужно что-то вписать. Високосные года встречаются примерно в 4 раза реже, поэтому ордината 29 февраля увеличена в четыре раза. И всё равно количество ДР в эту дату аномально мало. И это понятно - не каждый родитель пожелает, чтобы его ребёнок празновал свой ДР раз в 4 года, и многие предпочтут сдвинуть его на день. А вот аномальные выбросы 1 мая, 7 ноября и 25 декабря менее понятны. У меня есть такая гипотеза. Многим людям старшего поколения паспорта выдавались уже во взрослом возрасте, и даты рождения записывалась с их слов. Но некоторые знали её неточно (например, моя бабушка, 1913 года рождения, не была уверена в дне и месяце). А придумывая эту дату, люди тяготели к известным праздникам - Первому Мая, Дню Октябрьской Революции или Рождеству (правда, почему-то, католическому). Вероятно, чем-то подобным вызван и пик в начале года.

Но, может быть, тяготение к праздникам вызано не выбором владельце паспорта, а выбором того, кто эти данные вводил в базу? Нет, это не так. Посмотрим на следующий рисунок:

Рис.3. То же, что на Рис.2, для ДР с 1960 года.

Это тот же график, сделанный для ДР с 1960 года. Видно, что упомянутные выбросы исчезли - то есть не в машинистках дело. Зато появился новый - 11 ноября. Тут у меня даже правдоподобных гипотез нет. Быть может, аномалия в базе связана с красивой датой 11-11? И, кстати, на Рис.3 заметна сезонная вариация ДР, которой на Рис.2 видно не было.

Ещё один эффект виден на Рис.4, где показано распределение ДР по дням месяца:

Рис.4. Распределение ДР по дням месяца. 1 января выброшено. Проведена перенормировка, учитывающая наличие месяцов разной длины: ордината для дней 1, 29 и 30 помножена на 12/11, а для дня 31 - на 12/7.
Тут видны выбросы первого числа, а также в дни, кратные пяти. Вероятно, дело в том же психологическом эффекте: людям приятнее круглые и полукруглые даты. Депрессию в конце месяца я объяснить не могу. Если нарисовать тот же график с 1960 года (Рис.5), то аномалии в дни, кратные пяти, исчезают, а в начале и конце месяца - остаются. Возможно, это всё-таки артифакты базы.

Рис.5. То же, что на Рис.4, для ДР с 1960 года.

Итак, отвечаю на заглавный вопрос. Если человек сам придумывает себе день рождения, то он с большей вероятностью выберет либо день популярного праздника, либо дату с днём месяца, кратным пяти. 29 февраля он, скорее всего, не выберет.

P.S. Если бы я писал статью в научный журнал, то, без сомнения, снабдил бы текст оценками значимости упомянутных аномалий. Но это скучно и, в данном случае, не очень нужно, поэтому обойдусь без хи-квадрат критериев и прочей статистической науки.

наука

Previous post Next post
Up