Фамилиё-моё

Sep 10, 2016 06:11

Как там у классиков? "Все гениальные открытия совершаются случайно". Так вот, вчера я совершенно непреднамеренно вышел на грандиозный сайт - что-то наподобие искал 4 года:

http://forebears.io/surnames

Там представлена информация по распространенности фамилий по всем странам мира - даже Ватикан (!) В базе, если им верить, 11 млн различных фамилий в латинской транскрипции. По всей видимости, данные ЦРУ Фейсбука и прочего. Косвенные доказательства этому есть. Помимо фамилий, там еще много всего: например, см. http://forebears.io/russia

Разумеется (а как же иначе), от идеала база далека. Насколько я понял, по каждой стране по разным базам составляется список популярности фамилий, после чего пропорционально дотягивается до населения на 2014 (для России до 146068400 - #крымнаш, обратите внимание). Разная представленность этнических групп в исходных базах искажает данные: так, по США фамилия Garcia лишь 13-я, хотя она была уже 8-й по переписи 2000, а сейчас судя по тенденциям 5-я, просто латиносы (в т.ч. мексиканские мигранты) хуже представлены в фейсбуках. Есть ощущение, что с кавказцами то же самое.

Еще момент: во Вьетнаме учитывают как фамилию не ту часть их сложносочиненной именной конструкции, в которой 38% Нгуенов, а другую, так что там дисперсия намного больше; в Южной Корее фамильный состав более пестрый, чем в КНДР, что тоже может говорить о разнице в методиках.

Составил топ-134 фамилий по России (более 100 тыс. носителей по заявленным данным). С кучей оговорок:

- данные соцсетей неизбежно содержат в себе фамилии, заявленные в псевдоанонимных аккаунтах - "*** Иванов", "Иван Петров", "Вася Пупкин" и др. По Пупкиным и Путиным проверил - так и есть, проценты на порядок выше, чем в базе МГТС, например. Так что Иванов здесь переоценен где-то вдвое, Петров - в 1,5 раза, так что реальная тройка медалистов - Иванов-Смирнов-Кузнецов с незначительными отрывами. Кроме того, вместо реальной фамилии может быть указана другая, "желаемая": ну не могу я поверить, что Цветковых-мужчин вдвое меньше Цветковых-женщин, например.

- Там все данные, напоминаю, на латинице, а о проблемах транслита и отсутствии единой его методики все знают. Так что вместо одной фамилии приходилось искать и суммировать кучу вариантов с разными написаниями таких букв, как Е, Ё, Ж, Й, Х, Ц, Щ, Ь, Ю, Я, сочетаний "КС", "ИЙ", "ЫЙ". Да, и мужские-женские варианты фамилий тоже объединил, конечно: в таблице представлены мужские (более короткие) варианты плюс несклоняемые фамилии на -енко и Ким (таки да, хоть корейцев в России и мало, но Кимов среди них столько, что в сумме с русскими, унаследовавшими эту фамилию, 100 тысяч набралось).

- Выяснилось, что в базе есть куча вариантов фамилий с какими-либо опечатками, а также отчества и имена, которые по ошибке или с умыслом пользователи соцсетей пишут в графе "фамилия". Некоторые из отчеств конкурируют по частотности с фамилиями из топ-100. Всего таких по России после растяжки данных до 146 млн вышло (оценочно) 1,5-2 миллиона, так что цифры в колонках "кол-во" и "%" только из-за этого надо увеличить в среднем на сотую долю. Не считая поправок на Ивановых-Пупкиных.

В общем, качество данных оставляет желать лучшего, но даже так есть на что взглянуть. При составлении таблицы сверялся с составленным в 80-х топом русских фамилий: http://russkg.ru/index.php?option=com_content&view=article&id=4390:-500&catid=84:2012-12-02-23-13-33&Itemid=63 и с топами фамилий близлежащих республик с сайта. Преимущественно нерусские фамилии в таблице: Алиев-Ибрагимов-Магомедов-Каримов, Шевченко-Бондаренко-Коваленко, Ким.


Фамилия
Кол-во
%

Фамилия
Кол-во
%

Фамилия
Кол-во
%

1
Иванов
1784513
1,222
46
Воробьев
207411
0,142
91
Савельев
132902
0,091

2
Петров
866213
0,593
47
Киселев
206917
0,142
92
Гончаров
131226
0,09

3
Смирнов
794777
0,544
48
Мельников
200288
0,137
93
Комаров
130770
0,09

4
Кузнецов
681744
0,467
49
Тарасов
194413
0,133
94
Наумов
129781
0,089

5
Васильев
588204
0,403
50
Сидоров
188405
0,129
95
Ефремов
125747
0,086

6
Попов
564740
0,387
51
Власов
187100
0,128
96
Щербаков
124903
0,086

7
Волков
453629
0,311
52
Ильин
186296
0,128
97
Ермаков
124765
0,085

8
Новиков
415354
0,284
53
Богданов
185518
0,127
98
Никифоров
124611
0,085

9
Соколов
410986
0,281
54
Жуков
184440
0,126
99
Малышев
123566
0,085

10
Романов
405350
0,278
55
Сорокин
181390
0,124
100
Трофимов
121982
0,084

11
Морозов
401075
0,275
56
Данилов
175555
0,12
101
Крылов
121886
0,083

12
Андреев
392442
0,269
57
Поляков
175182
0,12
102
Мальцев
121290
0,083

13
Михайлов
381840
0,261
58
Филиппов
172727
0,118
103
Климов
120271
0,082

14
Федоров
378649
0,259
59
Абрамов
172460
0,118
104
Горбунов
119922
0,082

15
Семенов
376714
0,258
60
Гусев
170872
0,117
105
Потапов
119850
0,082

16
Павлов
375892
0,257
61
Карпов
169370
0,116
106
Мартынов
119001
0,081

17
Алексеев
363237
0,249
62
Тимофеев
168100
0,115
107
Чернышев
118497
0,081

18
Макаров
353515
0,242
63
Осипов
166963
0,114
108
Голубев
117251
0,08

19
Николаев
340657
0,233
64
Пономарев
163611
0,112
109
Анисимов
116607
0,08

20
Сергеев
332976
0,228
65
Титов
163484
0,112
110
Лазарев
116482
0,08

21
Егоров
320371
0,219
66
Калинин
162831
0,111
111
Кириллов
114906
0,079

22
Степанов
309345
0,212
67
Назаров
160894
0,11
112
Архипов
113268
0,078

23
Орлов
299417
0,205
68
Шевченко
160387
0,11
113
Логинов
112938
0,077

24
Никитин
297501
0,204
69
Колесников
158167
0,108
114
Громов
111459
0,076

25
Захаров
291401
0,199
70
Куликов
157321
0,108
115
Быков
111404
0,076

26
Козлов
287755
0,197
71
Ефимов
156778
0,107
116
Князев
111358
0,076

27
Лебедев
279450
0,191
72
Чернов
156184
0,107
117
Самойлов
111068
0,076

28
Александров
272226
0,186
73
Фомин
153765
0,105
118
Маслов
110310
0,076

29
Белов
268842
0,184
74
Алиев
153466
0,105
119
Ибрагимов
109757
0,075

30
Зайцев
266773
0,183
75
Беляев
153378
0,105
120
Емельянов
109485
0,075

31
Яковлев
263927
0,181
76
Денисов
152416
0,104
121
Воронин
109426
0,075

32
Фролов
259282
0,178
77
Исаев
150128
0,103
122
Нестеров
108613
0,074

33
Григорьев
257801
0,176
78
Тихонов
150078
0,103
123
Магомедов
107814
0,074

34
Котов
256504
0,176
79
Марков
149689
0,102
124
Овчинников
105388
0,072

35
Миронов
254048
0,174
80
Баранов
148982
0,102
125
Каримов
104688
0,072

36
Максимов
252957
0,173
81
Афанасьев
148703
0,102
126
Кудрявцев
103404
0,071

37
Соловьев
248611
0,17
82
Давыдов
147189
0,101
127
Соболев
102176
0,07

38
Королев
231550
0,159
83
Гаврилов
144954
0,099
128
Прохоров
101612
0,07

39
Кузьмин
230388
0,158
84
Виноградов
144434
0,099
129
Бондаренко
101186
0,069

40
Антонов
226245
0,155
85
Журавлев
143288
0,098
130
Коваленко
101018
0,069

41
Ковалев
225845
0,155
86
Казаков
139452
0,095
131
Ким
100840
0,069

42
Борисов
225127
0,154
87
Федотов
138211
0,095
132
Краснов
100088
0,069

43
Дмитриев
224683
0,154
88
Филатов
136625
0,094
133
Цветков
99753
0,068

44
Медведев
215085
0,147
89
Герасимов
136582
0,094
134
Родионов
99748
0,068

45
Матвеев
208674
0,143
90
Коновалов
133990
0,092
Итого топ-134
29517726
20,21

Каждый пятый россиянин (и каждый шестой-седьмой читатель этого блога) - носитель одной из этих фамилий!

фамилии, Россия, обнаружёнка, ©, статистика

Previous post Next post
Up