Основной итог - карта средневзвешенного балла. От обычного среднего, которое можно увидеть в автоподсчете, оно отличается двумя моментами:
1) на месте пустот (пропусков) в таблице оценок для каждого из 60 респондентов проставлено байесово среднее от его имеющихся оценок - это ожидаемый уровень "нейтрального балла" участника, который проще всего посчитать, если добавить к его проставленным оценкам один минимум (1) и один максимум (10) - среднее арифметическое от N+2 оценок и будет искомым байесовым (не буду здесь грузить высшей математикой, почему так получается, там интегралы и плотности вероятностей);
2) каждому респонденту присвоен вес, равный квадратному корню из числа проставленных им голосов, что призвано отразить разницу в ожидаемом уровне "экспертности", в бытовом смысле слова взвешенности набора выставленных оценок. Именно квадратный корень отсылает как к расчетам точности измерения случайной величины (среднеквадратичной ошибки), так и к методу Пенроуза, обосновывающему его объективность для коллегиальных голосований.
Картина маслом. Тройка лидеров - Исландия, Италия и Австрия, причем последняя лидировала почти до самого конца приема голосов. Высокий средний балл у "коллективного Запада" и у России. При этом у США балл заметно ниже, и вообще у трех крупнейших стран (Индия, Китай, США) баллы довольно близки. Украина - ниже среднего, Северная Корея для многих может показаться неожиданно завышенной, но с учетом свободы выбора критериев для оценок ожидаемо вполне, настолько одиозный случай не может не поляризовать мнения, а для минимальных баллов, как и для максимальных, нужен какой-никакой консенсус. Кстати да, аутсайдеры - Гаити, Сомали и Афганистан (вырвавший эту "победу" с применением описанной методики подсчета). Африка со свистом проигрывает всем остальным, лишь считанные страны еле-еле дотягивают до среднемирового уровня.
Для сравнения - медиана (также взвешенная - то есть оценка участника, на которую приходится середина отрезка, составленного из упорядоченных по возрастанию оценок отрезков проголосовавших шириной с вышеупомянутый квадратный корень, у обычной медианы все отрезки одной ширины). Несмотря на ее "репутацию" как более умеренной, нежели среднее арифметическое, статистической характеристики, разброс стран по медиане вышел сильнее - и надо сказать, смотрится логичнее, более похож на Карту абсолютно чего угодно™ за понятными исключениями.
Таблица данных с сортировкой по средневзвешенному. Справа указаны медиана и СКО (среднеквадратичное отклонение) - правильно, тоже со взвешиванием. Максимальный разброс мнений оказался у Норвегии, у России тоже высоко, среди аутсайдеров - у КНДР. Наименьший - у Кирибати, и вообще у середнячков, особенно малоизвестных. Если сложить / перемножить среднее и медиану, список будет простой сортировкой сначала по второй, затем - по первой.
Для удобства навигации - страны в алфавитном порядке. Интересно, как многие лидеры кучкуются, особенно четыре "И" подряд.
Кстати, главным факапом формата голосования является краевой эффект - заметная доля участников начала заполнять оценки сверху вниз по алфавиту и забрасывала это дело после первой или нескольких дюжин (на которые был разбит опрос). Так что наибольшее количество голосов не у самых известных / интересных / хайповых стран, а тупо у достаточно известных стран на букву "А". Но, пожалуй, разделение опроса на несколько отдельных постов - по частям света или как-то еще - 100% привело бы к намного более сильным несовпадениям списков голосующих за разные страны, вспоминаем опрос по правителям.
Корреляции между голосами респондентов: из 60 оставил только 48 человек с 40+ голосов (отсутствие голоса приравнивается за байесово среднее). Самым "центральным" оказался я сам (что косвенно подтверждает, что на этот раз, в отличие от опроса по правителям, у аудитории нет выраженного крена в какую-то одну сторону). Также близки к коллегиальному мнению reissig, pachem и geonike, а вот doncunita2, manwithmap и особенно savenserg проголосовали максимально противоположным образом. Также не могу не отметить загадочный аккаунт 89654325, в течение нескольких дней демонстрировавший чудеса тактического голосования и в конце концов максимизировавший собственный вклад в среднее топорным, но действенным методом - всем недооцененным с его точки зрения по 10, переоцененным - по 1.
А теперь матрица корреляций между странами (по всем 60 голосам) - упорядочено по среднему баллу, открывайте по клику хайрез и изучайте, кому интересно.
Максимальную корреляцию показала пара Сент-Китс и Невис - Сент-Винсент и Гренадины, чуть дальше от обоих отстоит Сент-Люсия - комментарии излишни. Из стран с высоким рейтингом максимум у пары Финляндия - Нидерланды. Наиболее сильная отрицательная корреляция у очень характерной пары КНДР - Норвегия (страны с высокой дисперсией оценок, т.е. поляризацией мнений, причем обе - соседи России с двух краев, с короткой границей). У России же максимум с Беларусью, а минимум - нет, не угадали, с Бельгией.
На матрице, особенно в уменьшенном виде, хорошо видны "ядра", что логичным образом выливается в идею сделать кластеризацию. При большом количестве кластеров местами красиво и логично, но в других регионах одновременно с этим каша, а вот 3 кластера по методу К-средних вышли просто прекрасными, даже названия не нужно придумывать:
Кстати, за время опроса одна из стран - Нагорно-Карабахская Республика - успела физически самоликвидироваться, но на ход состязаний это не повлияет.
А теперь насчет формата последующих этапов. Поскольку другая возможность обкатать такой вариант появится еще нескоро, хочу провести два параллельных поэтапных плей-оффа - "Турнир Лучших" и "Турнир Худших". Скорее всего в них будет разнесенный старт, как в футбольных кубках (то есть автоматическая квалификация в разные стадии на основании общего рейтинга); в "Турнире лучших" также намереваюсь для верхушки применить систему второго шанса (double-elimination, вылет после двух поражений), что также послужит для нее форой.
А вот вопрос числа стран-участниц в каждом из двух турниров остается открытым (единственное, что ясно - в каждом количество 100% будет кратно 8, и скорее всего даже кратно 16, особенности планирования сетки). Все-таки, несмотря на большой массив данных, решил провести "контрольный замер" парой опросов с произвольным количеством галочек.
Прошу заинтересованных отметиться ниже, а также в комментариях оставить мнение - нужно ли подбирать пары дуэлянтов вручную, осмысленно, или же чисто математически "змейкой" (лучший с худшим, второй с предпоследним и т.д. в рамках каждого этапа)?
UPD. Прием голосов окончен, определены 64 участника "Турнира лучших" и 48 участников "Турнира худших" (все получившие 10 и более голосов). Первый тур - 13 октября в первой половине дня.