(кросспост в ФБ -
https://www.facebook.com/notes/boris-ovchinnikov/про-активного-гражданина/10153191256792304)
Попробовал собрать воедино информацию и аргументацию относительно реальной посещаемости проекта «Активный Гражданин». Внимание к цифрам это проекта в начале недели было привлечено удивительно высокими цифрами количества проголосовавших по вопросу о переименовании станции метро Войковская (
http://ag.mos.ru/poll/view/1428)
Итак, что мы знаем:
- За первый день (2 ноября) проголосовала (согласно данным, отображавшимся самим сервисом Активный Гражданин) 101 тысяча, за второй день еще 65 тысяч (данные https://vk.com/album-102586843_223467437). За 4 ноября и первую половину 5-го ноября - еще примерно 25 тысяч
- Количество активных пользователей сервиса 2-3 ноября было в пределах стандартных значений, количество поданных голосов также не аномально - в истории сервиса неоднократно были голосования, по которым заявлялось количество проголосовавших более 200 и даже 400 тысяч
- Посещаемость сайта ag.mos.ru составляет сотни тысяч посещений в месяц - сервис SimilarWeb (http://www.similarweb.com/website/ag.mos.ru#overview) дает оценки в диапазоне от 390 тысяч за июнь до 720 тысяч за сентябрь (данные за октябрь еще не опубликованы), что соответствует примерно 15-25 тысячам посещений в сутки
- По данным Яндекс.Метрики ( https://twitter.com/emoskva/status/661625449227943937), посещаемость сайта выше - на глазок я бы сказал, что в среднем 25-30 тысяч посетителей в сутки (а посещений еще чуть больше). 2 ноября, в первый день обуждаемого голосования, посещаемость заметно выросла - примерно до 75 тысяч. Рекорд месяца
- При этом большая часть посещаемости приходится не на страницы голосований, а на стартовую страницу сайта и на каталог вознаграждений. Это видно и из собственной статистики проекта - https://twitter.com/emoskva/status/661625449227943937, и из статистики SimWeb - https://www.facebook.com/photo.php?fbid=10153711134223684. Леонид Волков приводит непонятно откуда полученный скриншот, по которому у самой страницы голосования по Войковской только 19 тысяч посещений в понедельник и менее 9 тысяч во вторник (http://www.leonidvolkov.ru/p/78/)
- Оценки SimilarWeb не учитывают пользователей мобильных приложений проекта. При этом точно можно сказать, что у версии для Android сотни тысяч скачиваний (в Google Play указано «Installs 100,000 - 500,000» - https://play.google.com/store/apps/details?id=ru.mos.polls). Аналогичные независимые данные по приложению для iOS отсутствуют. Можно было бы предположить, что у версии для iOS в разы меньше установок (исходя из того, что в Москве в 2,5-3 раза больше пользователей Android - см. http://www.liveinternet.ru/stat/ru/oses.html?slice=msk - и того, что у iOS-приложения всего 78 оценок в AppStore против 14 тысяч оценок у аналога в Google Play). Однако твит @emoskva ( https://twitter.com/emoskva/status/661565664763764736 ) показывает примерное равенство двух версий - в Google Play за все время 378 тысяч установок, в AppStore - 402 тысячи «единиц» (из скриншота непонятно, что это за «единицы»)
- Всего у АГ около 1.2 млн регистраций (предположу, что под регистрация понимаются зарегистрированный номер мобильного телефона). См. тут: https://twitter.com/emoskva/status/662298482070437888
- Из того же твита со скриншотом внутренней системы аналитики АГ видно, что количество активных пользователей (хотя бы раз за день зашли в систему) варьируется от 50 до 120 тысяч в сутки. При этом надо учитывать, что «активными пользователями» будут считаться и боты - если они есть в системе
В качестве интермедии я бы хотел выразить искреннюю и без всякого сарказма благодарность твиттер-аккаунту московского IT-департамента (
https://twitter.com/emoskva). Представленные скриншоты и пояснения не снимают многих вопросов, но по крайней мере делают дискуссию предметной
А теперь о том, почему все равно трудно поверить в цифры, заявляемые в рамках проекта Активный гражданин
- 50-100 тысяч голосующих в сутки - это очень много. Такая активность была бы заметна не только в статистике самого проекта, но и по внешним источникам - разговорам людей, упоминаниям в социальных сетях, опросам. Для сравнения - в магазинах франчайзинговой сети Перекресток Экспресс в Москве и области в день совершается чуть более 100 тысяч покупок. В финале конкурса Голос.Дети было послано 700 тысяч SMS со всей страны (это при многомиллионной ТВ-аудитории). Полагаю, что при этом среди моих или ваших знакомых найти покупателей Перекресток Экспресс или участников голосования в Голос.Дети проще, чем найти голосовавших в Активном Гражданине до 2 ноября (дополнение от 07.11: признаю, что это самый слабый из аргументов - он основан на субъективных наблюдениях; но его слабость не отменяет те странности статистики, которые обсуждаются в следующих пунктах)
- Если верить цифрам АГ, то получается, что каждый день голосует 5-10% от всех когда либо зарегистрировавшихся в проекте. Люди, знакомые с созданием и продвижением мобильных приложений, подтвердят, что это фантастически высокий уровень активности. Большинство людей, установив приложение, или вообще его не открывают, или забрасывают уже через несколько дней. Например, у Uber в Штатах ежедневная аудитория (не заказывающие, а хотя бы открывающие приложение) составляет то ли 8%, то ли менее 5% от всех установивших приложение (https://www.quettra.com/blog/rise-of-uber-in-the-usa/). Трудно поверить, что у АГ аналогичный уровень активности
- Судя по данным Яндекс.Метрики ( https://twitter.com/emoskva/status/661625449227943937), более двух третей месячной аудитории сайта - это новые, впервые пришедшие на сайт люди. Таких за месяц набралось 395 тысяч - по 13 тысяч в сутки. 2 ноября их было 45 тысяч. Подавляющее большинство из них не зарегистрированы в АГ - и соответственно не голосуют. Количество подаваемых через сайт голосов очевидно в разы меньше количества посетителей за сутки
- Даже если взять собственные цифры ДИТ по количеству активных пользователей - 119,5 тысяч за 2 ноября (данные за 3 ноября игнорирую, поскольку они могут быть за неполные сутки) - трудно их совместить с количеством проголосовавших (101 тысяча). Получается, что из всех зашедших в систему более 80% приняло участие в одном конкретном голосовании - а на все остальные варианты поведения (как то «зашел, но отвлекся и забыл проголосовать», «зашел, но не решил, как голосовать», «зашел, но не смог проголосовать» - а многие десктопные пользователи кстати жаловались на глюки и невозможность проголосовать, «зашел просто посмотреть статистику голосования», «зашел посмотреть каталог вознаграждений», «зашел принять участие в другом голосовании», «случайно запустил приложение», «страница автоматически открылась при переоткрытии браузера» и т.д.) остается менее 20%. Фантастическая конверсия заходов на сайт (или открытий приложения) в голосование
- Голосование по Войковской - первое за последнее время голосование в АГ, которое привлекло такое широкое внимание. Это видно и в статистике проекта: выросла примерно в 2 раза посещаемость сайта (см. ссылку в предыдущем пункте), резко улучшились позиции приложения в рейтинге Google Play (http://bit.ly/1kdGAq8), прирост общего количества регистраций с обычного для понедельников уровня в 1000-1500 в день скакнул до 9000 за 2 ноября. Но количество «активных пользователей» осталось на том же уровне, что и в предыдущие понедельники - когда никаких привлекающих внимание аудитории голосований не было. Наиболее вероятное объяснение этого феномена - количество голосов и «активных пользователей» рисуется с потолка, вне зависимости от реальной ситуации
- В данных по количеству проголосовавших прослеживается удивительно стабильный «уровень поддержки». Например, количество активных пользователей никогда (за период с 12 октября) не опускается ниже 50 тысяч - но очень часто оказывается чуть больше 50 тысяч. Например, по субботам всегда 53-54 тысячи пользователей - независимо от того, насколько высокой или низкой была активность накануне, в пятницу (а для пятниц при этом разброс большой - от 61 до 103 тысяч). 2 ноября, в первый день голосования по Войковской, вплоть до 10 вечера каждые 10 минут голосовало не менее чем по 900 человек (только в периоды технических проблем показатели были ниже). По 700-900 проголосовавших за 10 минут не было зафиксировано ни разу, зато в интервал от 922 до 970 проголосовавших за 6 часов (с 5 до 11 вечера) попало сразу 16 десятиминутных отрезков из 36. Тут аномально то, что количество проголосовавших за временной интервал легко «скачет» вверх относительно стандартного уровня, но никогда не опускается вниз. 3 ноября была аналогичная картина, только «пол» сократился аккурат в 2 раз - с 900 до 450 голосов за 10 минут.
При естественном голосовании можно было бы ожидать одного из двух: если бы голосовали в основном постоянные пользователи АГ, то количество голосующих постепенно бы затухало: чем больше времени проходит с момента открытия голосования, тем меньше шансов, что найдется пользователь, который еще не проголосовал. Если же голосуют в основном «новички», привлеченные обсуждениями в соцсетях и СМИ, то тогда на графике мы должны были бы увидеть много резких всплесков разной амплитуды (совпадающие с временем публикации того или поста) и постепенно снижение после каждого всплеска. Но мы видим нечто третье - постоянный уровень голосования, который прерывается отдельными пиками, после которых количество голосующих быстро возвращается аккурат к прежнему «плато». Люди так себя не ведут, и интернетные медийные и вирусные эффекты так не работают. - Кстати, о пиках. Помимо картинки с внутренней статистикой проекта ( https://twitter.com/emoskva/status/661826439369629696 - к сожалению, показаны данные только за 3 ноября, но не за 2 ноября), есть еще цифры, собранные активистами движения против переименования Войковской (https://vk.com/album-102586843_223467437) - они каждые 10 минут дергали страницу голосования и вытаскивали оттуда цифры по голосованию. За 3 ноября данные двух источников примерно совпадают - за одним существенным исключением: по версии ДИТ, между 13.00 и 18.00 было три всплеска активности голосования, с пиками в 100-120, изредка до 140 голосов в минуту. В версии «провойковцев» пик был один, между 13:20 и 14:40, зато очень мощный - до 2-2,5 тысяч голосов за 10-минутные отрезки (200-250 в минуту). И я честно говоря не вижу аргументов, почему надо верить ДИТу, а не внешнему мониторингу «провойковцев».
- На протяжении всего голосования практически не меняются проценты голосов «за» и «против». По закону больших чисел это вполне возможно - проценты должны стабилизироваться уже на нескольких тысячах голосов. Но только при условии, что голосующие утром и голосующие вечером, голосующие в начале голосования и голосующие под влиянием поднявшегося в соцсетях и СМИ обсуждения - это примерно одинаковые люди. Но это условие вряд ли соблюдается - хотя бы в силу того, что посты в соцсетях должны «волнами» приводить людей то с одной позицией, то с другой. Был бы под рукой массив с данными по выборам КС оппозиции - сравнил бы, посмотрел бы, какая там была динамика у топовых кандидатов.
- Многие обратили внимание на то, что сумма округленных процентов голосов за 4 предложенных варианта ответа была то 97-98%, то 100%. При единых правилах округления (и подсчете цифр, а не их рисовании) такого быть не должно. Прозвучавшее объяснение - что сначала система показывала целые проценты, то есть округлялось в меньшую сторону, а потом прямо по ходу голосования поменяли на округление до ближайшего целого - теоретически может быть правдой. Хотя конечно удивляет, что данную нелогичность округления не заметили пользователи и не скорректировали разработчики во время предыдущих, якобы столь же популярных голосований
К сожалению, ситуация патовая - я не верю, что ДИТ пойдет на раскрытие информации по голосованию (включая как собственные статистические данные проекта, так и данные внешних измерений вроде Яндекс.Метрики) в том объеме, который способен снять подозрения в фальсификации. Отдельные скриншоты не могут быть убедительным доказательством чистоты статистики. Активный гражданин остается «черным ящиком», основные метрики которого - в первую очередь количество проголосовавших - невозможно проверить извне.
При этом речь же идет не только о том, действительно ли у Активного гражданина так много голосующих пользователей. Если есть основания (а они к сожалению есть) предполагать, что фальсифицировано количество поданных голосов, то это автоматом означает, что и результаты голосования могут фальсифицироваться - притом практически в неограниченном масштабе