Аморфные медузоновости

Jul 22, 2021 23:44

Не так давно по сети пробежала весьма наукообразная статья медузьего происхождения, в которой жарёналисты нескольких изданий активно продвигают идею, что на самом деле (tm) заболевших короной у нас уже 29 миллионов. Основывается эта идея на том, что QR-коды переболевших ссылаются на записи в базе госуслуг и сайта мэра Москвы, а в этих записях есть некие "уникальные номера регистровой записи", выглядящие как счетчики, и дотикавшие уже до вышеназванной цифры.


Это изыскание репостят многие, и среди них попадаются достаточно умные люди - испанский стыд за которых, в общем, и сподвиг меня написать этот пост. Часть репостящих пишет, что вот мол, власти скрывали, а медуза выкопала. Другая часть пишет, что разработчики системы дураки, и не предусмотрели возможность трактовки этого номера столь заковыристым образом, тем самым позволяя медузе раскрыть страшную тайну.

Последний тезис всерьез воспринимать сложно - во-первых, фантазия дурака шире представлений безопасника, а во-вторых, любая попытка нумерации населения всегда приводит к появлению стад Капитанов Гусей, которые гонятся за козленком просто потому, что тот их считает. Так было с номерами паспортов, так было с ИНН, так будет и с номерами записей о прививках и болячках. Дурак - понятие инвариантное, он всегда найдет обо что свою дурость проявить.

А вот с первым тезисом стоит разобраться повнимательнее.

Каковы факты?

Факт первый. Существует реестр привитых и реестр переболевших.

Факт второй. В обоих реестрах есть некие уникальные номера записей, похожие на последовательные счетчики.

Факт третий. Темп роста уникального номера в реестре привитых примерно соответствует статистике о темпах прививания.

Какой вывод делает статья?

"Он [автор] предположил, что и сертификаты для переболевших COVID-19, которые стали выдавать этим летом, могут быть устроены таким же образом [как и сертификаты привитых]. И снова попросил читателей о помощи: прислать обезличенную часть  номера сертификата и указанную в нем дату выздоровления от коронавируса.
Собранные им данные показывают, что известное государству число  переболевших может быть в несколько раз выше цифры, которую сообщает  оперштаб."

Сразу заметим - не "значение максимального уникального номера", а "известное государству число переболевших". Подобное передергивание в самом начале уже заставляет серьезно задуматься над степенью обоснованности дальнейших выводов.  Дальше по тексту статьи этой эквивалентностью уже оперируют как фактом, рассуждая лишь о возможных незначительных отклонениях. То, что реально основывается она лишь на том, что у двух похожих реестров есть однотипные поля - постепенно замыливается. "Может быть" из последней строчки тоже мистическим образом исчезает.

Заметим, что ситуация "привит, но прививка аннулирована" или "записан в привитые по ошибке" - крайне редкая, в отличие от ситуаций "заболел, оказалось не ковидом", "ПЦР дал плюс, но не подтвердилось" и подобных. Иными словами, степень замусоренности лишними записями реестра привитых существенно ниже замусоренности реестра заболевших. Количество записей, которые в дальнейшем не подтвердятся, но счетчик на которых уже щёлкнул, в случае заболевших существенно выше.

Далее.

Немного о базах данных.

Если вы записываете что-то пером в прошитый талмуд - вы всегда можете сослаться на пятую строку на сто пятой странице восемнадцатой книги, и ваша запись будет там, куда вы ее вписали. В табличной базе данных все несколько не так, там очередность выдачи строк в общем случае не гарантируется, и поэтому у каждой записи специально делается некий уникальный идентификатор, по которому можно ткнуть пальцем именно в эту запись. Уникальный - это значит, что он только у этой записи такой, ни одна другая запись в этой таблице такого же идентификатора иметь не может вообще никогда. Поскольку гарантируется уникальность - при любых коллизиях, конфликтах, сбоях создания записи и т.п. идентификатор повторно не используется.

Если, скажем, два источника одновременно попытались создать запись номер 100 - обоим скажут "попробуйте еще раз" в расчете на неодновременность второй попытки, и получатся записи номер 101 и 102 (или 110, если за время повторной попытки несколько записей успел создать кто-то еще). А записи номер 100 в базе просто не будет, и ничему ее отсутствие не помешает.

Если кто-то удалил запись номер 345 - этот номер не будет использоваться повторно, поскольку мало ли кто и где в других базах сохранил ссылку на эту запись. В разумно устроенных базах запись даже удалена не будет - на ней поставят флажок "удалено", и если кто-то пойдет по ссылке, то получит сообщение об удаленной записи, а не доступ к случайной записи, которую вписали на освободившееся место.

Вопрос сборки освободившихся мест в нумерации в некоторых случаях может вставать - например, если записей очень много, а длина номера ограничена - но это явно не наш случай, поскольку в стране всего населения 145 миллионов, а в уникальном номере регистровой записи 8 разрядов, плюс региональный префикс, плюс месяц и год выявления. Если каждый человек в стране, от грудничков до старичков, соберется в границах одного региона и там заболеет - то тогда да, чтобы это посчитать нам придется задуматься, то ли знаков в номере добавить, то ли свободные номера собирать. Первое, кстати, технически намнооооого проще.

Что же говорит нам статья?

Статья, ссылаясь на некий безымянный источник в федеральном ведомстве, описывает, что неподтвердившиеся диагнозы из реестра удаляют, и эти номера впоследствии занимаются новыми заболевшими. Интересно, кто в "федеральном ведомстве" настолько осведомлен о технологических моментах хранения данных - и одновременно о том, что "регионы могут самостоятельно решать как вести регистр", "на федеральном уровне приходится перепроверять данные регионов" и "количество записей в регистре плохо показывает ситуацию в реальном времени, так как на уточнение и отбраковку лишних записей требуется не менее суток"? Экий человек-оркестр получается, с охватом от архитектора баз данных и до федерального координатора регионов.

В подтверждение существования этого процесса (переиспользования номеров) приводится пример "Например, сертификат с порядковым номером, начинающимся на 2327 был выдан в апреле 2021 года. При этом номер, начинающийся на 2376, записан в март. Получается, что апрельский номер, хоть и был присвоен позже, занял ранее освободившееся по порядку место среди мартовских."
А парой абзацев выше было сказано, что "Сертификат создается только после выздоровления человека, но номер в нем относится к дате выявления заболевания."

То бишь в апреле вполне мог быть выдан сертификат с номером от марта, и его номер мог быть создан до мартовского.

Не подозрителен ли большой интервал от 270 до 760 тысяч - полмиллиона за месяц? Да нет, если с марта до июня 6 миллионов (с 23 миллионов до 29) набежало, то полмиллиона в течение месяца вполне реальной цифрой выглядят.

И это мы еще не спрашиваем "а из одного ли региона эти два сертификата" - ведь, как утверждает неизвестный источник, регионы сами могут решать, что вносить и как учитывать.

И тут мы приходим к наиболее интересному - а именно, что же считает этот уникальный номер? Что именно попадает в реестр?

Попадают заболевшие по результатам тестов. С этим понятно, ПЦР словил - сиди в реестре, пока два последовательных ПЦРа не дадут минус. Кстати, если "заболевание" случится по второму разу - запись будет сделана заново с новым номером.

Попадают заболевшие по результатам "других видов диагностики" - иными словами, по подозрению на ковид.

Попадают все пневмонии, любого генеза и метода диагностики.

Попадают на усмотрение регионов "сомнительные случаи ОРВИ" - то есть простуда с температурой. Таких "сомнительных случаев" в реестре, по словам все того же источника, до 20-30%. От одной пятой и примерно до трети.

Сухой остаток: в отношении количества заболевших цифры, приведенные расследованием медузы, можно трактовать исключительно как оценку гарантированно сверху. То есть - количество заболевших на момент взятия данных "о 29 миллионах" заведомо меньше 29 миллионов. Насколько меньше - данных нет, может, на миллион, а может, на 25 миллионов. Но точно не больше. Ровно с той же точностью можно сказать, что заболело не более 145 миллионов россиян - точно не больше, потому что россиян всего 144.1 миллиона :)

Размышлизмы, Живу я здесь

Previous post Next post
Up