После прочтения сегодняшней
статьи на Хабре касательно обеспокоенности Роспотребнадзора "в связи с тем, что в последнее время в Интернете всё чаще создаются страницы, на которых размещается неоднозначная информация, которую трудно интерпретировать" любопытство взяло верх и я решил окинуть реестр взглядом.
Быстрогугление выдало мне страницу с 596 записями, которая была выборочно (20 случайных записей) проверена и признана вполне правдивой. В последствии я проверял каждый заинтересовавший меня адрес - все тесты были положительные.
Вооружившись лучшим немецким средством от паранойи я решил посмотреть за что были заблокированы те или иные страницы. Ну да обо всём по порядку. И сначала общая статистика. `grep -c 'ФСКН' dump.txt` даёт 560 записей, `grep -c 'Роспотребнадзор' dump.txt` - 21, `grep -c 'Роскомнадзор' dump.txt` - 15. Сумма полностью покрывает файл. Отмечу количество дубликатов в файле. Выборка по полям IP/DNS/URL типа `cat dump.txt | cut -d ' ' -f 1,2,3 | uniq | wc -l` даст 578 записей. Выборка по полям DNS/URL типа `cat dump.txt | cut -d ' ' -f 2,3 | uniq | wc -l` даст 553 записи. Скорее всего это проблемы источника, которым я пользовался, но после исходного кода сайта госуслуг (напомню: в исходном коде страницы есть строка var response = eToken.cmdLaunch("c:/cmdutils/servrestart.cmd", 0);) не удивлюсь, если исходная БД такая же.
Начнём с ударника банхаммера - ФСКН. Пожалуй только сайт крупной китайской фармацевтической компании меня удивил и опечалил. Остальному место в адской печи за редким исключением явного фейка, с которого и простой мусорной корзины хватит. Кажется я не могу сказать ничего плохого. Не, честно.
Переходя к вышеупомянутому Роспотребнадзору ситуация меняется едва ли не диаметрально. Большая часть записей уже удалена и не существует, но у нас ведь есть кеши поисковых систем! 21 запись распределилась следующим образом: 9 - соответствуют тематике, 8 - чёрный юмор, 2 - сатира/статьи по факту, 1 - не имеют ничего общего с тематикой, 1 - политическая цензура (там коллаж с призывом голосовать против ЕдРа). То есть реальная производительность этих ребят 9 из 21. Не густо.
На очереди на проверку Роскомнадзор. Первая запись, которая бросается в глаза - домен на сервисе *.dyndns.com. Она вызывает смех и слёзы одновременно, потому что IP там тоже указан и конкретно сейчас он не пингуется. Следом pictureview.com - сайт-агрегатор UseNet. Кто пользовался UseNet, знает что время жизни материалов в этой почтовой сети короткое и очень короткое. В итоге, 11 - ЦП, 3 - просто порно, 1 - эротика, даже не обнажёнка. 11 из 15 - не плохо.
Подводя итоги моих изысканий - эти два часа бездарно потраченной жизни дали мне понимание двух вещей. Во-первых, неэффективности блокировки как таковой: было бы желание, информация найдётся. Если мне хватило исследовательского запала, чтобы всё это раскопать, то для страждущего вопрос "как" определённо не стоит. Яндекс - найдётся всё, Гугл - а ничего и не терялось. Во-вторых, плохой организованности системы как таковой. Дубликаты, ложные срабатывания, мёртвые души - всё это следствие того, что кто-то не подумал лишний раз.
Отдельно вернусь к причине, побудившей меня провести это исследование. Из трёх рассмотренных поставщиков в реестр, Роспотребнадзор показал худшую производительность и максимальное количество ложных срабатываний. В этом свете их замечания касательно "неоднозначной информации, которую трудно интерпретировать" выглядит по меньшей мере странно, по большей - проявлением синдрома вахтёра. Лично мне не хочется осознавать, что за налоговые отчисления эти люди занимаются всякой хренью вместо работы.
А теперь, пойду-ка я выколочу из головы всю ту хрень и чернуху, прочитанную мной за последние пару часов. И вам доброй ночи.