МЧС оперативно отреагировал на
нашу критику и убрал все инструкции поисковым системам из robots.txt на своем сайте, индексировать его теперь могут все. К слову, в предыдущей записи была неточность в рассказе про отношения МЧС и Яндекса, исправляемся (см. UPD в конце записи).
Что касается МИДа с его желанием скрыть несколько разделов на своем сайте, то выглядит это так:
User-Agent: *
Disallow: /sbor.nsf/
Disallow: /sbor_adm.nsf/
Disallow: /sbor_des.nsf/
и так далее. Вся эта конструкция не должна была бы работать, т.к. по стандарту между 1 и 3 строчкой пустой строки быть не должно. Криворукие неучи-секретчики, больше сказать нечего. Но поисковики учитывают тот факт, что в мире полно криворуких сайтоклепателей, поэтому снисходительно смотрят на такое отступление от стандарта.
Федеральная служба по ветеринарному и фитосанитарному надзору очень хотела скрыть от поисковиков несколько разделов на своем сайте и понаписала в своем robots.txt:
User-Agent: *
Disallow: /fsvps-regcrt
Disallow: /fsvps-license
Disallow: /fsvps-hs
и так далее, а поисковики все равно индексируют эти разделы. Почему? А потому, что криворукие секретчики забыли поставить в конце каждой строки слэш, и поисковик воспринимает эти инструкции, как указание не индексировать файлы с перечисленными названиями, а не одноименные директории на сервере. Точно такая же история с английской версией сайта Федерального дорожного агентства.
С Федеральной антимонопольной службой, которая невесть что пыталась изобразить в своем robots.txt, вообще смех - указанная там инструкция поисковикам дважды бессмысленна. Смотрите сами:
User - agent: *
Disallow:
Во-первых, она соответствует поведению робота поисковика по умолчанию - индексировать можно всем и всё, а потому абсолютно бессмысленна в отсутствии иных инструкций. Во-вторых, между словами «user» и «agent» должен стоят короткий дефис без пробелов, а у ФАСа стоит полноценное тире, да еще и отбитое пробелами с обеих сторон. Для поисковика это - неизвестная и нестандартная инструкция, которую он вообще проигнорирует.