Jul 31, 2011 18:16
Народ, следящий за всякими интернет-скандалами, уже наверняка весь в курсе темы о том, как в поисковики Гугл и Яндекс просочились тексты СМС-сообщений практически всех сотовых операторов России, а также заказы в целом ряде электронных магазинов, включая интим-шопы.
Да, это реально круто, когда любой может найти в поисковике Гугль заказ какой-нибудь гомосексуальной анальной затычки на имя и адрес конкретного известного человека. А потом почитать SMS-ки, которые тот слал своим любовникам. И понятно, до какой степени этот человек будет взбешен.
Однако я вам вот что скажу, мои милые друзья. Как известно, и Яндекс и Гугель в качестве причины попадания столь критичных данных к ним в базу поиска называют низкую квалификацию программистов и администраторов ВЕБ-ресурсов (вроде порталов сотовых операторов и интернет-магазинов), "допустивших ошибки в составлении файла robots.txt и использовании ссылочного аттрибута nofollow".
Для тех, кто далек от веб-программирования, объясняю: в файле robots.txt указывается для поисковых роботов, куда им ходить можно, а куда - не надо. Выглядит это примерно так (кусок реального robots.txt):
User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /shop/order/
то есть всем агентам (*) запрещается ходить в папки A, STAT, SHOP/ORDER и индексировать (помещать в базу поиска) то, что там лежит. Ну а что лежит в SHOP/ORDER - я полагаю, вы и сами догадываетесь.
Аналогичную задачу выполняет аттрибут nofollow применительно к конкретному адресу URL (гиперссылке). То есть если гиперссылка имеет аттрибут nofollow - поисковые роботы не должны по ней переходить.
И вот отсюда начинается самое интересное.
Видите ли, переходить по ссылкам с nofollow или не переходить, индексировать содержимое запрещенных в robots.txt папок или не индексировать - это всё ПРЕДМЕТ ДОБРОЙ ВОЛИ конкретного поискового робота.
На самом деле эти данные доступны кому угодно. Любой Вася Пупкин, у которого хватит ума набросать простейший индексатор сайтов на Перле или просто взять готовый моторчик поискового робота, может натравить этот индексатор на какой-нибудь интернет-магазин эротических товаров и собирать с него базу заказов и клиентов. Потому что читать robots.txt никто никого не обязывает, и выполнять то, что подразумевает аттрибут nofollow, тоже не является обязательным. Ваш собственный браузер, которым вы смотрите сайты, плевать хотел на аттрибут nofollow - и это правильно и логично, между прочим, поскольку в противном случае гиперссылка просто не имела бы смысла, по ней никто бы не мог перейти.
Естественно, все, кому надо собирать такого рода информацию (включая государственные органы какого угодно иностранного государства), ее с сайтов собирают. Используя те же самые технологии, на которых работают Яндекс и Гугль - только не связывая себя ограничениями.
И даже сами "гражданские" поисковики тоже не прочь пересматривать "задним числом" правила игры в видимость информации. Вот, например, Яндекс когда-то умел отрабатывать теги noindex - заключенная между этими тегами часть HTML-кода не попадала в индексацию. А потом взял, и перестал эти теги учитывать. И у кучи народа попали в поисковую выдачу не предназначенные для этого тексты, и Яндекс проиндексировал не предназначенные к индексации страницы по ранее закрытым noindex ссылкам.
Так что, дорогие вы мои, утечка данных случилась уже давно, и гораздо более масштабная, чем вы вообще можете себе представить. И все специалисты давно в курсе этого.
Просто именно сейчас в России в действие вступила некоторая новая законодательная база - написанная, как у нас водится, безумными юристами, ни бельмеса не понимающими в интернет-технологиях. И некоторые люди решили постебаться над этой закбазой - показав, как под нее попадают такие интернет-гиганты, как Яндекс и Гугль.
Типа - а ну-ка, слабО вам посадить Гугль?
Юристы-законодатели просто еще не понимают, в какую они лужу сели. Потому что "посадить Гугль" им в самом деле слабО.
Observer специально для bohn.ru
интернет