Поисковики и robots.txt. Как это использовать?: dobryi

dobryi_leshii

Поисковики и robots.txt. Как это использовать?

Jul 23, 2010 11:04

Романтический период раннего Интернета характеризовался полным отсутствием законодательного регулирования.

Образовавшийся вакуум стихийно начал заполняться весовозможными самодельными правилами, нормами и кодексами,
регулирующими поведение в Сети (Помню даже книгу "Этика хакера").

Одной из таких норм стал набор правил для ограничения поисковым роботам доступа к содержимому на http-сервере.
Этот набор правил размещается в файле robots.txt в корневой директории.

Вот, например, как выглядит файл robots.txt на сайте ЦРУ (США):

(Приведенные в файле команды означают: всем поисковым роботам (команда User-Agent: *) запрещено индексировать содержимое папок /javascript/, /css/, /rollover_graphics/, /redirects/, /scripts/

Вот, что пишет о файле robots.txt Википедия:

--------------------
Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

. . .

Использование файла добровольно. Стандарт был принят консорциумом 30 января 1994 года и с тех пор используется большинством известных поисковых машин. (выделено мною -А.М.)
--------------------
Поясню, что означается слово "используется" на примере поисковой системы Google.

Задаю Гуглу запрос, не заглядывал ли он в папки, запрещенные к индексированию Центральным Разведывательным управлением США (не последней, вообще-то, организацией). "Заглядывал", отвечает Google - "причем многократно":

Итак, поисковые системы плюют на запреты в файле robots.txt, даже если это прямые запреты от ЦРУ.

Как это можно использовать?
(Замечу, что русское слово "можно" имеет три значения - "возможно", "разрешено" и "стоит ли").

Здесь и далее используется значение "технически возможно".

Какие возможности дает использование файла robots.txt в разведке (не только конкурентной):

1. Содержимое разделов, запрещенных к проходу роботами, можно просматривать вручную - иногда эти папки бывают открыты.
2. Содержимое разделов, перечисленных в файле robots.txt, охотно индексируют поисковые роботы - в первую очередь Google
3. Специализированные роботы (Avlanche) могут идти дальше, и организовать скрытое наблюдение за интересными разделами сайта - день за днем, неделю за неделей.

Рано или поздно важные папки оказыаются открытыми. Вот, например, админ ЦРУ на пару минут открыл папку scripts:

Специализированный робот незамедлительно скачал отттуда скрипты (ниже пример такого скрипта):

Если в таком улове попадают скрипты "свой-чужой", дальнейшее передвижение по сайту становится еще более легким, и полезный улов резко возрастает:

Отсюда правило: Не используйте файл robots.txt . Этот файл - подарок для разведки конкурентнов.

Почему стало возможным привести здесь пример с ЦРУ? Три года назад они усилили защиту сайта, и приведенные выше приемы применительно к сайту www.cia.gov пользы уже не принесут (кстати, не советую и пробовать).

P.S. Есть такое ощущение, что на портал ЦРУ теперь проходят другими способами :-))