О мифах Интернет-романтиков, robots.txt, любознательности и борьбе с ней. Для конкурентной разведки.: yushchuk

yushchuk

О мифах Интернет-романтиков, robots.txt, любознательности и борьбе с ней. Для конкурентной разведки.

Jul 26, 2010 09:06

Интернет проделал в своем развитии уже долгий путь. Из игрушки для гиков, он стал источником информации и средством коммуникации для очень многих людей. А, по мере подрастания сегодняшних 15-летних людей, он станет источником информации и средством коммуникации для большинства населения. Центральная Африка и глухие деревни стран Третьего мира в данном случае не рассматривается.

Разумеется, "места массового скопления" для кого-то - потребителей, для кого-то - избирателей, для кого-то мятежников, для кого-то поставщиков, а для кого-то - военно-политических соперников (а то и врагов) не могли остаться без внимания заинтересованных лиц.
И в Интернет пришли корпорации, а также государства. И придут еще более, т.к. нынешние 15-летние разойдутся в самые разные сферы человеческой деятельности, и принесут туда навыки работы и общения, отточенные на играх и чатах, варезниках и сайтах знакомств, Википедии и поисковиках.

Сегодня мы находимся в ситуации, когда инструменты, созданные под задачи реализации романтической свободы, доживают свой век и работают в совершенно других реалиях. Интернет, созданный айтишниками, переходит в руки слишком широких слоев населения, чтобы остаться неизменным. И это превращает многие инструменты - в уязвимости. А что для одних - неблагоприятная "дырка", для других (в т.ч. для конкурентной разведки) - источник получения нужных сведений.

Примером, который это иллюстрирует, на мой взгляд, может служить отличная заметка одного из лучших специалистов конкурентной разведки - Андрея Масаловича. Далее - цитата.
Источник - http://dobryi-leshii.livejournal.com/9669.html

Поисковики и robots.txt. Как это использовать?
Романтический период раннего Интернета характеризовался полным отсутствием законодательного регулирования.

Образовавшийся вакуум стихийно начал заполняться весовозможными самодельными правилами, нормами и кодексами,
регулирующими поведение в Сети (Помню даже книгу "Этика хакера").

Одной из таких норм стал набор правил для ограничения поисковым роботам доступа к содержимому на http-сервере.
Этот набор правил размещается в файле robots.txt в корневой директории.

Вот, например, как выглядит файл robots.txt на сайте ЦРУ (США):

(Приведенные в файле команды означают: всем поисковым роботам (команда User-Agent: *) запрещено индексировать содержимое папок /javascript/, /css/, /rollover_graphics/, /redirects/, /scripts/

Вот, что пишет о файле robots.txt Википедия:

--------------------
Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

. . .

Использование файла добровольно. Стандарт был принят консорциумом 30 января 1994 года и с тех пор используется большинством известных поисковых машин. (выделено мною -А.М.)
--------------------
Поясню, что означается слово "используется" на примере поисковой системы Google.

Задаю Гуглу запрос, не заглядывал ли он в папки, запрещенные к индексированию Центральным Разведывательным управлением США (не последней, вообще-то, организацией). "Заглядывал", отвечает Google - "причем многократно" (картинка кликабельна):

Итак, поисковые системы плюют на запреты в файле robots.txt, даже если это прямые запреты от ЦРУ.

Как это можно использовать?
(Замечу, что русское слово "можно" имеет три значения - "возможно", "разрешено" и "стоит ли").

Здесь и далее используется значение "технически возможно".

Какие возможности дает использование файла robots.txt в разведке (не только конкурентной):

1. Содержимое разделов, запрещенных к проходу роботами, можно просматривать вручную - иногда эти папки бывают открыты.
2. Содержимое разделов, перечисленных в файле robots.txt, охотно индексируют поисковые роботы - в первую очередь Google
3. Специализированные роботы (Avlanche) могут идти дальше, и организовать скрытое наблюдение за интересными разделами сайта - день за днем, неделю за неделей.

Рано или поздно важные папки оказываются открытыми. Вот, например, админ ЦРУ на пару минут открыл папку scripts:

Специализированный робот незамедлительно скачал отттуда скрипты (ниже пример такого скрипта):

Если в таком улове попадают скрипты "свой-чужой", дальнейшее передвижение по сайту становится еще более легким, и полезный улов резко возрастает:

Отсюда правило: Не используйте файл robots.txt . Этот файл - подарок для разведки конкурентнов.

Почему стало возможным привести здесь пример с ЦРУ? Три года назад они усилили защиту сайта, и приведенные выше приемы применительно к сайту www.cia.gov пользы уже не принесут (кстати, не советую и пробовать).

P.S. Есть такое ощущение, что на портал ЦРУ теперь проходят другими способами :-))

robots.txt, Интернет, Андрей Масалович