"Начало массовой мутации белых и пушистых интернет-сервисов в грязных и мохнатых интернет-шпионов"

Feb 01, 2009 23:55

Это цитата. Слова Андрея Масаловича - человека, который создает роботов, способных вытаскивать с сайтов информацию. Такую, которая доступна каждому желающему, но которую далеко не все знают, где искать.  И которую при этом владельцы не стремятся демонстрировать публике.

Недавно я размещал в своем блоге подкаст с интервью Андрея Масаловича радио"Голос России".

Ниже даю текст, фраза из которого вынесена мною в заголовок.
Выводы о том, имеет ли к нему отношение сказанное Андреем, каждый может сделать сам.
Единственное вмешательство в сказанное Андреем, которое я себе позволил - я поменял местами два блока его информации. Поэтому то, что скрывается за словами "приведенные выше примеры «прогулок по невидимому Интернету»", находится во втором блоке цитаты.

"А вот я как раз и хотел высказаться про Гугл и по русски.
(Кстати, Google я обожаю и юзаю постоянно, а он меня кормит, хотя и регулярно обзывает роботом, но это не отменяет того, что написано ниже)

Собственно, приведенные выше примеры «прогулок по невидимому Интернету» - это так, детские шалости, поскольку в каждом случае это плата конкретной фирмы за собственное раздолбайство, леность или безграмотность.

Но есть воистину чудовищная проблема - а о ней почему-то не пишут, не говорят и не созывают демонстраций. Проблема в массовой, страшной и быстротечной мутации мировых поисковых систем за последние два года. Похоже, нас все-таки облучают инопланетяне, причем точечно, метясь в разработчиков массовых интернет-сервисов.
Поясню.

Вкратце свою методику экспресс-аудита утечек я обычно поясняю фразой из лексикона участников событий в Грозном: «В подвал заходим вдвоем. Первой - граната, вторым -я».
Роль гранаты уже много лет исполняют логи различных поисковых систем. Они исправно обегают все пространство портала, показывая мне и структуру адресного пространства, и наиболее интересные разделы, и скопления важных документов, и открытые папки и т.д.
Использовать это знание быстро и экономно я приучился уже давно, но до последних лет поисковики все-таки старались вести себя прилично, и сбор «жемчужных зерен» требовал усилий.

А вот что творится сейчас (этот пример я как раз приводил в интервью). Вот портал одной из крупнейших российских финансовых компаний. Вот файл robots.txt, где перечислены папки, запрещенные к обходу любыми роботами. Часть папок имеет весьма привлекательные имена (/admin и т.п.).
А вот результат трех запросов к Google сегодня утром:
Гугл, не заходил ли ты надысь в запретную папку /admin? - Заходил, 8 раз.
Гугл, а не заходил ли ты в запретную папку /files? - Заходил, 17 раз.
- А не заходил ли ты в запретную папку /mediacache? - Заходил, 175 раз.

Если я не ошибаюсь, по российским законам это даже не подпадает под «те же действия, совершенные повторно». Это уже другая статья - «Глумление над трупом».

Отдельно поясню про mediacache - это такое огромное пространство на сервере, которое используется как медиа-кэш продвинутыми средствами разработки (типа WebBuilder), крутыми сайтами с потоковой обработкой, а также (внимание!) программами Adobe - в частности при обработке документов со сканера. Так что если у вас крутые разработчики, навороченный софт, интегрированный документооборот и немного невезения, то из интернет-кафе в Турции видно, что вы там вчера насканировали в своем офисе (а сканируют часто паспорта, договора и учредительные документы офшорок). Звучит как бред, но я все это видел и продолжаю видеть.

Т.е. я могу констатировать начало массовой мутации белых и пушистых интернет-сервисов в грязных и мохнатых интернет-шпионов. И что с этим делать?"

А вот те самые "приведенные выше примеры «прогулок по невидимому Интернету»":

"Давайте подскажу порядок действий на примере с индусами (techeduhry.nic.in):

1. Делаю какое-нибудь действие из коллекции "Где разбросаны игрушки?"
Обычно я ищу на сайте скопления документов - если их много рядом в формате pdf, значит там собрана вся официальная жизнь фирмы,
если наблюдается россыпь в формате doc - значит, открыта дверца во внутренний доументооборот,
а уж если обнаруживается xls - это просто праздник, поскольку Excel провоцирует человека на систематизацию конфиденциальной информации (паролей, списков сотрудников, планов работ, контактов, финансовых документов и т.п.) Единственное исключение - прайс-листы (но, впрочем, найти прайс-лист на сайте генпрокуратуры - это тоже удача
)

В данном случае я просто зашел в расширенный поиск Google и задал "Искать на сайте таком-то все файлы в формате XLS" - их там 80 штук.
Далее я задал "Искать в формате XLS на сайте таком-то файлы со словом password" - Google принес один файл.

Если у вас это тоже получилось, то сейчас вы сделаете одну общую ошибку - вы попытаетесь его открыть. Этого делать не надо по двум причинам.
Во-первых, в этот момент вас обнаружит сервер с той стороны (а вам оно надо?), пока же он видит только Google, который его не пугает.
Во-вторых, открыв файл в лоб, вы там не увидите паролей - она в невидимой части Excel-файла.

Поэтому, чтобы посмотреть файл, нажмите в Google кнопку "В виде HTML" - тогда файл и откроется в полном виде, вместе с паролями, и сервер не проснется (по команде "В виде HTML" Google сам забирает с сайта документ, сам переводит его в HTML и приносит вам, не отдавая адресату ваш IP).

Как видите, ничего хитрого."

Источник - Форум Бизнес-разведчиков

Ющук Евгений Леонидович

Моя презентация о том, что такое конкурентная разведка, чем и как она занимается

разведка в интернете, google, Ющук Евгений Леонидович, информационная безопасность

Previous post Next post
Up