Увидеть невидимое. Интегрум: поиск в Deep Web

Apr 07, 2010 15:16



Кроме страниц Интернета, видимых паукам поисковых машин и, таким образом, доступным любому подключенному к Сети пользователю, существует и так называемый «Невидимый Интернет». Эти страницы не индексируются поисковиками и найти информацию хранящуюся на них привычным способом не получится. Привычным - значит тем, каким информацию ищут большинство Интернет-пользователей: ввод запроса в Гугл, Яндекс или еще какой-то поисковик и получение ссылок по найденному запросу. Не думаю, что проводились исследования - сколько пользователей не использует никаких других методов, но, полагаю, не ошибусь, если предположу, что таких 99%. Возможно, я ошибся и таких еще больше.

В «Невидимом Интернете» могут находиться страницы, которые не связаны с другими страницами гиперссылками, и поисковые роботы просто не могут попасть на них и добавить в поисковую базу. Другие страницы могут быть закрыты для не авторизованного доступа и чтобы попасть на них пользователь должен ввести свой логин и пароль, чего, разумеется, поисковый паук сделать не в состоянии. Владелец сайта может сам, по каким-либо причинам, запретить индексацию тех или иных страниц своего ресурса, прописав запрещающую команду в файле robots.txt или, в том же файле, дать разрешение на индексацию только определенной страницы. К примеру, первой.

Существует ряд методик, которые  активно используются Конкурентной разведкой, для того, чтобы искать и находить информацию недоступную для поисковых машин. О них довольно много написано, в том числе и мной с моими коллегами по Сообществу Практиков Конкурентной разведки (СПКР). Так что, если есть желание, то можно найти и прочитать. Например в книгах «Противодействие черному PR в Интернете» и «Дезинформация и активные мероприятия в бизнесе». Как отдельные примеры такого поиска в «Невидимом Интернете» можно назвать использование встроенного поиска на интересующем вас форуме или скачивание нужного ресурса оффлайн браузером и поиск по страницам с использованием стандартных средств операционной системы или - более продвинуто - предварительно проиндексировав скачанное специальной программой.

Частью «Невидимого Интернета», который еще называют «Глубокой паутиной», является Deep Web. То есть, ну совсем уж глубокий. По-русски его часто называют «Глубинной паутиной». Здесь поиск возможен только при помощи специализированных СУБД, потому что страницы Deep Web формируются динамически - при запросе к онлайн базе данных. Получается, что информация, вроде бы в Интернете и имеется, но возникает она лишь в момент обработки вашего запроса через специальный сервис, на котором еще и надо авторизоваться.

Чаще всего такие сервисы платны, но их использование стоит потраченных денег - других способов или нет, или они еще более затратны.

Я и многие мои коллеги, давно и активно пользуемся крупнейшим российским архивом информации из открытых источников «Интегрум». Особо хотелось бы подчеркнуть «открытых источников», так как для Конкурентной разведки это понятие ключевое. Именно использование открытых источников позволяет Конкурентной разведке действовать в рамках правового поля, но, при этом, иметь высокую эффективность. Те же американские разведслужбы получают из открытых источников до 95% всех разведданных при затратах на OSINT (Open Source INTelligence) около 1% из всего бюджета на разведку.

Кроме множества полезностей для конкурентного разведчика, маркетолога, специалиста службы безопасности, специалиста информационных войн, журналиста и еще, пожалуй, пары сотен профессий, «Интегрум» позволяет оперативно получать информацию из того самого Deep Web. В частности - из огромного массива полнотекстовых версий центральных и региональных СМИ с помощью инструмента «Интегрум Профи».

Да, в основном все СМИ сейчас имеют свои онлайн версии, но, во-первых, - на их сайтах, чаще всего, нельзя найти весь текст выпуска, а необходимая информация по объекту может содержаться в самой незначительной новостной заметке, которую редакция не посчитала нужным ставить на свой сайт. Во-вторых, - значительная часть онлайн ресурсов СМИ (в основном - региональных, но и центральные - не исключение) скубатурены и администрируются такими кривыми руками, что найти на них имеющуюся информацию - проблема, что для человека, что для поискового паука. В-третьих, - архивы СМИ многолетней давности, если и имеются на сайте, то с трудом доступны даже для поиска через встроенные поисковые механизмы, а для индексации известными поисковыми машинами, чаще всего, недоступны вовсе. Вот и получается, что информация в Интернете вроде бы и есть (за исключением «во-первых»), но найти ее «привычными» методами нельзя, а обращаться к сотням сайтов для «индивидуального» поиска - сизифов труд - убьешь кучу сил, времени и не факт, что получишь искомое.

«Интегрум», накопив огромный массив материалов СМИ, позволяет, подчас, находить крайне занятные и довольно «древние» упоминания персон и компаний. Причем, в таких источниках, где искать бы и не подумал. Ну кто, к примеру, мог предположить, что сегодняшний президент известного и влиятельного холдинга, в 90-х годах прошлого века мелькнул в криминальной хронике заштатной районной газеты? До которой - еще пойди доберись... Как сказал один мой весьма уважаемый коллега: «Он ищет там, где не ступала нога Интернета. В этом его сила».

Большим дополнительным плюсом «Интегрум Профи» (который, замечу, является лишь одним из инструментов «Интегрум») является возможность поиска по базам данных патентов и торговых марок, что позволяет выявлять довольно занятные взаимосвязи.

Так что, полезность этого инструмента очевидна, что в «мирных целях»,




что для вполне «боевых задач».




Дабы не дать повода в подозрениях о рекламности этого текста и справедливости для, отмечу, что «Интегрум» не единственная российская информационно-аналитическая система. Однако большинство моих коллег, как и я сам, отдают предпочтения именно «Интегрум». Почему? На мой взгляд, вполне исчерпывающе об этом написал один из ведущих специалистов Конкурентной разведки России Игорь Нежданов в своей аналитической статье «Источники официальной информации в интернете».

Интегрум, Интернет-разведка, конкурентная разведка, информационные источники, мониторинг Интернет, мониторинг, деловая разведка, Игорь Нежданов, информационно-аналитическая работа, СМИ, Александр Кузин, каналы информации, информация, поисковые системы, СПКР, бизнес-разведка, deep web, невидимый Интернет, информационные войны, поиск информации

Previous post Next post
Up