Сбор информации с "закрытых" форумов Невидимого Интернета. На примере экстремистских групп.: yushchuk

yushchuk

Сбор информации с "закрытых" форумов Невидимого Интернета. На примере экстремистских групп.

Apr 27, 2010 00:07

Преамбула.
19.04.2010 я написал в блоге пост "Кейс. "Их нравы", "Ивана Бегтина на них нет!". Или о приоритете первоисточников". В нем я постарался проанализировать причины, приведшие к тому, что статья Security Lab о появлении программ, способных собирать информацию с "закрытых" интернет-форумов, вызвала шквал возмущенных голосов. Специалисты резонно замечали, что такого рода программы не надо изобретать, т.к. они уже есть.
Я нашел материалы человека, указанного в качестве автора статьи, на которую ссылался Security Lab. Точнее, "ссылался" - это громко сказано. Security Lab на самом деле ссылался на сайт РуФорматор, причем на его главную страницу.
Получалось, что Security Lab не очень корректно выдала материал, который по смыслу противоречил знаниям читателей этого ресурса - людей, безусловно, продвинутых в Интернет-технологиях выше среднего уровня.

Когда я обнародовал свои находки, в комментариях моего блога появился РуФорматор. И, хотя человек, выступающий от имени РуФорматора, не стал, судя по всему, дочитывать мой пост до конца, он, тем не менее. сказал, что готов внести исправления, если где-то ошибся. Но самое главное - дал ссылку на свою заметку, которую перепечатала впоследствии Security Lab, а также на первоисточник.
Первоисточником оказалось выложенное в открытый эфир краткое описание большой статьи, рассказывающей о проделанной американскими исследователями работе.

Помимо этого, РуФорматор отметил, что их функция - проинформировать читателя о появлении новой технологии, не перегружая его техническими подробностями. И я с этим согласен. потому что, по-моему, это прямо следует из описания задач ресурса РуФорматор - здесь.

А вот поведение Security Lab в этой ситуации мне, честно говоря, непонятно. Позиционирование Security Lab значительно отличается от позиционирования РуФорматора. Посмотрите сами.
И, само собой разумеется, что продвинутая публика резко отреагировала на анонс якобы "изобретения" того, что и так известно. Только гнев свой читатели адресовали не Security Lab, не удосужившемуся вникнуть хотя бы минимально в подробности материала, а американским исследователям.
Формально, Security Lab вроде бы ничего и не искажала. Но подумать о том, как такой текст будет воспринят читателями, и расставить акценты чуть иначе, я считаю, журналисты Security Lab были должны. Кому, как не им знать своего читателя?

Между тем, я рад, что так все случилось, т.к., в результате, стало возможным ознакомиться с интереснейшими материалами по теме автоматического мониторинга форумов, не желающих быть промониторенными. И получить ссылки на еще больший массив материалов по этой теме.

Правда, и потратиться немного пришлось: доступ к полному тексту статьи в первоисточнике оценили в 30 долларов.

Но я считаю эти инвестиции оправданными.

В общем, по СМИ я подтверждаю первоначальное мнение: СМИ - это вторичные источники информации, легко искажающие смысл (вольно или невольно - не имеет значения).

А также - забывающие порой дать ссылку на первоисточники.
И не надо обольщаться, что громкое название и компетентность в ряде сфер, которые освещает СМИ, гарантирует качество во всех сферах. Это не всегда так происходит.
Поэтому критичная информация должна проверяться В СТА ПРОЦЕНТАХ СЛУЧАЕВ.

Впрочем, специалисты конкурентной разведки это хорошо знают. А всем остальным рекомендую принять это правило за основу работы с информацией.

Выражаю также респект изданию РуФорматор, "попадающему" в заявленный им формат. И, увы, не могу выразить его в данном случае Security Lab.

Теперь по сути самого робота.
Американские исследователи его не изобрели - как и сказали многие российские специалисты в области IT. Они его усовершенствовали.

Целью этого усовершенствования было улучшение проникновения на форумы и маскировка своих действий - дабы избежать бана. причем проникновение на форум осуществлял все же человек.
А вот в плане навигации по форуму (повторюсь - заведомо агрессивному, находящемуся начеку) были показаны интересные наработки - позволяющие не зависеть от языков, на которых форум работает.

Оригинал статьи занимает 19 страниц в формате pdf и 25 - в формате Word.

Даю здесь начало перевода-конспекта статьи и ссылку на мой сайт, где он размещен полностью. Сюда текст просто не поместится.

Сбор информации с "закрытых" форумов Невидимого Интернета. На примере экстремистских групп. Конспект-перевод статьи из NEW SCIENTIST.
Автор конспекта-перевода: Евгений Ющук
Авторы статьи "A Focused Crawler for Dark Web Forums" в оригинале : Tianjun Fu, Ahmed Abbasi, Hsincun Chen.
В оригинале статья почти вдвое длиннее, поэтому тем, кто хочет прочесть ее всю, лучше читать в оригинале. Я перевел только то, что было интересно лично мне. Многое переведено не дословно, хотя и близко к тексту оригинала. Рисунки - из оригинального текста.

Работы в области целевых или тематически-ориентированных пауков, проводились Chakrabarti, Van Den Berg, & Dom, [1999]; Pant, Srinivasan, & Menczer, [2002]

Большинство ранних пауков концентрировались на сборе информации со статических страниц, причем англоязычных и выложенных открыто. Это страницы, так называемого, Видимого Интернета. Если конфигурировать паука для сбора информации с форумов Невидимого Интернета, приходится сталкиваться с несколькими серьезными проблемами. Одна из главных - доступ к материалам форума. Интернет-форумы динамичны и часто требуют регистрации участника. Нередко они и без умысла со стороны владельцев являются частью Невидимого Интернета (это отражено в работах Florescu, Levy, & Mendelzon, [1998]; Raghavan & Garcia-Molina, [2001]).

Форумы содержат статические и динамические текстовые файлы, архивные файлы, и различные формы мультимедийного контента (т.е., изображения, аудио и видео файлы). Сбор столь многообразного контента создает массу проблем, которые не могут быть решены стандартными пауками, ориентированными на текстовый контент. Второй важной проблемой является маскировка паука для обеспечения возможности повторной работы на форуме, т.к. при идентификации паука администраторами форума, он может быть заблокирован. Поэтому паук, нацеленный на работу в Форумах Невидимого Интернета должен применять несколько разных типов маскировки при просмотре обновлений контента.

В этом исследовании мы предлагаем варианты развития целевых пауков, предназначенных для работы в форумах Невидимого Интернета. Наша система управления пауками позволяет расширить и углубить обход форумов. Она основана на идентификаторах в адресной строке (url), якорных словах, уровнях гиперссылок. Наша система включает также элементы, которые позволяют преодолеть вышеупомянутые проблемы с доступом, многоязычностью и многовариантностью контента.

Для обеспечения доступа паука на форум, мы используем помощь человека - т.н. «human-assisted approach» (это отражено в работах Raghavan & Garcia-Molina, [2001]). Наша система включает также возможность настройки параметров паука и прокси-серверов для улучшения возможности проникновения на форумы. Пауки используют анализ url’ов, того, чтобы проводить тематический поиск новых форумов и материалов в автоматическом режиме, независимо от языка, на котором общаются на форуме.

Фрагмент работы Raghavan & Garcia-Molina http://www10.org/cdrom/posters/p1049/index.htm .
"A number of recent studies [1,2,3] have noted that a tremendous amount of content on the Web is dynamic. However, since current-day crawlers only crawl the publicly indexable Web [2], much of this dynamic content remains inaccessible for searching, indexing, and analysis. The hidden Web is particularly important, as organizations with large amounts of high-quality information (e.g., the Census Bureau, Patents and Trademarks Office, News media companies) are placing their content online, by building Web query front-ends to their databases.

Crawling the hidden Web is a very challenging problem for two fundamental reasons: (1) scale (a recent study [1] estimates the size of the hidden Web to be about $500$ times the size of the publicly indexable Web) and (2) the need for crawlers to handle search interfaces designed primarily for humans.

We address these challenges by adopting a task-specific human-assisted approach to crawling. Specifically, we selectively crawl portions of the hidden Web, extracting content based on the requirements of a particular application or task. We also provide a framework that allows the human expert to customize and assist the crawler in its activity".

Доступность
Огромная часть Интернета генерируется динамически. Часто контент такого рода требует предварительной авторизации пользователя, заполнения каких-то форм, регистрации (Raghavan & Garcia-Molina, 2000). Это заставляет отнести большую часть интернет-ресурсов к Невидимому Интернету. Одно из исследований показало, что Невидимый Интернет содержит в 400-500 раз больше информации, чем Видимый (Bergman, [2000]; Lin & Chen, [2002]).
Технология автоматического заполнения форм не является решением проблем с Форумами в Невидимом интернете, т.к. там часто требуется логиниться.
Решением проблемы доступа к Невидимому Интернету может быть подход, когда робот сфокусирован на определенной тематике, и на некоторых этапах ему помогает человек. Это полуавтоматическая работа: когда помощь эксперта обеспечивает доступ пауку к контенту, а далее паук обрабатывает его сам. Степень задействования человека зависит от сложности доступа на форум. Например, многие форумы требуют стандарно заполнить адрес электронной почты, а это легко автоматизировать. Но есть и такие процедуры, которые пройти может пока только человек.
Типы собираемой информации

Полный текст статьи Сбор информации с "закрытых" форумов Невидимого Интернета. На примере экстремистских групп. Конспект-перевод статьи из NEW SCIENTIST. - здесь.

ahmed abbasi, tianjun fu, security lab, Евгений Ющук, интернет-форумы, Интернет, hsincun chen, Конкурентная разведка, борьба с экстремизмом, мониторинг интернета, РуФорматор