Агрегатная оценка работы коллективного разума и прочие высокие технологии

Oct 09, 2011 13:36



В сентябре на сайте hpcwire.com, посвященном высокопроизводительным вычислениям, появилась сенсационная информация. Группа исследователей из университета штата Иллинойс под руководством Калева Лиитару объявила, что анализ на суперкомпьютере Nautilus большого массива текстов, опубликованных в СМИ на протяжении 30 лет "почти во всех странах мира", позволил предсказать время и место социальных возмущений в арабских странах и что ретроспективный прогноз близок к действительности. Также, по утверждению Лиитару, анализ новостей позволил с точностью до 200 километров определить место, где скрывался уничтоженный "морскими котиками" Бен Ладен. 
Материалом для анализа послужили архивы газеты The New York Times с 1945 по 2005 год, базы данных по открытым источникам Summary of World Broadcasts с 1979 по 2010 год и базу англоязычных новостей Google News с 2006 по 2011 год - всего около 100 миллионов новостных публикаций.


Лиитару учитывал при анализе текстов время и место их публикации, а также тональность. Последний параметр регистрировался автоматически: суперкомпьютер, используя заранее подготовленные справочники, подсчитывал в текстах количество и соотношение "положительных" и "отрицательных" слов. 
Смысл такого подсчета Лиитару демонстрирует на условном материале двух новостей об одном и том же событии - футбольном матче. Тон газетных отчетов в городах выигравшей и проигравшей команд будет отличаться, и это можно установить формальным анализом текстов. Такой же анализ применим для оценки реакции населения целых стран на политические события. 
Интересны данные о "среднемесячной тональности" новостей "Нью-Йорк Таймс": с 1945 по 2005 годы она меняется от явственно положительного до столь же явственно отрицательного. Еще более пессимистичен график, отражающий тональность публикаций в мировой СМИ в 1979-2010 годах. 
Методика прогнозирования на основе анализа текстов обкатывалась на публикациях СМИ накануне и во время вооруженного конфликта на Балканах, а затем - на разных стадиях внутренних конфликтов в Египте, Ливии и Тунисе. 
Для предсказания места, где такой конфликт возможен, использовано так называемое геокодирование. Географические названия, встречающиеся в текстах, преобразуются в географические координаты и таким образом "привязываются" к карте мира. Задача не так проста, как может показаться; например, слово "Каир" относится к более чем 30 различным географическим объектам. По данным исследования, упоминание географического объекта приходится на каждые 200-300 слов текста. Основой предсказания социальных конфликтов служит изменение тональности новостей. 
Между тональностью новостей и их географической "привязкой" устанавливается связь. Концентрация "плохих" (т.е. выдержанных в отрицательном тоне) новостей позволяет прогнозировать место возникновения социальных катаклизмов, полагают авторы исследования. 
Важным элементом исследования является визуализация его результатов. Если зеленым цветом отмечать "привязанные" к точкам на карте положительные новости, а красным - отрицательные, зоны напряженности можно в буквальном смысле увидеть. 
Этот же метод географической привязки упоминаний объекта в СМИ исследователи из Иллинойса применили для "поиска" Бен Ладена. Оказалось, что 49% упоминаний имени террориста (ради упрощения анализировался единственный вариант написания) связаны с Исламабадом и Пешаваром. Место уничтожения Бен Ладена, город Абботабад, попал в газеты в одном контексте с разыскиваемым лишь один раз - в 2011 году. Но, пишет Лиитару, от Абботабада что до Исламабада, что до Пешавара - примерно 200 километров. Отсюда и делается вывод о предсказании местонахождения Бен Ладена с точностью до этого расстояния. 
Исследователи полагают, что на базе построенных ими информационных моделей в будущем удастся предсказывать социальное поведение больших групп людей. Свою работу они рассматривают как шаг в развитии нового научного направления, называемого культуромикой. 
Технологии прогнозирования событий на основе анализа информации в СМИ, а теперь и социальных сетях, естественно, интересуют не только исследователей, но и спецслужбы. Что творится в наших, - да и творится ли, - неизвестно, а вот американские ведут собственные изыскания. 
Так, ЦРУ финансирует деятельность агентства The Intelligence Advanced Research Projects Activity (IARPA). Это не только по созвучию названия, но и по методам работы - аналог знаменитого агентства Пентагона DARPA (Defense Advanced Research Projects Agency). IARPA финансирует компании и ученых, которые представляются перспективными для решения стоящих перед агентством задач. Задачи формулируются по-разному, но направлены на достижение одной цели: технологическое и интеллектуальное превосходство США над, если употреблять советские штампы, потенциальным противником в новом, сетевом мире. 
Названия поддержанных IARPA проектов красноречивы: "Агрегатная оценка работы коллективного разума", "Обнаружение будущих прорывных научных открытий", "Когнитивная нейробиологическая архитектура для понимания смысла". 
DARPA, насколько можно судить по опубликованным названиям проектов, занимается примерно тем же: нейробиологическими технологиями, математическими методами исследований социальных сетей и т.п.

Подробнее: http://www.kommersant.ru/doc/1782772

социокультурная разведка, iarpa, socint

Previous post Next post
Up