Социальные сети и многие СМИ очень информативны и удобны для мониторинга. Однако количество их растет, что делает такой мониторинг все более трудоемким. Кроме того, мало собрать информацию, ее надо еще проанализировать и верно интерпретировать. Для оперативного решения этих задач, крайне желательно иметь средства, позволяющие быстро решить две ключевых проблемы:
1. Собрать информацию по интересующей тематике (с возможностью уже на этапе создания запроса отсекать информационный мусор) .
2. Иметь возможность экспресс-анализа с визуализацией результатов - для того, чтобы отслеживать динамику трендов на больших массивах потоковой информации.
Эти задачи, в целом,
IQBuzz (Айкубаз) на сегодня решает. Пока не идеально, но уже вполне приемлемо для практической работы.
Покажу, как работает IQBuzz (Айкубаз) на реальном примере. Поскольку меня, как правило, интересует анализ в плане негатив/позитив/нейтральная_информация, а также в плане "кто, в основном, гонит волну?", я выбрал достаточно серьезного ньюсмейкера, по которому заведомо есть много информации разной эмоциональной тональности - Министра обороны РФ Анатолия Сердюкова. И на его примере протестировал работу IQBuzz (Айкубаз).
В основе работы с Айкубаз лежит "рубрика". Это, своего рода, закладка, на которой собирается информация по заданному поисковому запросу. язык запростов у Айкубаз имеется, он не сложен, похож на большинство языков крупных поисковых машин, и позволяет создавать работоспособные поисковые запросы. Думаю, достаточно будет сказать, что логические "И", "ИЛИ" и "НЕ" в нем присутствуют, а также есть "запрет менять словоформу", и "точная фраза".
Как выглядит сжатый результат по имеющейся рубрике, а также создание новой рубрики - видно вот на этом скриншоте (все картинки здесь и далее - кликабельны):
При создании новой рубрики, появляется диалоговое окно, в которое, в частности, вписывается поисковый запрос. Там же можно убрать часть источников, по которым будет вестись мониторинг (по умолчанию, они включены все). Для целей полевых испытаний, я решил сделать мониторинг по словам "Мебельщик" и "Табуреткин" - это устойчивые неформальные прозвища министра, встречающиеся в Интернете. Причем, эти прозвища заведомо характерны для неофициальных текстов, и при этом, преимущественно, негативны.
Для уменьшения количества информационного мусора, я попросил систему показывать только те документы, контекст которых - армия.
Кстати, наличие языка запросов - очень важный момент. Скажем, первоначально я не задал контекста к слову "Сердюков" и не ограничил словоформы. Результатом стало ощутимое замусоривание выдачи упоминаниями актера
Павла Сердюка (Паши Сердюка), известного, в частности, по сериалу "Моя прекрасная няня".
Использование возможностей языка запросов Айкубаз снимает эту проблему.
Вот пример результатов, которые были отнесены системой Айкубаз к негативу по запросу 'Сердюков' (картинка кликабельна):
А это - документы, которые отнесены системой Айкубаз к позитивным по запросу 'Сердюков' (картинка кликабельна):
А вот эти документы были отнесены Айкубаз к нейтральным по тональности, по запросу 'Сердюков' (картинка кликабельна):
В ходе работы с документами, справа от результатов есть сводка, позволяющая переключаться между документами разной тональности.
С негативом по заведомо негативному запросу 'Табуреткин | Мебельщик', в контексте "армия", Айкубаз сработал предсказуемо корректно (картинка кликабельна):
А вот "позитив" оказался не по зубам Айкубазу - что, в принципе, объяснимо: сарказм в речи и человек-то не каждый поймет, а машине с этим тем более сложно. Такие запросы, видимо, придется более тщательно отсматривать вручную, (картинка кликабельна):
В ряде случаев, на мой взгляд, можно пополнять список негативных слов, если есть определенные события, которые для данного человека или организации негативны. Например, таковым может быть слово "Кондопога" для руководителя правоохранительных органов Карелии.
Редактирование списка негативных/позитивных слов пользователем в Айкубаз предусмотрено. Вот что написано в разделе "Помощь" по этому поводу:
Автовыделение тональности / Персональная настройка позитива и негатива
Вы можете самостоятельно настраивать правила, по которым будет автоматически определяться позитив и негатив.
При поиске в тексте негатива и позитива Айкубаз использует собственный словарь характерных фраз. Например, негативом будут считаться: ужасный, неудобный, мерзкий, хамить и т.п. Пример позитивных словарных выражений: понравилось, неплохо, прекрасно, качественно. Если какие-то из этих фраз встретятся в непосредственной близости от ключевых слов рубрики, то документ будет отнесен к соответствующей тональности.
Степень близости определяется шириной контекста. Единица ширины контекста в данном случае - одно слово в тексте. По умолчанию при определении тональности берется ширина контекста, равная 5 словам. Проще говоря, если в пределах 15 слов, идущих в тексте друг за другом, встретятся ключевое слово поиска и какая-то фраза из словаря позитива/негатива, документ будет помечен соответствующей тональностью.
Для любой созданной Вами рубрики можно настроить собственный словарь позитива/негатива и установить собственную ширину контекста. Необходимость персональной настройки объясняется тем, что негатив/позитив по отношению к одному объекту не всегда является таковым по отношению к другому объекту.
Для того, чтобы настроить автоопределение тональности для рубрики, необходимо открыть рубрику на вкладке "Информация о рубрике" и нажать кнопку "Настроить определение тональности". В открывшемся окне правила для негатива и позитива настраиваются отдельно.
Тексты, оцененные Айкубаз по запросу 'Табуреткин | Мебельщик', в контексте "армия", как нейтральные по тональности (картинка кликабельна):
Скорее всего , если в словарь негатива/позитива по Сердюкову добавить слова «Мебельщик» и «Табуреткин» именно как негативные, то ситуация с позитивом-негативом будет совсем другая. На практике пока не проверял, но проверю.
Результаты мониторинга можно экспортировать в Word или Excel. При этом, пользователю предоставляется выбор: полностью все документы экспортировать, или только некоторые.
В результате экспорта, в Word попадает полнотекстовый документ.
Вот примеры результатов такого экспорта по разным запросам (картинки кликабельны):
Пожалуй. самой сильной стороной IQBuzz (Айкубаз) является визуализация анализа результатов мониторинга.
По умолчанию, предоставляется "Сводный отчет". Вот так он выглядит по запросу "Сердюков" (картинка кликабельна):
А так - по запросу 'Табуреткин | Мебельщик', в контексте "армия" (картинка кликабельна):
Система позволяет, кликнув на тот или иной участок "Сводного отчета", посмотреть его структуру более глубоко.
Например, вот так (картинка кликабельна):
Активность авторов с позитивом (картинка кликабельна):
Активность блогов с позитивом (картинка кликабельна):
Распределение результатов по источникам (картинка кликабельна):
Общие выводы из тестирования системы Айкубаз (IQBuzz).
1. Система полностью работоспособна уже сейчас, и очень существенно ускоряет мониторинг RSS-потоков, хотя эта ее функция и неуникальна.
2. Система обладает очень полезным и информативным инструментом визуализации результатов, что облегчает анализ больших массивов инормацмм, но еще более полезно при оценке динамики информационного поля.
3. Система хранит информацию даже о блогах, которые существовали непродолжительное время и затем были полностью улдалены и из Интернета, и из результатов выдачи поисковых машин (это было выяснено на примере ряда запросов, не включенных в данный обзор) .
4. Система плохо работает с такими явлениями, как сарказм, поэтому "позитив" в ее понимании далеко не всегда является таковым на самом деле. Однако это характерно для таких систем в в принципе, и может быть отчасти компенсировано ручными настройками списка негативных слов (да и не для всех запросов сарказм встречается таких объемах, чтобы быть значимым).
5. Специалистам и организациям, работающим на аутсорсинге, инструментарий визуализации будет очень полезен тем, что позволяет объектино показать картину для заказчика - как в начале работы, так и позже.
6. По мере того, как будет увеличиваться количество источников информации (разработчики утверждают, что это происходит постоянно) - ценность системы для специалиста, ответственного за мониторинг, будет возрастать.
Евгений Ющук.
22.02.2012 г.
UPDATED 16.03.2012
По итогам обсуждения в ветке форума СПКР, получилось вот такое резюме по сильным и слабым сторонам Айкубаза - и, соответственно, по диапазону его использования в практике.
1. Айкубаз не может быть единственным средством мониторинга, т.к. он не работает с потоковой информацией, а анализирует массив, уже лежащий в его базе данных. Соответственно, скорость реагирования у него, теоретически, должна быть ниже, чем при непосредственном мониторинге потоков.
2. Айкубаз может быть средством раннего предупреждения о начале атаки - только в части фиксации факта повышения частоты упоминаний объекта.
Примерно так же, как "Пульс блогосферы" - в поиске по блогам Яндекса.
Скорость его при этом может уступать скорости реакции наблюдателя, ведущего мониторинг потоков, однако при постепенном повышении частоты упоминаний (глазом не улавливаемой) он, теоретически, может оказаться подспорьем для специалиста, ведущего мониторинг.
3. Айкубаз эффективен при анализе трендов на больших массивах текстовой информации. Для отдельных текстов он неприменим.
4. Айкубаз полезен, преимущественно, для оценки эмоционального отношения автора к конкретному объекту в тексте, а не для эмоциональной оценки "текста в целом".
5. Запрос в Айкубаз с настройками тональности "по умолчанию" обычно не позволяет брать результат в работу, но позволяет понять - как надо откорректировать настройки системы для конкретного случая.
Корректировка касается списка слов в словаре негатива/позитива, а также расстояния между объектом и эмоционально значимыми словами в тексте.
При правильно составленном запросе, Айкубаз позволяет получить результат, имеющий практическую ценность.
6. Для оценки динамики трендов, надо сначала выстроить запрос и получить "нулевую отметку" - т.е., "моментальную фотографию" информполя. Далее - смотреть отклонения относительно этой отметки. При этом, если произойдет принципиальное изменение аудитории, в которой проводится оценка - может понадобиться и корректировка запроса.
7. Технически невозможно на сегодняшний день получить стопроцентный результат в оценке чужих текстов. Это недоступно ни машине, ни человеку. При этом, человек уступает машине при анализе большого массива текстов, а машина проигрывает человеку при анализе конкретного текста.
Поэтому надо выбирать наиболее значимые для информполя источники и мониторить их вручную, а всю "массовку" отдать машине.
8. Ввиду сложности анализа эмоциональной составляющей текста, имеет смысл для ее анализа стараться выбрать "реперные слова", а также сокращать расстояние между объектом и негативом/позитивом в тексте. Это сыграет роль, близкую к роли фокус-группы.
9. Визуализация результата (не только негатива/позитива, но и таких важных моментов, как разбивка по источникам, а также частота употребления ключевых слов в массиве) - несомненно, является сильной стороной программ, подобных Айкубазу. Это человеку за разумные деньги и в разумные сроки неподвластно в принципе.