Средства профессионального мониторинга Интернета

Feb 14, 2016 09:16

Даю диалог с группы СПКР в LinkedIn с небольшими сокращениями.

Олег Петров

Понятие "Интернет" широкое, поэтому и инструментов мониторинга Интернета много. Они разные, каждый умеет делать что-то своё. Условно по функционалу можно выделить мониторинг:
1. Появления на сайте новых страничек (файлов) HTML.

2. Изменения контента на страничках (в файлах).

3. Получения контента в виде RSS-лент.

4. Получение контента HTML и его элементов (например, обычных новостей с сайта газеты "Известия").

5. Результатов поисковиков.

6. Форумов.

7. Онлайн баз данных.

8. Специфических ресурсов (например, только для Twitter или только для вКонтакте).

9. Новых источников информации.

10. Файлов "невидимого Интернета".

11. Уязвимостей сайта.

Некоторые инструменты совмещают в себе сразу несколько видов мониторинга.
Бывает, что приходится использовать два инструмента одной и той же группы, потому что реализация функционала может быть совсем разной.
Многое зависит также от того, в каком виде нужно получать результат: файлами страничек, записывать в базу данных произвольного формата, записывать в свою собственную базу данных.
Каждый инструмент потребует некоторых специфических знаний: HTML, XPath, языков запросов поисковиков, специфических внутренних команд программы мониторинга; в сложных случаях - умения программировать на Visual Basic, C#, PHP и знания SQL-запросов.


Аваланч - хороший инструмент. Его расширенная версия уверенно лидирует в группах "Невидимый Интернет" и "Уязвимости сайтов", но её продают только в спецслужбы и она стоит около 10 млн.руб.

Для обычного, "бытового" мониторинга вполне хватает связки "СайтСпутник" и "WebSite-Watcher", которые могут решать большинство указанных задач. В итоге Вы будете иметь набор файлов и/или почтовую рассылку новостей.

Если задумываетесь о серьёзной информационно-аналитической работе, чтобы не только новости собирать, а ещё и извлекать из них факты, проводить анализ и прогнозирование событий, то понадобится инструмент посерьёзнее, что-то вроде ИАС "Семантический архив", но его цена будет больше полутора миллионов рублей.

Чтобы понять, какое именно программное обеспечение вам подойдёт лучше всего, определитесь:
1. Сколько денег вы готовы потратить на инструменты мониторинга: а) желательный уровень; б) максимум.

2. Какие типы источников вы хотите мониторить: а) основные (т.е. более 80% от общего потока потока); б) вспомогательные (т.е. менее 20% от общего потока).

3. Какие задачи мониторинга (см. выше большой нумерованный список) нужно решать: а) обязательно (т.е. ежедневно); б) желательно (т.е. иногда).

Рассчитывайте, что один специалист может эффективно работать примерно с 30-40 новостными источниками. "Работать" с источником, значит: а) получать из него информацию, б) читать её (всю!), в) делать выводы, как изменения повлияют на деятельность организации и г) писать руководству предложения по корректировке деятельности организации, учитывающие изменения во внешней среде.

Софья Бронская
Олег, спасибо за развернутый ответ!

"инструмент посерьёзнее, что-то вроде ИАС "Семантический архив" - была как-то попытка его развернуть года три назад, причем, силами производителя. Два момента - это совершенно нелогичный интерфейс, который проектировал лингвист, а не аналитик, а второй момент - за два месяца (походу исправляя ошибки продукта) его так и не внедрили. Так что тут есть практический отрицательный опыт. Возможно, продукт сейчас стал стабильнее, но я не верю в изменение концепции интерфейса.

"Аваланч - хороший инструмент. Его расширенная версия уверенно лидирует в группах "Невидимый Интернет" и "Уязвимости сайтов", но её продают только в спецслужбы".

Софья Бронская
Для начала потребности скромные, фактически это нахождение появляющейся информации по заданной тематике.

Олег, по Вашим вопросам:

* Сколько денег вы готовы потратить на инструменты мониторинга:

Пока не понятно… но настроенная система для простого поиска стоит явно меньше затрат на сотрудника. Очень хочется увидеть настроенную систему за 10млн.

* Какие типы источников вы хотите мониторить:

основные новостные и региональные, соцсети

* Какие задачи мониторинга нужно решать обязательно:

* Получение контента HTML и его элементов (например, обычных новостей с сайта газеты "Известия").

* Результатов поисковиков.

* Форумов.

* Соцсети (например, вКонтакте).

Roman Arkhipov

А почему по Аваланчу негатив, в чем именно? Пользуюсь им более 2х лет, все устраивает..
Думаю, Вам правильно ответили - главное определить для себе, что мониторить будете.
Если есть необходимость работать с "невидимым интернетом", то да - аваланч, хотя аналогичный блок есть и в СайтСпутнике, но в Аваланче реализованы несколько дополнительных фишек, которые помогут в работе.. Как и в других программных комплексах, есть и недостатки - идеального инструмента не найдете.. выход или подбирать под свои задачи связку или писать свой..

Софья Бронская

Роман, а Вы с какой версией Аваланча работаете? Есть онлайн версия - вот на нее и негатив. Например, некоторые кнопки не работают, висит, не различает нормально рубрики
https://start.avalancheonline.ru/landing/
Невидимый интернет мне не нужен. Я так понимаю, что это неиндексируемый контент.

А Вы какие задачи решаете Аваланчем?

Roman Arkhipov

Я работаю и с версией онлайн и версией 2.9 практически в максимальной комплектации.. негатива особого не было, что нравится достаточно оперативная и адекватная техподдержка.
Насчет проблем с рубриками - бывают, периодически приходится подправлять, когда мусор начинает лезть..но, тут все зависит и от источника, если там что-то поменяли, соответственно настройки на источник придется править.. Есть еще версия 2.5 десктопная - эта очень нравится, но из-за того, что старая периодически падает, но Андрей вроде обещал оживить 2.7 персональную.. Насчет задач - круг самый широкий, начиная от сбора информации на определенные темы, мониторинг источников, потенциально связанных с репутационными рисками компаниями, сбор и накопление информации по целевым объектам.. ну и невидимый интернет - что для меня периодически важно очень..

Олег Петров

Софья, по Вашим ответам на мои вопросы:

>> Очень хочется увидеть настроенную систему за 10млн.
Сумма серьёзная.
Меня немного смущает слово "настроенная". Цели мониторинга должны пересматриваться в организации регулярно: тактические хотя бы раз в месяц, стратегические - хотя бы раз в три месяца. Значит, и Вашу систему тоже нужно будет постоянно перестраивать.
За 10 млн. Вам в "Аваланче" с великим удовольствием выделят отдельного сотрудника, который будет изменять настройки по Вашему хотению. :)

Но если Вам интересно моё мнение, то я посоветовал бы купить свою систему мониторинга (возможно существенно дешевле 10 млн.) и нанять в команду своего человека-настройщика, чем пользоваться услугами сторонних специалистов. Каждый бизнес имеет массу нюансов, часто неформализованных. Человек из вашей организации будет тоньше чувствовать, как те или иные новости могут повлиять на бизнес ВАШЕЙ компании. Следовательно, настраивать он будет систему на то, что "действительно важно", а не на то, что "кажется важным". (Разница между этими фразами огромна.) Сторонние специалисты будут собирать информацию типа "средняя температура по больнице", мало пригодную для принятия качественных управленческих решений.

>> типы источников: основные новостные и региональные, соцсети
Для этого достаточно "СайтСпутника" версии News. Но, чтобы с ним работать, нужно будет изучить: язык HTML, языки запросов поисковиков и держать под рукой шпаргалки по внутренним командам программы. Иногда лучше для работы с этой программой держать в штате отдельного обученного сотрудника.

>> Какие задачи мониторинга нужно решать обязательно:
>> * Получение контента HTML и его элементов (например, обычных новостей с сайта газеты "Известия").
>> * Результатов поисковиков.
>> * Форумов.
>> * Соцсети (например, вКонтакте).
* и 4 задачи отлично решает "СайтСпутник News". Для мониторинга форумов рекомендую рассмотреть "WebSite-Watcher" - в нём есть возможность авторизоваться через макеросы и он имеет специальные плагины для обработки разных видов форумов.

По поводу "Семантического архива" согласен с Вами: к сожалению, система не без проблем. Интерфейс не очень удобен, иногда выскакивают сообщения об ошибках (к счастью, критичных не было).
Однако, если речь идёт не просто о сборе новостей и верстке из них дайджестов, а об анализе и прогнозировании, то, возможно "Семантический Архив" на сегодняшний день лучшее решение по соотношению цена/качество. Я выстроил на нём работу аналитического отдела. Времени и денег он съэкономил немало. Поэтому, рекомендую не списывать его со счетов. Если знать все его "особенности", работать с ним можно очень эфективно.

Если нужно прояснить ещё какие-то "тонкости" мониторинга, спрашивайте, не стесняйтесь. :)

Софья Бронская
Роман, спасибо! Наверное действительно десктопныесерверные версии Аваланча более жизнеспособны.

Олег, спасибо за консультацию,уже понятно, что эти программы даже для простого мониторинга надо настраивать. Странно, что нет подготовленных настроек на наши федеральные и региональные СМИ (чтобы только регулярное выражение с ключевыми словами изменить) и на вКонтакте. Про цену в 10млн это Вы писали. Для меня цена в РФ не является характеристикой продукта, увы, у нас не рынок... Поэтому обычно чем больше отдают денег тем меньше пользуются системой, или устанавливают без настройки для галки, а может и вообще на полку кладут.

Олег Петров
Для Софьи:
>> Странно, что нет подготовленных настроек на наши федеральные и региональные СМИ
Владельцы сайтов периодически меняют HTML-код страниц: переходят на более продвинутые движки, улучшают дизайн, добавляют виджеты, включают скрипты и т.д. Скрипты - особенно большая головная боль, так как они часто меняются и рассчитаны на действия пользователя, такие как щелчки, наведение мыши, прокрутка страницы. И таких сайтов с каждым днём становится всё больше и больше. Поэтому невозможно один раз настроить программу на сайт и потом всю жизнь ею пользоваться. Увы.
Кстати, в "СайтСпутнике" видимо, заложен какой-то хитрый алгоритм, благодаря которому перенастраивать программу приходится редко

Олег Петров

Про мониторинг соц.сетей. Решения есть, на базе всё тех же обсуждаемых программ.

Для вКонтакте, Одноклассники, Мой мир Mail.ru, FaceBook, Twitter, ЖЖ есть настроенные роботы в "Семантическом архиве". И ещё к 100+ онлайн базам данных, типа "Реестр дисквалифицированных лиц", "Заблокированные счета", "Арбитражные дела" и т.д. Он не только приносит тексты, но и извлекает даты рождения, фотографии, друзей, создаёт факты. По работе с соц.сетями инструмент мощный. Кстати, перенастраивает роботы разработчик, они обновляются автоматически.

"СайтСпутник" работает с соц.сетями: Профессионалы, вКонтакте, FaceBook, Twitter, Privet, Мир тесен, Мой круг. Приносит тексты сообщений, раскладывает в тематические папки.

"Аваланч" тоже работает с соц.сетями. вКонтакте там есть наверняка. Роман может уточнить.

Roman Arkhipov

Да с VK Аваланч работает, подхватывает новости и посты как со стены, так может и за сообщениями следить, ну и соответственно выполнять поиск внутри.. на заданную тему

Мониторинг Интернета, СПКР, Конкурентная разведка

Previous post Next post
Up