Comments | infist_xxi: Тятя, тятя, наши сети...

infist_xxi

Тятя, тятя, наши сети...

Jun 14, 2011 23:30

... приволокли новый массив данных для анализа.

Итак,
за период с 1 июня 2010 года по 1 июня 2011
500 топовых блогеров (по количеству френдов на 05.06.2011) написало 276 488 открытых постов, получило на них 10 066 972 комментариев от 316 277 неанонимных читателей.

Т.е. данные вот этой публикации можно признавать морально устаревшими и ждать новых ( Read more... )

блогосфера

Leave a comment

Back to all threads

psi_bg June 21 2011, 12:56:15 UTC

А можно вопрос не по теме?
Встала передо мной задачка: сделать автоматическую генерацию тегов к новостям. Т.е. на вход - заголовок и текст, на выходе - набор слов и словосочетаний (что важно, потому что сложнее) с основными сущностями, упоминаемыми в новости.
Словосочетанием для простоты будем считать пары "существительное-существительное" (курс доллара) и "прилагательное-существительное" (кишечная инфекция).

Не встречалось ли вам описание алгоритма для такого анализа?
Я вчера поразмыслил, набросал свою версию, но наверняка должен быть готовый вариант: задача-то не выглядит специфической.

infist_xxi June 21 2011, 14:09:52 UTC

Алгоритма не встречал, думаю надо посмотреть в различных публикациях Яндекса, публикациях по автоматическому аннотированию текстов и пр.

Тут мне кажется два подхода. Либо семантический, с учетом структуры языка - это надо иметь серьезные познания в лингвистике. Либо статистический - тут можно подумать если есть большая база текстов для обучения (например, построить матрицу межсловных расстояний для выделения устоявшихся словосочетаний, посчитать частоты и пр.).

PS. На хабре видел какой-то пост из песочницы, который описывает алгоритм классификации текстов на основе символьных (не словарных!) цепочек. Это не в тему, но так...

psi_bg June 21 2011, 14:42:22 UTC

У меня получилась смесь того и другого. Примерно так:
1) выделить блоки текста, разделенные знаками препинания
2) привести все слова к начальной форме, определить часть речи (для этого есть готовые инструменты, например яндексовский mystem)
3) найти в каждом блоке по шаблонам слова и словосочетания - теги
4) посчитать для тегов TF (можно еще и IDF)
5) взять N тегов с наибольшим весом.

infist_xxi June 21 2011, 16:21:31 UTC

Ну я сам так делал в точности, но я это делал для слов, а как выделять словосочетания без матрицы расстояний? какие шаблоны? структура предложений или что? В этом мне кажется самая заморочка. Дальше то все просто.

Я бы еще отдельно увеличивал веса именам собственным - фамилии, названия, аббревиатуры. Скорее всего частота у них будет небольшая, а контекст они определяют сильно.

И IDF тоже надо, да.

psi_bg June 21 2011, 16:40:06 UTC

Структура предложения (между словами словосочетания не должно быть знаков препинания, т.е. они будут в одном "блоке") + шаблон по частям речи (например "сущ. [0-1 других слов] сущ."). В первом приближении должно хватить.

Фамилии и вообще важные слова часто входят и в заголовок и в текст новости. Так что, думаю, у них автоматом будет увеличиваться вес. Плюс с частью имен собственных у меня задача облегчается: будет словарь, по которому их можно искать.
А насчет аббревиатур - мысль хорошая, надо будет их тоже выделять.

infist_xxi June 21 2011, 16:43:12 UTC

Как сделаете "в первом приближении" выделение словосочетаний на таком шаблоне - расскажите о валидности результата. Что-то у меня сомнения есть. Ничем, правда, не обоснованные - на уровне ощущений :)

psi_bg June 21 2011, 16:48:10 UTC

Ок. Мне тоже интересно, что получится. :)

psi_bg October 23 2011, 18:01:13 UTC

По тому алгоритму, который я описывал, получается такой результат: http://widgetok.ru/tmp/tags.txt
Это даже без TF/IDF (для моей задачи они не понадобились, тегов не слишком много).
Потом добавил еще эвристики для выделения аббревиатур, имен собственных по конкретным регуляркам, имен собственных по общему шаблону (буква - точка - слово с заглавной буквы), английских названий - получилось еще красивее.

Сложнее всего, как ни странно, было не выделить словосочетание, а привести его к приятному для чтения виду, согласовав прилагательное и существительное (т.е. из "незарегистрированном счете" сделать "незарегистрированный счет"). До сих пор не для всех словосочетаний срабатывает.

Back to all threads