Comments | infist_xxi: Тятя, тятя, наши сети...

infist_xxi

Тятя, тятя, наши сети...

Jun 14, 2011 23:30

... приволокли новый массив данных для анализа.

Итак,
за период с 1 июня 2010 года по 1 июня 2011
500 топовых блогеров (по количеству френдов на 05.06.2011) написало 276 488 открытых постов, получило на них 10 066 972 комментариев от 316 277 неанонимных читателей.

Т.е. данные вот этой публикации можно признавать морально устаревшими и ждать новых ( Read more... )

блогосфера

Comments 13

dmitryanon June 15 2011, 15:23:11 UTC

Ждем с нетерпением

simmons_fan June 15 2011, 17:08:58 UTC

Сижу в Carnegie Mellon University и осваиваю методологию анализа подобного количества текстов и их превращения в сети.

infist_xxi June 15 2011, 17:20:01 UTC

Текстов у меня нет :( Хотя если каменты первого уровня брать - они есть.

psi_bg June 21 2011, 12:56:15 UTC

А можно вопрос не по теме?
Встала передо мной задачка: сделать автоматическую генерацию тегов к новостям. Т.е. на вход - заголовок и текст, на выходе - набор слов и словосочетаний (что важно, потому что сложнее) с основными сущностями, упоминаемыми в новости.
Словосочетанием для простоты будем считать пары "существительное-существительное" (курс доллара) и "прилагательное-существительное" (кишечная инфекция).

Не встречалось ли вам описание алгоритма для такого анализа?
Я вчера поразмыслил, набросал свою версию, но наверняка должен быть готовый вариант: задача-то не выглядит специфической.

infist_xxi June 21 2011, 14:09:52 UTC

Алгоритма не встречал, думаю надо посмотреть в различных публикациях Яндекса, публикациях по автоматическому аннотированию текстов и пр.

Тут мне кажется два подхода. Либо семантический, с учетом структуры языка - это надо иметь серьезные познания в лингвистике. Либо статистический - тут можно подумать если есть большая база текстов для обучения (например, построить матрицу межсловных расстояний для выделения устоявшихся словосочетаний, посчитать частоты и пр.).

PS. На хабре видел какой-то пост из песочницы, который описывает алгоритм классификации текстов на основе символьных (не словарных!) цепочек. Это не в тему, но так...

psi_bg June 21 2011, 14:42:22 UTC

У меня получилась смесь того и другого. Примерно так:
1) выделить блоки текста, разделенные знаками препинания
2) привести все слова к начальной форме, определить часть речи (для этого есть готовые инструменты, например яндексовский mystem)
3) найти в каждом блоке по шаблонам слова и словосочетания - теги
4) посчитать для тегов TF (можно еще и IDF)
5) взять N тегов с наибольшим весом.

infist_xxi June 21 2011, 16:21:31 UTC

Ну я сам так делал в точности, но я это делал для слов, а как выделять словосочетания без матрицы расстояний? какие шаблоны? структура предложений или что? В этом мне кажется самая заморочка. Дальше то все просто.

Я бы еще отдельно увеличивал веса именам собственным - фамилии, названия, аббревиатуры. Скорее всего частота у них будет небольшая, а контекст они определяют сильно.

И IDF тоже надо, да.

Thread 8

22sobaki June 21 2013, 08:32:00 UTC

Прошу прощения, не совсем по теме.
Есть способ узнать, насколько пересекаются аудитории определенного пользователя и определенного сообщества?

infist_xxi June 21 2013, 09:47:58 UTC

Наверное есть, но я давно не занимался этим вопросом и не могу сказать точно.