Загадочное

Oct 24, 2009 03:18



Сегодня утром мне пришла в голову мысль дополнить частотный анализ текста построением кластеров частых слов, выделенных по минимальной дистанции между словами.
В кластер попадают частые слова из текста, которые к тому же часто встречаются рядом (относительно рядом).
Текст берётся из последних 25 публичных записей дневника [жж].
Пока в массовое пользование запустить не готов, но кому интересно, отписывайтесь, сгенерю чудесный граф для вас.
Спасибо яндексу за чудесный mystem.

Под кат я запихал результаты обработки своих стихов за последние 12 лет. Тоже занятно.



Парсер - лох. Вместо "душ", конечно же, "душа".

UPD: При желании можете теперь попробовать сами потестить свой журнал.

тесты

Previous post Next post
Up