Анализатор постов в ЖЖ

May 14, 2019 13:04


Вдохновившись этим примером, я тоже решила запилить что-нибудь для ЖЖ и в итоге написала приложение для анализа постов. Сейчас оно умеет определять языковое разнообразие (насколько разнообразными словами пользуется юзер), среднюю длину поста и самые частые слова. Может, потом добавлю ещё пару функций (а может и нет) :)

Вот что у меня получилось

Read more... )

Leave a comment

Comments 148

mozgosteb May 14 2019, 10:16:08 UTC
С релизом!

Reply

sel_kie May 14 2019, 10:17:27 UTC
Спасибо! Интересно, забанят или нет

Reply

mozgosteb May 14 2019, 10:18:51 UTC
Я же, так понимаю, запросы будут с машины пользователя? Если так, то, по идее, то даже теоретически не за что

Reply

sel_kie May 14 2019, 10:20:46 UTC
Ага, плюс я кэширую запросы (на всякий случай аж на сутки), так что надеюсь, что не к чему придраться

Reply


livejournal May 14 2019, 11:35:46 UTC
Здравствуйте! Ваша запись попала в топ-25 популярных записей LiveJournal северного региона. Подробнее о рейтинге читайте в Справке.

Reply

sel_kie May 14 2019, 11:39:05 UTC
А если бы ЖЖ отдавал не 25 постов, а хотя бы 100, то результаты были бы куда точнее

Reply


chiffa_chi May 14 2019, 11:39:45 UTC

А считаются только открытые посты?

Reply

sel_kie May 14 2019, 11:40:23 UTC
Да, приложение видит только то, что видит незалогиненный пользователь

Reply

chiffa_chi May 14 2019, 12:04:03 UTC

Ясно))) я несколько минут удивлялась странной выборке))))

Reply


mozgosteb May 14 2019, 11:57:38 UTC
Вот интересное открытие: почти у всех, кого я читаю, есть слово "знать"

Reply

sel_kie May 14 2019, 12:03:14 UTC
Думаешь, стоит выкинуть это слово как высокочастотное? Я составила список слов, которые не выводятся, потому что встречаются у всех. Там, например, есть слово "человек" (иначе оно попало бы в топ-10 слов практически у каждого юзера), "хотеть", а также всякие служебные глаголы типа "быть".

Reply

mozgosteb May 14 2019, 12:05:39 UTC
Вот, про "хотеть" и "быть" интуитивно понятно. А про "человек" и "знать" - непонятно. Почему они такие часто используемые?

Reply

sel_kie May 14 2019, 12:09:48 UTC
"Знать", кстати, не так часто встречается, как "человек". Не у всех юзеров, которых я смотрела, есть это слово в десятке. (Но у многих, да). А "человек" даже входит во все стандартные словари незначащих слов (stop words), какие я видела. Наверное, потому что в него превращаются и "люди", "людей" и так далее. Редкий пост обходится без этих слов.

Reply


k_medvezhonkina May 14 2019, 12:13:35 UTC
Разнообразие текста: 16.4%

Средняя длина поста: 67 слов

Часто встречающиеся слова: 
ПОКА
СЕЙЧАС
ОЧЕРЕДЬ
СОН
УЗНАТЬ
ДРУГ
ДВА
ПОСТ
ЗНАТЬ
СМОТРЕТЬ

Теперь надо понять, что это значит! ) Как это меня характеризует. Понимаю, что мой последний пост здорово подпортил среднее арифметическое. )

Reply

sel_kie May 14 2019, 12:17:04 UTC
Как минимум как любознательного человека :) Целых два слова об этом говорят: "знать" и "узнать" (интересно, кстати, почему алгоритм не свёл их в одно)

Reply

k_medvezhonkina May 14 2019, 12:21:05 UTC
Да, я тоже заметила! Не понимаю только, где мое любимое слово "понять"? )

Знать и узнать несут разную смысловую нагрузку. )

Reply

sel_kie May 14 2019, 12:40:21 UTC
А не знаю, в списке "стоп-слов" (которые я отсеиваю) его нет :)

Несут-то несут, но вот откуда об этом узнал алгоритм, ума не приложу

Reply


Leave a comment

Up