[ статистический анализ |
лингвистический анализ: часть 1 |
чат с Гутником ]
Итак, первый статистический анализ Гутника закончен, и я спешу поделиться с общественностью его результатами. Лингвистический анализ требует некоторой дополнительной работы, потому его уже сделаю, когда успею.
Сначала вкратце об исходных данных. Из поисковиков удалось вытащить 1800+ комментов Гутника в двух ипостасях: vlas22222 и rewuln. При саспенде пользователя все его комменты трутся, а в кешах можно найти максимум последнюю тысячу, потому бОльшая часть исторического наследия Гутника, к сожалению, утеряна безвозвратно. Но в будущем все это обязательно будет синхронизироваться с моей базой, хе-хе.
Анализируемое время активной жизни обоих журналов приблизительно одинаковое, и это дает мне право полениться отказаться от нормализации выборки по времени там, где она была бы нужна.
Наша задача: выяснить на основании статистики типичные признаки Гутника, которые являются более-менее сходными у этих двух его инстансов и отличны у нормальных людей и других шизоидов - не гутников.
1. Распределение вероятности количества комментов в день
Для начала давайте посмотрим, как выглядит график вероятности того, что Гутник оставит за день какое-то определенное количество комментов:
Как видим по характерному "колоколу", Гутник подчиняется закону нормального распределения вероятности. Конечно, стандартное отклонение очень большое, и вероятность того, что Гутник оставит в день 40 комментов, всего в два раза выше вероятности того, что не оставит ни одного. Но посмотрите на среднее значение этого распределения! Оно поразительно стабильно. Более того, я уверен, что у большинства пользователей среднее значение количества комментариев не может равняться 40 штукам в день. Это первый неплохой типичный признак для Гутника.
2. Жизненный цикл Гутника
В выборке мы можем проследить финал жизни одного журнала Гутника и начало жизни нового его журнала. Количество оставляемых им комментов за неделю выглядит приблизительно так:
Как видим, новый журнал Гутника проходит состояние некоторого окукливания первые 4 недели после создания - Гутник шифруется и почти ничего не комментирует. Но рано или поздно природа берет свое, и наш друг выходит на свою производственную норму в 300+ комментов в неделю.
Какой мы можем сделать отсюда вывод? Если строить классификатор гутников на анализе комментариев, новые журналы поциента он сможет находить где-то через месяц после создания. Потому как до этого не будет достаточно информации для анализа.
3. Суточная активность Гутника
Все мы знаем, что Гутник - очень активная зверушка, живущая в ЖЖ сутками. Оставался лишь вопрос: когда Гутник наиболее активен, а когда - наименее.
График суточной активности двух инстансов Гутника вы можете увидеть на картинке ниже:
Мы снова имеем корелляцию двух гутников, и кроме того, достаточно нетипичный для нормальных людей паттерн. Судя по нему, Гутник активен где-то с 10 утра и до часу ночи. Пики наблюдаются в районе 14:00 (в тюрьме обед, макароны), и 22:00 (Гутник побухал после работы и возвращается домой).
В марте-апреле, пока было холодно, Гутник в лице vlas2222 сидел в интернете намного больше, чем сейчас, летом, когда Гутник-rewuln предпочитает вечерком побухать.
4. Лучшие друзья Гутника
На графике ниже (кликабельно) вы можете увидеть, кого и в каких количествах комментили оба инстанса Гутника.
График получился весьма показательным вот с какой точки зрения. Те журналы, которые комментил только vlas2222 или только rewuln нам не интересны - это Гутник пришел насрать кому-то в комменты, ему указали дорогу и он ушел безвозвратно. Примечательны те журналы, которые комментили и vlas2222, и rewuln - это его друзья, с которыми он общается постоянно. Обратите внимание: количество комментариев в них от обоих гутников приблизительно одинаковое. Это еще один отличительный признак Гутника. Хотя друзей у него и не много, конечно, судя по картинке. Что не странно.
Собственно, пока что это все. Впереди - лингвистический анализ текста комментов Гутника и построение системы определения его журналов.
Stay tuned!