Жизнь и смерть ЖЖ в одном графике

Apr 08, 2016 14:23

Оригинал взят у timon_timonich в Жизнь и смерть ЖЖ в одном графике
По меркам ЖЖ я салага, журнал зарегистрирован всего лишь 6 лет назад. Сколько себя помню, блогеры среднего и высшего сословия стабильно писали душещипательные истории, что платформа уже не та и ностальгировали по темлым ламповым временам, когда тысяча друзей это прям было огого. Для придания драматичности прикладывались картинки с графиками неумолимо падающей посещалки. Итак пару раз в год публиковался пост в ЖЖ, который как бы умирает.

После очередной волны упаднических настроений мне стало любопытно, действительно ли всё так плохо. Ориентироваться на собственную статистику смысла нет, особенно если учитывать, что я на месяц вообще на блог забил и цифры там мегагрустные. Потому было решено зайти с другой стороны, я ж айтишнег, так что пришло время заняться моей тайной страстью - Data mining.

Вы слова то не пугайтесь, звучит солидно и умно, некоторые любят козырнуть им в разговоре и в резюме, но по факту это всего лишь анализ общедоступных и не только данных. Итак, ЖЖ выдает по каждому пользователю дату регистрации и дату последнего обновления журнала, надо «всего лишь» получить список всех пользователей платформы и запросить по ним инфу. Господи, делов то...

На момент расследования у меня уже был список из 5 млн. активных пользователей ( и не спрашивайте зачем ), в архивах обнаружилась БД двухгодичной давности на 8 млн. записей и еще своими изысканиями поделился товарищ vmenshov, так я обзавелся еще одним набором данных на 12 млн строк. Дело за малым - всё это собрать воедино, отсеять дубликаты, проверить пользователей на активность и заполучить по ним инфу. Боевые роботы пошуршали недельку и выдали мне 12 млн. пользователей из которых после двухнедельной проверки «живыми» оказались 7.5, остальные или удалены или заблочены.

Дальше всё совсем просто, группируем инфу о пользователях по месяцам и получаем его - график жизни и смерти ЖЖ.


Оранжевая линия это количество регистраций, синяя - количество журналов, которые последний раз обновлялись в данном месяце и больше ничего не писавших. Проще говоря, синее - это количество авторов забивших на ЖЖ.

Итак, что же по всему этому можно сказать?

- Выборка делалась по пользователям, которые написали за всё время более 10 постов. Делать сводку по аккаунтам пустышкам не было смысла, мне были интересны пишущие пользователи. Кстати таких журналов оказалось ~4.2млн, т.е. хоть что-то написали чуть больше половины, остальные пустышки.

- Синяя линия, уходящая практически вертикально вверх это количество аккаунтов, которые продолжают писать. Вы не обращайте внимания на январь, на самом деле крайняя точка справа это март 2016, просто Excel сурово зарубил подсказку. Если говорить цифрами, то активных журналов всего 122 тысячи, т.е. примерно 1.5% от общего числа. Чукча не писатель - чукча читатель.

- Я долго смотрел на пик вначале 2004 года и думал «Это жжжж неспроста», но потом меня осенило. Это же выборы в апреле 2004 года! Именно поэтому график умирающих журналов идет резко вверх в мае того же года. Забавно что в 2008 году подобной движухи нет, зато в 2012 что-то подобное наблюдается. Ждем 2018 :) UPD. Был не прав, в комментах подказали, что это отмена инвайтов http://news.livejournal.com/74165.html

- Количество новых регистраций стремительно падает. Это факт. Есть небольшие пики, только они практически повторяются на графике умерших журналов, так что думаю это просто всплески активности ботов.

Вот такие пироги ребята. Для чистоты эксперимента неплохо было бы сделать статистику по постам и количеству комментов, но этих данных в публичном доступе нет. А чтобы заполучить самостоятельно список записей для 7.5 млн журналов надо сделать порядка 200-300 млн. запросов к ЖЖ. И это нифига не быстро, потому пока я эту мысль отложил.

На этом у меня всё, спасибо за внимание

upd. Меньшов решил, что на моём графике нихрена непонятно и потому открыл своё казино с блэкджеком и шлюхами нарисовал альтернативный график. Тоже самое, но с накоплением.


з.ы. Ссылка на XLS файл с данными для любителей покопаться в цифрах.
з.ы.ы. ljpromo помнишь я тебе говорил про мега график, вот он. Если я конечно не ошибаюсь и писал тебе про это :)


Facebook |
Instagram |
Vimeo |
Youtube

Previous post Next post
Up