Рейтинги и статистика.

Nov 15, 2012 14:00



Не далее, как в этом сентябре написал небольшую заметку про подсчет криминальной статистики по двум видам преступлений - похищениям людей и изнасилованиям. Причем, по официальным данным, собираемых и обрабатываемых ООН, пальму первенства по киднэппингу держат Австралия и Канада, а по изнасилованиям  - Швеция. Ясен пончик, что в реальной, "неоцифрованной" жизни, все обстоит несколько иначе и выглядит не так печально. Тем не менее, некоторые журналисты и комментаторы очень любят использовать "жаренные цифры" официальных документов - цифры же не обманут :)

Несколько ранее писал заметку про то, как один из бывших руководящих сотрудников рейтингового агенства Moody's вломили своих коллег и эта история дошла даже до слушаний в Конгрессе.

А не далее, как позавчера вышла дискуссия по поводу рейтингов посещаемости ряда сайтов в Рунете. Причем, дискуссия вышла в комментариях к посту, но я решил вынести обсуждение из комментариев в отдельную заметку.

Клиент, сервер и "третий не лишний"

Многие пользователи, которые часто работают в Сети, наверняка слышали такие понятия, как "клиент" и "сервер". "Клиент" (конечный пользователь), как это понятно из названия, использует какие-то ресурсы, которые ему, в свою очередь, предоставляет "сервер" (обслуживающий персонал). Понятное дело, что всякоразные маркетологи, рекламщики и прочие "продвиженцы", хотели бы знать - куда и зачем ходят пользователи чаще всего? На этом этапе, как правило, возникает вопрос сбора и обработки статистики, которую, понятное дело, можно собирать и считать по-разному.

Одним из самых первых способов анализа посещаемости сайта стали системы обработки лог-файлов веб-серверов. Программное обеспечение, которые "оживляет" сайт, имело возможность ведения логов в самом простейшем виде - кто и откуда пришел на сервер. Но подобных "знаний о пользователях" было явно не достаточно. Поэтому с развитием скриптовых языков, исполняемых на стороне сервера, начали создаваться системы, которые могли отслеживать поведение пользователей более пристально - откуда пришел пользователь, на какую страницу он пришел, как долго он там был, перешел ли он на другую страницу на сайте или просто ушел с сервера. В общем, возможностей для сбора информации стало больше, но самостоятельная разработка системы сбора и обработки статистики - дело очень трудоемкое и накладно.

Поэтому на смену самописным системам пришли некие варианты "рейтинговых компаний", которые проводят "оценку компаний и присваивают им рейтинги". На этом этапе выяснилось, что статистику посещаемости, собственно говоря, можно снимать с двух точек - с клиента и с сервера.

При этом, для снятия статистики на стороне клиента требуется установка дополнительного программного обеспечения, которое отслеживает поведение и предпочтения пользователя и "передает куда надо". На стороне сервера, подобная работа возложена на специальные скрипты, которые предоставляются "рейтинговыми агенствами" и ведут сбор требуемой информации (и тоже "передают куда надо").

Одной из компаний, которая занялась сбором информации о предпочтениях пользователей и выставлением рейтингов стала компания Alex-a (в настоящее время - подразделение сетевого гиганта Amazon). По поводу методов сбора статистики и ее последующей обработки (читай - выставление рейтингов) в свое время проходили жаркие дебаты. Вот, к примеру, две заметки (от 2007 года) в которых на сайте "для технарей и стартаперов" обсуждается эта проблема:

Alexa's Make Believe Internet  (70 комментариев к заметке)
Alexa Says YouTube Is Now Bigger Than Google. Alexa Is Useless  (125 комментариев к заметке)

Основной причиной для дебатов стало то, что статистика Alex-ы (на основании которой потом выставляются рейтинги) отражает лишь поведение пользователей с установленным программным обеспечением от этой компании и за бортом оценки, соответственно, остаются все те пользователи, у которых это программное обеспечение не установлено.

С другой стороны "виртуальных баррикад" оказались средства сбора и обработки статистики на стороне сервера. В случае установки специальных скриптов на сервер, начинает собираться и обрабатываться статистики всех посещений от клиентов (хоть с установленными тулбарами от компаний типа Alex-ы, хоть без них). Одной из самых мощных систем подобного плана является сервис компании Google - Google Analytics. В нашей стране некоторые компании используют конкурирующий сервис от Yandex-а - Yandex Metrica или OpenStat.

Все вышесказанное было лишь краткой прелюдией к главному вопросу, на который я ответил одному из пользователей. Мне задали вопрос - уж не призывают ли некоторые компании специально устанавливать себе программное обеспечение (в данном случае - от компании Alex-а) для повышения рейтингов?

Раз уже мне задали вопрос - я ответил (со скриншотами).



 
 


(скриншоты кликабельны)

Вот такие они - методы получения "высоких рейтингов" от "инициативной группы граждан".

P.S. Со своей стороны, лично я, благодарен компании Alexa за ее вклад в оцифровку печатных изданий, которые затем выкладываются на сайт Internet Archive и сайт Библиотеки Конгресса.



(пример оцифрованной при участии частной компании книги)

Ссылки по теме:

Противоречивая статистика.
Кредитный рейтинг Японии.
Про то, как иногда "наступает прозрение".

Технологии, Экономика

Previous post Next post
Up