Яндекс-топсте нужна логарифмическая шкала

Nov 21, 2006 21:34

(в дополнение к ветке с вопросом Романа)

Если кратко и быстро, то вот кучка моих мыслей.

Понятно, что авторитет является очень субъективной, нечёткой величиной. Её измерение с точностью до десятитысячных долей (а ведь я-рейтинг такие числа выводит) невозможно. Машинное моделирование авторитета всегда будет очень расплывчатым. То есть фактически числа 53093, 49663 и 46456, вычисленные я-рейтингом, являются приближениями с погрешностью в десятки, если не сотни процентов. И с этим ровным счётом ничего нельзя сделать.

Если смоделировать авторитет как сумму параметров с убывающими коэффициентами (вклада), то автоматическому измерению поддаются далеко не самые важные параметры. Поскольку я-рейтинг для всех участников берёт один и тот же набор этих параметров, то складывается ложное впечатление хорошей модели. Это равносильно попытке адекватно отранжировать автомобили по качеству, измерив для всех диаметр колёс и год выпуска.

О различии в авторитетах можно говорить только при существенных различиях результатов аппроксимаций. Логарифмическая шкала сгладит приблизительность этой модели так же, как она это делает в Гугле при моделировании «интересности» страницы одной цифрой PageRank-а. Конкретное основание логарифма и окружающие коэффициенты надо подбирать, но в результате верхние, к примеру, 20 блогов текущего рейтинга должны получить девятку, следующие 50-100 - восьмёрку и так далее. Это не только сделает рейтинг более честным, но и в массе исключит явления накрутки.

Основа любой системы ссылочного моделирования авторитета - классические индексы цитирования научных публикаций. Но даже они, с совершенно прозрачной формулой, на линейной шкале показывают глупости. Никто в своём уме не станет заявлять, что из двух статей с 450-ю и 449-ю входящими цитатами одна авторитетнее другой.

Отдельно хочу повторить, что я предлагаю изменить только шкалу вывода рейтинга. Внутренние формулы и сейчас удовлетворительны, и все понимают, что они будут постоянно меняться, подстраиваться под новые изобретения грековых и волнухиных. Возможно, что когда-нибудь они смогут учитывать более важные параметры и тем самым станут принципиально точнее.

pagerank, search, blogosphere, yandex

Previous post Next post
Up