Comments | g00dmann: Используем фичи на кликах.

g00dmann

Используем фичи на кликах.

May 28, 2012 19:23

Когда мы пытались что-то родить для ИМАТ-2011, возник стандартный вопрос - как бы так набрать фичей, чтобы всех забороть? Тогда мы разобраться не успели и забили на это все. А сейчас с какого-то бодуна вспомнили, поковырялись в литературе и собрали большинство факторов в кучки: "Поведенческие (кликовые) факторы в информационном поиске. Обзор". ( Read more... )

Comments 4

n0mad_0 May 28 2012, 15:52:07 UTC

казалось тем имат и хорош, что можно не пенять на закрытость?

g00dmann May 28 2012, 16:38:47 UTC

Ну считать силу фичей на ИМАТ не очень интересно. Получим, что в такой-то модели на таких-то данных какие-то фичи важнее. У индустрии есть такие данные по своим моделям, на гораздо больших объемах логов. Скорее всего корреляция будет слабой.

По конкурсу остался не решенным (в паблике) вопрос о том, почему результаты были в окрестностях 0.67. Он скорее всего интересный, в отличие от.

(The comment has been removed)

g00dmann May 28 2012, 17:43:03 UTC

1. Данные от систем статистики поисковиками используются, как свои, так и чужие. Я что-то сомневаюсь, что были официальные заявления о невлиянии таких данных на ранжирование. Корреляции нет, т.е. прямой зависимости наличия поисковой статистики на сайте и позиций. А влияние может быть, для одних сайтов положительное, для других - не очень, для третьих - никакое.

2. Не нужно подходить к наличию каких-то факторов и их силе с обычной логикой. Текущая позиция индустрии: если добавление фактора в модель улучшает качество поиска, значит это замечательный фактор. Заметьте - ни слова о логичности данного фактора нет, на это разработчикам зачастую плевать.

(The comment has been removed)

Thread 5