aSLM - новая функция ранжирования

Sep 24, 2011 03:51

На сколько я понял, далеко не все российские поисковые люди поедут в Воронеж на RCDL, поэтому свой доклад я уже выложил на сайте: Спектральные характеристики в задачах обработки текстовой информации, вдруг кому-то будет интересно ( Read more... )

Leave a comment

g00dmann October 23 2011, 15:04:23 UTC
Хз, почему ты не получил. А на какой коллекции ты считал? На той же, или на других? У нас на нескольких все гуд получалось, без вариантов. М - это число документов в коллекции, в статье накосячили, забыли это прописать. Но оно вроде и так очевидно было, из здравого смысла. Интервалов 500, по 0.0001. При аппроксимации SLM все интервалы брались с одним весом, так получалось интереснее. Но понятно, что тут пока все не окончательно, возможно найдутся и более ударные функции. Интервалы с нулями при аппроксимации игнорируй.

Хотя вот мы на RCDL обсуждали - не плохо бы отдельно на запросах из редких слов потестить, любопытно, останется ли такое же преимущество. Но у мну таких оценок нет, засада... :)
1. Странно что скор зависит от разбиение на интервалы - сделал больше интервалов - скор принципиально изменился, плюс получились нули на которые по формуле ещё и делить нуна

Почему странно? Есть какое-то оптимальное число интервалов, или ты думаешь, что для любого должно быть похоже? Дык так не бывает. Для коллекции РОМИПа 500 где-то в районе оптимального, судя по нашему считалову, больше вряд ли улучшит, потому что коллекция маловата. Меньше - ухудшало. Делить на нули не нуна, мы ранжируем на той же коллекции, на которой считали распределение, нули не пролезут.
2. В такой схеме получается большая плотность стоп слов в документе важнее наличия редкого слова, что выглядит странно.

Как ты сделал такой вывод? Чета у мну он не получается.
То, что из "спектра" (ie распределения TF по документам) можно что-то отжать похоже на правду, но то, что вы с ними сделали - имхо совсем не то :)

Ты скорее всего что-то сделал не так, видимо мы хреново описали. И я только "за" отжать еще чего-то, там есть еще куча вариантов для отжима, все только начинается. :)

Reply


Leave a comment

Up