Comments | g00dmann: aSLM - новая функция ранжирования

g00dmann

aSLM - новая функция ранжирования

Sep 24, 2011 03:51

На сколько я понял, далеко не все российские поисковые люди поедут в Воронеж на RCDL, поэтому свой доклад я уже выложил на сайте: Спектральные характеристики в задачах обработки текстовой информации, вдруг кому-то будет интересно ( Read more... )

Comments 9

(The comment has been removed)

g00dmann September 24 2011, 10:31:37 UTC

Теоретически может и не улучшить, но у меня есть уверенность, что улучшит, причем прилично. Но все гипотезы, даже уверенно декларируемые, имеет смысл проверять на практике, что и предлагается. Апгрейд до aSLM не особо затратный по ресурсам, поэтому смысл в проверке есть, было бы желание... :)

_foreseer October 23 2011, 12:40:15 UTC

ну чота я попробовал и не получил обещанные 15%. Даже 0% не получил :) Я правда уже не студент, мож поэтому. В частности непонятны следующие моменты: в последней статье не написано что есть M в первой формуле (предположительно число документов в коллекции с этой леммой?), также не написано сколько интервалов в гистограмме распределений (500 судя по предыдущей статье?), аппроксимация взвешенная или все интервалы с одним весом, что делать с интервалами с нулём самплов итд. Я потыркался чутка - получается минус как ни крути.

Ну и пара мыслей почему это вообще не может работать. 1. Странно что скор зависит от разбиение на интервалы - сделал больше интервалов - скор принципиально изменился, плюс получились нули на которые по формуле ещё и делить нуна 2. В такой схеме получается большая плотность стоп слов в документе важнее наличия редкого слова, что выглядит странно.

То, что из "спектра" (ie распределения TF по документам) можно что-то отжать похоже на правду, но то, что вы с ними сделали - имхо совсем не то :)

g00dmann October 23 2011, 15:04:23 UTC

Хз, почему ты не получил. А на какой коллекции ты считал? На той же, или на других? У нас на нескольких все гуд получалось, без вариантов. М - это число документов в коллекции, в статье накосячили, забыли это прописать. Но оно вроде и так очевидно было, из здравого смысла. Интервалов 500, по 0.0001. При аппроксимации SLM все интервалы брались с одним весом, так получалось интереснее. Но понятно, что тут пока все не окончательно, возможно найдутся и более ударные функции. Интервалы с нулями при аппроксимации игнорируй.

Хотя вот мы на RCDL обсуждали - не плохо бы отдельно на запросах из редких слов потестить, любопытно, останется ли такое же преимущество. Но у мну таких оценок нет, засада... :)
1. Странно что скор зависит от разбиение на интервалы - сделал больше интервалов - скор принципиально изменился, плюс получились нули на которые по формуле ещё и делить нуна
Почему странно? Есть какое-то оптимальное число интервалов, или ты думаешь, что для любого должно быть похоже? Дык так не бывает. Для коллекции РОМИПа 500 где-то в районе ( ... )

_foreseer October 23 2011, 15:53:28 UTC

Коллекция другая - честная большая. Выборка документов не совсем репрезентативная, но т.к. ранжируем внутри выборки это не роляет.

Как ты сделал такой вывод? Чета у мну он не получается
Ну по формуле M самая большая будет у стоп слов. Скажем у слова "и". А SF() будет маленькая для nTF, которые редко встречаются, т.е. для больших nTF = сравнительно высокая плотность. Представим себе запрос [в контакте]. Не, лучше [и радиотелефон] По SLM получается, что большая плотность "и" в документе существенно важнее, чем наличие в нём слова "радиотелефон". Это кажется странным и вряд ли это правильно.

g00dmann October 23 2011, 16:08:32 UTC

А, понял. Ты М взял не то, оно для всех слов одинаковое, кол-во документов в коллекции.

medvetsk December 23 2011, 06:47:44 UTC

Аж любопытно стало... как там на "честной и большой" выйдет;)
Я кстати тоже порядком запутался. SLM, который вот здесь вводился
http://www.altertrader.com/publications23.html - там в числителе DF(L). Это опечатка?

И вот здесь
http://www.altertrader.com/publications21.html
в W6 под логарифмом ошибка - числитель и знаменатель поменять местами нужно.

g00dmann December 23 2011, 10:20:04 UTC

Спасибо за найденные позорные опечатки ( ... )

medvetsk December 24 2011, 09:30:22 UTC

и вот еще в догонку в формуле (4) логарифм можно убрать...он ведь там уже в IDF присутствует.

По поводу коллекций с неполным количеством оценок - я глубоко не вникал, но как вариант предлагалась следующая методика:

Положим есть некая коллекция с разумным количеством оценок (что подразумевается под разумным - предмет отдельного разговора, тут от алгоритма обучения многое зависит). На основе существующих оценок ассесоров обучаем классификатор (в статье два алгоритма обучения - KLD и SVM - для этих целей используется). Ну а далее, классификатор в режиме предсказания проставляет оценки остальным парам запрос-документ. В итоге имеем полный набор оценок.

Вообщем, подход во многом сомнительный, но за неимением лучшего решил что он достоин упоминания.

g00dmann December 24 2011, 14:07:29 UTC

Логарифм можно и оставить, хотя IDF в статье можно было бы определить явно, это да. IDF без логарифма используется, хотя и реже. Например, в статье Гулина, Маслова и Сегаловича Алгоритм текстового ранжирования Яндекса на РОМИП-2006.

Подход по вашей ссылке на самом деле сомнительный. Нужны нормальные оценки, но кто ж их даст... :)