Теоретически может и не улучшить, но у меня есть уверенность, что улучшит, причем прилично. Но все гипотезы, даже уверенно декларируемые, имеет смысл проверять на практике, что и предлагается. Апгрейд до aSLM не особо затратный по ресурсам, поэтому смысл в проверке есть, было бы желание... :)
ну чота я попробовал и не получил обещанные 15%. Даже 0% не получил :) Я правда уже не студент, мож поэтому. В частности непонятны следующие моменты: в последней статье не написано что есть M в первой формуле (предположительно число документов в коллекции с этой леммой?), также не написано сколько интервалов в гистограмме распределений (500 судя по предыдущей статье?), аппроксимация взвешенная или все интервалы с одним весом, что делать с интервалами с нулём самплов итд. Я потыркался чутка - получается минус как ни крути.
Ну и пара мыслей почему это вообще не может работать. 1. Странно что скор зависит от разбиение на интервалы - сделал больше интервалов - скор принципиально изменился, плюс получились нули на которые по формуле ещё и делить нуна 2. В такой схеме получается большая плотность стоп слов в документе важнее наличия редкого слова, что выглядит странно.
То, что из "спектра" (ie распределения TF по документам) можно что-то отжать похоже на правду, но то, что вы с ними сделали - имхо совсем не то :)
Хз, почему ты не получил. А на какой коллекции ты считал? На той же, или на других? У нас на нескольких все гуд получалось, без вариантов. М - это число документов в коллекции, в статье накосячили, забыли это прописать. Но оно вроде и так очевидно было, из здравого смысла. Интервалов 500, по 0.0001. При аппроксимации SLM все интервалы брались с одним весом, так получалось интереснее. Но понятно, что тут пока все не окончательно, возможно найдутся и более ударные функции. Интервалы с нулями при аппроксимации игнорируй.
Хотя вот мы на RCDL обсуждали - не плохо бы отдельно на запросах из редких слов потестить, любопытно, останется ли такое же преимущество. Но у мну таких оценок нет, засада... :) 1. Странно что скор зависит от разбиение на интервалы - сделал больше интервалов - скор принципиально изменился, плюс получились нули на которые по формуле ещё и делить нуна Почему странно? Есть какое-то оптимальное число интервалов, или ты думаешь, что для любого должно быть похоже? Дык так не бывает. Для коллекции РОМИПа 500 где-то в районе
( ... )
Коллекция другая - честная большая. Выборка документов не совсем репрезентативная, но т.к. ранжируем внутри выборки это не роляет.
Как ты сделал такой вывод? Чета у мну он не получается Ну по формуле M самая большая будет у стоп слов. Скажем у слова "и". А SF() будет маленькая для nTF, которые редко встречаются, т.е. для больших nTF = сравнительно высокая плотность. Представим себе запрос [в контакте]. Не, лучше [и радиотелефон] По SLM получается, что большая плотность "и" в документе существенно важнее, чем наличие в нём слова "радиотелефон". Это кажется странным и вряд ли это правильно.
Аж любопытно стало... как там на "честной и большой" выйдет;) Я кстати тоже порядком запутался. SLM, который вот здесь вводился http://www.altertrader.com/publications23.html - там в числителе DF(L). Это опечатка?
и вот еще в догонку в формуле (4) логарифм можно убрать...он ведь там уже в IDF присутствует.
По поводу коллекций с неполным количеством оценок - я глубоко не вникал, но как вариант предлагалась следующая методика:
Положим есть некая коллекция с разумным количеством оценок (что подразумевается под разумным - предмет отдельного разговора, тут от алгоритма обучения многое зависит). На основе существующих оценок ассесоров обучаем классификатор (в статье два алгоритма обучения - KLD и SVM - для этих целей используется). Ну а далее, классификатор в режиме предсказания проставляет оценки остальным парам запрос-документ. В итоге имеем полный набор оценок.
Вообщем, подход во многом сомнительный, но за неимением лучшего решил что он достоин упоминания.
Логарифм можно и оставить, хотя IDF в статье можно было бы определить явно, это да. IDF без логарифма используется, хотя и реже. Например, в статье Гулина, Маслова и Сегаловича Алгоритм текстового ранжирования Яндекса на РОМИП-2006.
Подход по вашей ссылке на самом деле сомнительный. Нужны нормальные оценки, но кто ж их даст... :)
Comments 9
(The comment has been removed)
Reply
Ну и пара мыслей почему это вообще не может работать. 1. Странно что скор зависит от разбиение на интервалы - сделал больше интервалов - скор принципиально изменился, плюс получились нули на которые по формуле ещё и делить нуна 2. В такой схеме получается большая плотность стоп слов в документе важнее наличия редкого слова, что выглядит странно.
То, что из "спектра" (ie распределения TF по документам) можно что-то отжать похоже на правду, но то, что вы с ними сделали - имхо совсем не то :)
Reply
Хотя вот мы на RCDL обсуждали - не плохо бы отдельно на запросах из редких слов потестить, любопытно, останется ли такое же преимущество. Но у мну таких оценок нет, засада... :)
1. Странно что скор зависит от разбиение на интервалы - сделал больше интервалов - скор принципиально изменился, плюс получились нули на которые по формуле ещё и делить нуна
Почему странно? Есть какое-то оптимальное число интервалов, или ты думаешь, что для любого должно быть похоже? Дык так не бывает. Для коллекции РОМИПа 500 где-то в районе ( ... )
Reply
Как ты сделал такой вывод? Чета у мну он не получается
Ну по формуле M самая большая будет у стоп слов. Скажем у слова "и". А SF() будет маленькая для nTF, которые редко встречаются, т.е. для больших nTF = сравнительно высокая плотность. Представим себе запрос [в контакте]. Не, лучше [и радиотелефон] По SLM получается, что большая плотность "и" в документе существенно важнее, чем наличие в нём слова "радиотелефон". Это кажется странным и вряд ли это правильно.
Reply
Reply
Я кстати тоже порядком запутался. SLM, который вот здесь вводился
http://www.altertrader.com/publications23.html - там в числителе DF(L). Это опечатка?
И вот здесь
http://www.altertrader.com/publications21.html
в W6 под логарифмом ошибка - числитель и знаменатель поменять местами нужно.
Reply
Reply
По поводу коллекций с неполным количеством оценок - я глубоко не вникал, но как вариант предлагалась следующая методика:
Положим есть некая коллекция с разумным количеством оценок (что подразумевается под разумным - предмет отдельного разговора, тут от алгоритма обучения многое зависит). На основе существующих оценок ассесоров обучаем классификатор (в статье два алгоритма обучения - KLD и SVM - для этих целей используется). Ну а далее, классификатор в режиме предсказания проставляет оценки остальным парам запрос-документ. В итоге имеем полный набор оценок.
Вообщем, подход во многом сомнительный, но за неимением лучшего решил что он достоин упоминания.
Reply
Подход по вашей ссылке на самом деле сомнительный. Нужны нормальные оценки, но кто ж их даст... :)
Reply
Leave a comment