Тут заметки про туториалы на SIGIR2012, наверное мало кому интересно
Сходил на два tutorial:
1. Experimental Methods for Information Retrieval. Donald Metzler (Google), Oren Kurland (Technion Israel Institute of Technology).
Вроде пары часов речи Капитанов-Очевидностей о том, как делать эксперименты: прежде чем делать эксперимент подумайте, не изобретайте велосипед если можно этого избежать, делайте по возможности reproducible на открытых данных, приличия требуют хорошего baseline, ... Впрочем, узнал кое-что новое: внезапно Wilcoxon paired signed rank test нифига (экспериментально) не хорош для оценки стат.значимостей различий поисковых систем. А хорош paired t-test (! шок, ведь у него куда более суровые assumptions !) или permutation test. В целом может быть кому-то полезно.
А, Donald под моим вопросом признал, что в их экспериментах для получения лучшего значения ERR было выгоднее оптимизировать не ERR, а nDCG =) (Don - второй автор статьи, в которой был описан ERR).
Слайды:
http://iew3.technion.ac.il/~kurland/sigir12-tutorial.pdfСтатья, в которой говориться, что wilcoxon нехорош (сам еще не читал. и без этого жутко спать хочется)
http://dl.acm.org/citation.cfm?id=1321528 2. Advances on the Development of Evaluation Measures. Emine Yilmaz (Microsoft Research), Evangelos Kanoulas (Google), Ben Carterette (University of Delaware)
Тут было бодрее. Общая нить в том, что бывают разные модели пользователей, они индуцируют разные метрики качества: p@n, recall@n, map, err, ..., session-level метрики, intent-aware, ... и в общем обо всех оных рассказ.
Интересная часть началась примерно с того, что у нас есть куча параметров в каждой метрике (вероятность, что пользователь удовлетвориться highly relevant документом, ..., вероятность "устать") - давайте учить их из кликовых логов. Получаются забавные результаты, например вероятность прекратить поиск после not relevant ВЫШЕ, чем после fair или good документов (хаха, зимой у меня и, еще ранее у моего коллеги Юры, получалось чтото такое же).
Еще интересная идея: не обучать одну чиселку "вероятность устать и прекратить поиск", а сразу обучать распределение вероятностей над возможными значениями этой чиселки; далее использовать это распределение для подсчета ожидаемой удовлетворенности пользователя. На слайдах есть забавные графики распределения "уставания" для навигационных и информационных запросов (так зачем-то не вырезали значения вероятности устать вне отрезка [0,1]; но говорят это из-за smoothing).
Грозились положить слайды сюда
http://ir.cis.udel.edu/SIGIR12tutorial , но оно чтото еще нет пока.