В этом году я принимал участие в
РОМИПе и теперь хочу немного рассказать об этом.
- Для того, чтобы принять участие в семинаре, было достаточно приехать в НИВЦ МГУ, подписать соглашение и забрать диски с коллекциями. В соглашении определяются правила использования коллекций, а также устанавливается ограничение на использование полученных результатов в маркетинговых целях.
- Организационная сторона семинара была на высоте. На мой взгляд, организовать сбор результатов и их последующую оценку - дело непростое, особенно если учесть традиционное затягивание участниками сроков сдачи результатов (я сам опоздал где-то на неделю). Но благодаря усилиям Игоря Некрестьянова и других членов оргкомитета оценка по всем дорожкам все же была произведена до очной части семинара.
- В этом году РОМИП заметно вырос. Увеличилось число участников, появились новые "графические" дорожки. Объем публикаций участников вырос почти в 3 раза по сравнению с прошлым годом.
- Очная часть семинара состоялась 9 октября в Дубне. Как обычно, она была совмещена с конференцией RCDL. Кстати, Дубна - весьма приятный город, которому к лицу золотая осень.
- На семинаре присутствовало около 70 человек - насколько я понимаю, для РОМИПа это довольно много. Мы с трудом разместились в небольшой аудитории. Для появившихся немного позже Ильи Сегаловича и Дена Расковалова не сразу нашлось место.
- Илья Тихомиров рассказал об участии в РОМИПе поисковой системы Exactus. Основная особенность Exactus'а состоит в активном использовании лингвистики для улучшения качества поиска. Exactus принимал участие в дорожках поиска по коллекциям BY, KM и Legal, а также в дорожке контекстно-зависимого аннотирования. На дорожках веб-поиска их система показала весьма высокие результаты. Результаты и перспективы поискового алгоритма Exactus.
- Борис Викторович Добров рассказал об участии УИС РОССИЯ в дорожках поиска и классификации нормативных документов. Специфика формулы ранжирования, которая применялась при поиске по коллекции Legal, состоит в объединении двух оценок релевантности, полученных с помощью разных индексов: обычного индекса лемм и индекса концептов тезауруса. Особенно хорошо описанная система справляется с длинными информационными запросами. УИС РОССИЯ в РОМИП 2008: поиск и классификация нормативных документов.
- Особенность системы SSSleuth, разработкой которой занимается Сергей Крылов, заключается в использовании трехбуквенных "Q-термов". Насколько я понял, текст документа разбивается на перекрывающиеся трехбуквенные фрагменты (пробел также считается "буквой"), которые и используются в качестве индексируемых термов. Таким образом, количество Q-термов, выделяемых системой SSSleuth в документе, приблизительно равно количеству символов в тексте. Довольно необычный подход, который, впрочем, дает неплохие результаты, сравнимые с результатами систем с традиционной схемой работы с термами. SSSleuth на РОМИП 2008.
- Значительное внимание в докладе Сергея Татевосяна из KM.RU было уделено системе автоматического подбора параметров ранжирующего алгоритма. В самой схеме ранжирования мне показалось интересным использование фактора, учитывающего близость слов из запроса к началу предложения. KM.RU участвовал в дорожках поиска по белорусскому вебу, по своей "родной" коллекции KM, а также по коллекции нормативных документов. В поиске по веб-коллекциям было сделано два прогона, чтобы сравнить алгоритм, который в данный момент используется на портале, с новым алгоритмом (который, в частности, включает упомянутый выше фактор близости к началу предложения). Новый алгоритм показал несколько более высокие результаты. Еще было интересно услышать, что для коллекции BY результаты практически не зависят от применения ссылочного ранжирования, а на коллекции Legal оно даже ухудшает результаты. Это согласуется с моими собственными экспериментами. КМ.RU на РОМИП-2008. Оптимизация параметров поискового алгоритма.
- Один из двух докладов Яндекса представлял собой краткий отчет о попытке использования поисковика для выполнения заданий РОМИП. Если я ничего не путаю, то в этом году в семинаре участвовал тот самый поисковый движок, который используется для веб-поиска. Точнее, некая специальная модификация движка, адаптированная к масштабам коллекций РОМИПа и запущенная на одной машине. По словам Дена Расковалова, масштабирование вниз web-поиска Яндекса представляет собой отдельную достаточно серьезную задачу. Для выполнения заданий РОМИПа в поисковике были снижены требования по кворуму (это связано с большой разницей в размерах между коллекциями семинара и реальным вебом). Также было рассказано про систему автоматической настройки параметров ранжирующего алгоритма. Очевидно, это довольно важная прикладная задача для web-поисковика Яндекса, в котором для ранжирования документов используются сотни различных факторов. Для этой цели в Яндексе использовали метод TreeNet (показывающий лучшие результаты), а также monte-carlo markov chains. Мне было интересно услышать, что в результате экспериментов яндексоиды пришли к выводу, что оптимизировать поисковую систему можно по любой метрике - результаты все равно будут близкими.
- Я выступал с докладом от HeadHunter. Мы приняли участие в дорожках поиска по коллекциям KM.RU и Legal2007. К особенностям нашего алгоритма следует отнести достаточно активное использование заголовков документов, а также применение трех пассажей разной длины. HeadHunter на РОМИП-2008.
- Лично для меня участие в РОМИПе было очень полезным. Мне удалось проверить практически некоторые идеи, а заодно пообщаться с интересными людьми. Планирую участвовать в семинаре и в следующем году - надеюсь, что для этого удастся найти время.