rusl in ru_ir

Интервью для журнала ru_ir.

Dec 03, 2007 12:25

Журналу Информационный Поиск (ru_ir) любезно согласился дать интервью Игорь Некрестьянов - один из основателей Российского семинара по Оценке Методов Информационного Поиска (РОМИП).




Биография

Игорь, расскажите пару слов о себе.

Я закончил математико-механический факультет Санкт-Петербургского государственного университета (кафедра исследования операций) в 1997. Там же поступил в аспирантуру и в декабре 2000 защитил кандидатскую диссертацию по теме “Тематико-ориентированные методы информационного поиска”.

Первая моя небольшая статья была опубликована в 1996 в трудах конференции ADBIS, более-менее полный список публикаций доступен тут. Самый известный проект в области информационного поиска - это конечно же РОМИП.

Как получилось что Вы стали заниматься научными исследованиями?

Во многом благодаря стечению обстоятельств. Серьезно исследованиями в области информатики начал заниматься с третьего курса, во многом благодаря факультативным семинарам Бориса Асеновича Новикова, который впоследствии стал моим научным руководителем.

Я считаю, что мне очень повезло с научным руководителем, я очень многому от него научился. К тому же на эти годы пришелся период начала активного развития Группы теории баз данных, частью которой я являюсь до сих пор (хотя моя нынешняя активность не высока), и это тоже везение.

А еще мне везло на интересные проекты. Меня гораздо больше привлекают задачи, для которых понятно, как они связаны с проблемами из реального мира. Это не только позволяет понять насколько идеи работают в реальных условиях, но также дает возможность использовать особенности области применения в методах решения.

Какова область Ваших научных интересов?

Я начинал исследования в области информатики с задач теории баз данных - индексирования, поддержки целостности, БД в оперативной памяти и т.п. Со временем мои интересы сместились в довольно широкую и расплывчатую область, которую Яндекс удачно назвал “Интернет-математика”. В частности, в последние годы меня все больше интересуют задачи связанные с анализом поведения пользователя, моделированием его интересов и оценки эффективности методов решения задач информационного поиска.

Какой был Ваш первый исследовательский проект?

Моей первой законченной исследовательской работой была попытка построить стоимостную модель и получить теоретические оценки эффективности для нескольких методов индексирования данных.

Первый же крупный исследовательский проект в котором я участвовал - проект по гранту Northern Telecom. Было необходимо разработать эффективное решение для хранения телекоммуникационных данных,которое гарантировало бы согласованность, было совместимо со стандартами CORBA и в то же время могло применяться в системе с ограничениями реального времени.

Это был очень интересный опыт и был сделан ряд интересных находок. Так, например, мне кажется нам удалось получить интересный специализированный алгоритм управления транзациями для распределенных систем с разделяемой памятью.

Давно ли вы занимаетесь задачами поиска?

Осенью 1997 года исследовательский проект OASIS набирал разработчиков и я попал в их число. Это было мое первое практическое знакомство с методами поиска текстовой информации.

Что такое проект OASIS?

OASIS - это международный проект, целью которого было разработать открытую архитектуру распределенной поисковой системы. Система должна была состоять из географически распределенного множества независимых тематических коллекций, по которым проводился единый поиск. Предполагалось, что коллекции бы создавали и поддерживали люди заинтересованные в этой тематике и подборки материалов в этих коллекциях были бы высокого качества.

На долю группы в СПбГУ выпал ряд задач, которыми здесь раньше никто не занимался. Так получилось, что мне пришлось взять на себя координацию большинства исследований и разработок по проекту OASIS на стороне СПбГУ и это был очень сильный стимул, чтобы разобраться в состоянии дел в области поиска текстовой информации.

Проект OASIS завершился в 1999 и хотя заявка на его продолжение не получила поддержки, проект нельзя назвать провальным. Например, принято считать, что работа Soumen Chakrabarti является первой работой предлагающей идею focused crawler, хотя формально она была опубликована на месяц позже очень похожей статьи от проекта OASIS.

Но самым важным последствием OASIS с моей точки зрения было появление в СПбГУ группы исследований в области информационного поиска.

Занимаетесь ли Вы преподавательской деятельностью?

С 2001 по 2004 год я вел факультативный семинар в СПбГУ, который был посвящен проблемам информационного поиска. Это было интересно и познавательно, как для меня, так, я надеюсь, и для других участников. К сожалению, сейчас на чтение курсов не хватает времени :(

Я продолжаю сотрудничать со студентами и аспирантами, которые выполняют исследовательские работы под моим руководством. К сожалению, из-за нехватки времени я могу позволить себе быть научным руководителем всего нескольких работ.

С 1997 года прошло 10 лет. Многие, защитив диссертацию прекращают заниматься исследованиями и публиковаться. Почему Вы не остановились?

Честно говоря, защита диссертации не была для меня главной целью. Я просто занимался любопытными мне задачами, написание статей рассматривал, как способ переосмыслить сделанную работу и полученные результаты, чтобы понять где и что надо улучшать. Мне нравилось участвовать в конференциях и семинарах поскольку это дает возможность познакомиться и пообщаться с умными людьми, а заодно посмотреть новые места.

Защита диссертации же была побочным следствием и вообще случилась как-то неожидано. Я до сих пор отчетливо помню, как в середине сентября 2000 года в аэропорту Праги, куда мы прилетели на конференцию, Борис Асенович заявил мне и моей коллеге “Мне кажется у Вас обоих более чем достаточно материала для защиты в этом году. Подготовьте, пожалуйста, черновик текста диссертации к концу сентября”. Следующие три месяца выдались напряженными, но в декабре мы оба успешно защитились.

Вообще, исследования в IR для меня - это скорее хобби. Иногда, имеющее экономическую отдачу, но далеко не всегда. Например, тот же РОМИП - проект с нулевым или даже отрицательным балансом.

А зачем бросать хобби пока оно доставляет тебе удовольствие?

Хобби? Как так получилось и чем вы занимаетесь?

История обычная - в те годы, да и сейчас тоже, многие студенты и аспиранты вынуждены были подрабатывать. Иногда попадались неплохо оплачиваемые исследовательские проекты, но в основном работа была не связана с моими научными интересами.

Хотя и тут мне везло и я занимался довольно интересными проектами. Например, в 1995-1997 годах курсе я работал в компании УрбанСофт, где координировал техническую работу по подготовке нескольких релизов первого русскоязычного дистрибутива Linux под маркой «Открытое Ядро».

А последние 9 лет я работал на компанию Sun Microsystems, сначала как контрактор, а после открытия офиса в Петербурге, как полноценный сотрудник. За это время я участвовал в ряде интересных крупных проектов - например, занимался вопросами интеграции Java в Mozilla, средствами синхронизации с PDA для StarOffice (нынче OpenOffice), а сейчас работаю над разработкой некоторых библиотекам JDK.

Неужели у вас так и не появилось возможности перейти на работу связанную с IR?

Да нет, возмоности предоставлялись неоднократно и многие предложения были очень интересными, но не сложилось. Вначале я не был готов переезжать, хотя потом чуть было не переехал в Америку. Теперь вроде как есть масса вариантов и в Петербурге, но меня пока останавливают несколько соображений.

Во-первых, мне интересна моя текущая работа, мне нравится коллектив и я могу себе позволить совмещать работу в Сан и мои IR-активности, причем в IR я могу заниматься тем, что мне интересно. Во-вторых, переход на работу в крупную поисковую компанию будет означать потерю нейтрального статуса и мне сложнее будет заниматься организацией того же РОМИП. В-третьих, я опасаюсь, что превращение из хобби в работу может убить привлекательность IR, поскольку зачастую придется заниматься тем, чем надо, а не тем, чем интересно.

Кроме того, иногда мои IR-интересы чудесным образом совпадают с какими-нибудь коммерческими проектами других компаний и я могу заниматься ими, как консультант. Это позволяет отталкиваться от реальных проблем и работать с реальными данными. Например, сейчас я сотрудничаю с Nebuad в области моделирования интересов пользователей.

А кроме IR у вас есть хобби?

Конечно. Я лентяй и люблю поваляться на диване с интересной книжкой. Если есть время и погода позволяет, то мне нравится кататься на велосипеде, пускать воздушных змеев и т.п.
Еще я люблю путешествовать, меня привлекают нестандартные поездки в интересные места и с активными развлечениями, но в то же время c относительным комфортом и без жесткого экстрима. Мне важны впечатления и толика андреналина, а не героические подвиги.

Например, что мы уже делали: забирались на высоту более четырех километров в Гималаях, но с портерами; сплавлялись по горным рекам Непала с порогами категории 4+ и 5-, но с группой опытных гидов; прыгали на тарзанке с моста в ущелье глубиной 165м; учились kite surfing (честно говоря, я пока успел освоить только управление кайтом и не успел стать на доску); вылетали с трассы downhill mountain biking, но в защитных костюмах; летали на параплане, но в тандеме; расширили представление о том где могут проехать четырехколесные машины, поездив по возвышеностям Юты на багги.

А сколько еще в планах :)

История РОМИП

Как родилась идея создания семинара по информационному поиску в России?

Впервые, идея была сформулирована Ильей Сегаловичем («Яндекс») осенью 2001 года. Это была наша с ним первая очная встреча и мы, в частности, обсуждали влияние TREC на уровень исследований в IR и то, что по разным причинам российские коллективы не участвуют в TREC. Илья и поинтересовался, а что мешает сделать русский аналог TREC и почему бы не попробовать сделать его самостоятельно.

Неожиданной частью здесь был не русскоязычный семинар сам по себе, а довольно смелая идея попробовать сделать его самостоятельно. Идея была любопытная, хоть и казавшаяся малореальной, но Илья убедил меня попробовать. И хотя первой попытки семинар провести не удалось, но именно это послужило отправной точкой.

Реальным же моментом рождения семинара можно считать 17 октября 2002 года - день, когда по пути из Дубны в Москву, возвращаясь с конференции RCDL, в машине у Ильи состоялось второе принципиальное обсуждение, но уже в расширенном составе. А осенью 2003 года в Петербурге мы уже подводили итоги первого семинара.

Кто стоял у истоков этой идеи?

В 2001 в ключевом обсуждении нас участвовало двое - Илья Сегалович и я, а в 2002 к нам присоединились: Максим Губин (в то время «Кодекс», а сейчас ask.com), Борис Добров («УИС РОССИЯ») и Павел Браславский (Институт машиноведения УрО РАН, а теперь еще и «Яндекс»).

По возвращении в Петербург к организации присоединилось еще несколько человек из группы информационного поиска в СПбГУ - Владимир Добрынин, Екатерина Павлова и Игорь Кураленок. Без их помощи семинар бы не состоялся.

Насколько было трудно организовать подобный проект в России?

Два ключевых момента - коллекции и участники. Кроме этого воникает масса других сложных вопросов - например, организация и проведение оценки, но эти два - принципиальны.

Коллекция определяют типы возможных заданий. Она должна быть достаточно объемной, осмысленной и очень важно чтобы ее можно было легально распространять. С первой коллекцией РОМИП помог Яндекс - коллекция была составлена из сайтов домена narod.ru.

Потенциальных участников было непросто найти, а потом еще и заинтересовать. Большинство из них представляли коммерческие компании и многие опасались дать конкурентам лишнюю информацию, которую, например, можно было бы использовать в маркетинговых целях («наша система ищет на 10% лучше чем их, см. РОМИП»).

Какое количество участников собрал первый семинар?

Мы получили 10 заявок, смогли выполнить задания и предоставить результаты в срок - 9. Важно что среди участвовавших коллективов были как представители индустрии, так и представители академических кругов.

Каковы цели создания семинара?

Первичная цель семинара - создание плацдарма для проведения независимой оценки, позволяющей сравнить разные методы решения одной и той же задачи.

Но эта цель не единственная. Нам хотелось, чтобы РОМИП помог привлечь более широкое внимание к проблемам информационного поиска среди исследователей России и стал форумом для общения российский ученых и разработчиков в этой области.

Участие в РОМИП

Как устроен РОМИП?

Во многом подобно TREC - участники получают набор заданий и коллекций, выполняют их и предоставляют результаты оргкомитету, который организует проведение оценки и выдает результаты оценки участникам.

Этот процесс растягивается на 8-10 месяцев и заканчивается очным семинарам, где участники могут рассказать о своих экспериментах и результатах. Труды семинара публикуются и свободно доступны всем желающим.
Более подробно о РОМИП и принципах его организации можно прочесть на сайте семинара - www.romip.ru.

Чем семинар интересен своим участникам?

Об этом лучше спрашивать участников (или посмотреть что они пишут о причинах своего участия в отчетах из сборника трудов РОМИП).

На мой взгляд плюсов несколько. Участие позволяет получить независимую оценку своей системы или методов в условиях контролируемого эксперимента и в сравнении с подходами других участников. Для многих исследовательских прототипов это также испытание масштабом - ведь индивидуальные исследователи редко могут позволить себе строить большие тестовые коллекции и проводить масштабную работу по оценке самостоятельно.

Ну и конечно отличная возможность пообщаться с другими исследователями, имеющими большой опыт решения поисковых задач, а также узнать их мнение по поводу вашего подхода.

В конце-концов, на данный момент РОМИП - это по-видимому наиболее представительное мероприятие, посвященное исследованию задач поиска в России. Так что для начинающих исследователей, это неплохое место просто показать себя.

Каковы условия участия в РОМИП?

От участника требуется подписать соглашения об использовании данных, выполнить задания в срок, предоставить отчет, сделать доклад на итоговом семинаре, а также компенсировать затраты на проведение оценки.

Это дорого?

Сумма взноса зависит от того как много Ваших результатов оценивалось. Несколько лет затраты частично компенсировались грантом РФФИ, но даже без поддержки РФФИ в 2007 году максимальный взнос не превысил 20.000 рублей.

Кроме того участники могут компенсировать затраты, приняв участие в оценке результатов. Это хорошая возможность для студентов и аспирантов попробовать свои силы без материальных затрат.

Каковы основные секции (дорожки) семинара?

Список задач рассматриваемых на семинаре зависит от того, что интересно участникам и какие коллекции доступны. Секция или дорожка в терминологии РОМИП посвящена отдельной задаче и имеет фиксированные правила.

Постоянно пользуются популярностью различные дорожки поиска по запросу и тематической классификации. В программу семинаров РОМИП разных лет также входили дорожки извлечения фактов и фактографического поиска, аннотирования по запросу, кластеризации новостного потока.

В 2008 году возможно появятся и первые дорожки связанные с нетекстовым поиском. В частности, на очной встрече 2007 года активно обсуждалась идея проведения дорожки поиска по изображениям.

Насколько объемны задания?

Зависит от используемой в коллекции дорожки. Например, самая крупная коллекция, KM.RU, занимает 13.7Гб в распакованном виде. Самая маленькая, новостная коллекция, - 75Mb.

Вообще задания достаточно объемны, чтобы сделать задачу интересной и минимизировать возможности для ручной подстройки, но в то же время мы стараемся не делать их чрезмерно большими, чтобы дать шанс новичкам.

Могут ли участники принимать участие лишь в одной дорожке, или необходимо пройти все?

Участник волен сам решать в каких дорожках он хочет участвовать и сколько результатов сдавать. Поучаствовать во всех дорожках вообще очень не просто, в некоторые годы в РОМИП было до 10 дорожек.

В РОМИП могут участвовать только граждане России?

Нет конечно. РОМИП открыт для всех желающих, в семинаре уже несколько раз участвовали коллективы из ближнего зарубежья. Единственное ограничение - задания и коллекции русскоязычные, так что какое-то знание русского языка необходимо даже при использовании переведенных на английский язык правил.

А можно получить коллекции РОМИП, не участвую в семинаре?

Да. Для этого необходимо подписать соглашения об использовании данных и предоставить их в оргкомитет. Основные условия:
• Компенсировать затраты на носители и доставку
• При публикации результатов исследований с использованием РОМИП всегда ссылаться на РОМИП
• Уведомлять оргкомитет РОМИП о всех открытых публикациях с использованием материалов РОМИП

В чем отличие РОМИП от других подобных форумов, таких как американский TREC, европейский CLEF или японский NTCIR?

В основном в том, что семинар ориентирован на поиск по русскоязычной информации и проводится в России. Мы во многом переиспользуем методологии проведения дорожек, апробированные в рамках других семинаров, но не всегда повторяем их один к одному и в РОМИП есть свои уникальные дорожки.

Почему семинар проводится в рамках RCDL, а не является самостоятельным, как например TREC или CLEF?

Семинар абсолютно самостоятелен и не зависит от RCDL. То, что очная часть обычно совмещена с RCDL - это ставшее уже традиционным взаимовыгодное сотрудничество.

По сравнению с TREC или CLEF, число участников РОМИП невелико. Совмещение позволяет привлечь дополнительных слушателей на доклады участников РОМИП и упрощает логистику проведения семинара. Для потенциальных слушателей совмещение двух интересных мероприятий делает программу более насыщенной и повышает привлекательность объединенного мероприятия.

RCDL также выигрывает благодаря увеличению числа заявок на доклады по IR и близким тематикам. Посмотрите труды RCDL за последние несколько лет, рост очевиден.

Проявляют ли к семинару интерес спонсоры?

Это непростой вопрос. Если спонсором является участник семинара, то возникают подозрения, что оргкомитет черезчур прислушиваться к его пожеланиям и это дискредитирует идею равенства участников. Долгое время было не ясно как избежать подобных рисков.

Многое было бы неосуществимо, если бы не помощь ряда компаний (Яндекс, Кодекс, Рамблер, KM Онлайн и другие), которые предоставляли РОМИП материалы коллекций, экспертов для при проведения оценки, технические средства и т.д. Значительным подспорьем в организации семинара был грант РФФИ.

Сейчас, мы заинтересованы в спонсорах в первую очередь, чтобы упростить участие для представителей академических кругов, а также чтобы увеличить объем оценки. Если есть желание и возможность помочь - обращайтесь в оргкомитет.

Каковы особенности РОМИП’2007 года?

Цикл этого года был очень не простым. И оргкомитету и участникам зачастую не хватало времени, что породило накладки с расписанием, а несколько постоянных участников семинара вообще не смогли сдать результаты в срок. Но семинар все-таки состоялся!

Среди безусловных достижений этого года - появление трех больших новых коллекций: двух Веб коллекций и коллекции нормативных документов (предоставлены компаниями Яндекс, KM Онлайн и Кодекс). Одна из новых Веб коллекций, коллекция BY.WEB, имеет довольно высокую степень связности ссылок, что позволяет экспериментировать с методами ссылочного ранжирования.

Каковы ближайшие и долгосрочные планы развития семинара?

Издать, наконец, труды РОМИП’2007 и начать цикл РОМИП’2008. Идей много, посмотрим что удастся реализовать.

Планируется ли привлечь Google к участию в РОМИП?

Конечно оргкомитет заинтересован в привлечении новых участников и не только Google.

Мы посылали Google приглашение к участию, но видимо в прошлом году у них не нашлось времени или желающих принять участие в РОМИП. Может быть в этом году ситуация изменится, время покажет.
Кстати, Google выступил одним из спонсоров летней школы Russir’2007, которую организовывал РОМИП.

Работа в России

Каковы на Ваш взгляд перспективы развития информационного поиска в России?

Как науки? Я очень надеюсь, что интерес к исследованиям в этой области в России вырастет. Спрос на професионалов растет, и все чаще компании взаимодействуют с учебными заведениями. Есть интересные инициативы по поддержке исследовательских работ и учебных курсов в области поиска. Наиболее заметны усилия Яндекс, но это не единственная компания поддерживающая академические инициативы.

Если говорить об индустрии, то за последние годы на российском рынке IR появилось много игроков и я предполагаю, что их число будет расти и дальше, как за счет крупных западных компаний, так и перспективных стартапов.

Могут ли российские разработчики на равных конкурировать с западными?

В смысле технической квалификации? Насколько мне известно за последние два года в России проводили набор разработчиков в свои поисковые подразделения как минимум Google, Microsoft и Ask.com, не считая ряда менее крупных компаний. Это как мне кажется снимает все сомнения.

Гораздо более сложный вопрос - а могут ли российские исследователи конкурировать с иностранными в области IR. Пока, формально, картина не очень радужная - считанные единицы представителей России могут похвастаться публикациями на IR-темы в престижных мировых конференциях и журналах. Но уровень работ постепенно растет и хочется надеяться, что в недалеком будущем русские фамилии в оглавлениях трудов SIGIR или WWW будет встречаться намного чаще.

Есть ли перспективы для российских специалистов найти интересную и высокооплачиваемую работу на родине или для реализации своих амбиций стоит готовиться к переезду в другую страну?

Устойчивый спрос на специалистов в области информационного поиска в России есть уже много лет. И с увеличением числа компаний на этом рынке спрос только растет. Сейчас, как мне кажется, найти интересную и нормально оплачиваемую работу в России вполне реально.

Более того, за последние пару лет многие компании открыли офисы не только в Москве, так что жителям ряда крупных городов даже не надо думать о переезде.
Кстати, отрадно, что появляются и чисто исследовательские вакансии. Например, не так давно в Петербурге появилось отделение HP Labs.

Игорь, спасибо большое за ответы. Удачи Вам в Ваших начинаниях.

(с) ru_ir

people, интервью для ru_ir, РОМИП, rcdl

Previous post Next post
Up