Semi-supervised vs. Cross-domain Graph-based Learning for Sentiment Classification

Dec 17, 2013 15:18


Дорогие друзья!
В эту субботу, 21 декабря, в 17:00 состоится последний в этом году семинар по автоматической обработке естественного языка. Закрывать сезон будет Наталья Пономарева (Statistical Cybermetrics Research group, University of Wolverhampton) с докладом "Semi-supervised vs. Cross-domain Graph-based Learning for Sentiment Classification".
Доклад посвящен двум подходам машинного обучения в применении к классификации сентиментов (sentiment classification). Первый подход (cross-domain) для обучения модели использует размеченные данные из предметной области, отличной от области тестовых данных. Второй подход (semi-supervised) требует наличия небольшой выборки размеченных данных из той же предметной области, что и тестовые данные.

Центральный метод машинного обучения, используемый в данной работе, состоит в применении алгоритмов на графах. Этот метод был выбран в силу нескольких причин. Во-первых, реализация алгоритмов на графах не зависит от используемого подхода. Во-вторых, различные исследования показали успешность применения данных алгоритмов как при “semi-supervised”, так и при “cross-domain” подходах. Наконец, алгоритмы на графах легко масштабируются для решения задач с миллионами данных, а также без труда адаптируются к задачам со многими классами.

В докладе будет подробно разобран один из популярных алгоритмов на графах - метод распространения разметки (label propagation) и его модификации. Особое внимание будет уделено построению графа, узлами которого являются документы, а ребра соответствуют сходству между сентиментами соответствующих узлов. В частности, будут рассмотрены разные меры сходства между текстами, для выбора меры, которая дает наилучший результат с точки зрения внутренней (intrinsic) и внешней (extrinsic) оценок.

В результате использования алгоритмов на графах при “semi-supervised” и “cross-domain” подходах, будет предложена стратегия, позволяющая выбрать наиболее целесообразный подход в зависимости от имеющихся размеченных и тестовых данных и их свойств.

Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".

nlp-семинар

Previous post Next post
Up