Текущие бенчмарки вероятностных моделей + нейросетевой chunker

Dec 07, 2012 18:52

ТЕКУЩИЕ ИЗМЕНЕНИЯ

1. Эталонный корпус вырос до ~43000 предложений.
2. В нисходящий парсер добавлено очень много новых правил.
3. Для лемматизатора сделана экспериментальная скрытая марковская модель.
4. Эксперименты со статистическим chunker'ом.

СТАТИСТИЧЕСКИЙ ПАРСЕР (CHUNKER)

Пока сделал только 2 эксперимента с моделями. В предложении определяются токены, относящиеся к подлежащему и сказуемому для 1) обычного варианта с личной формой глагола "я сомневаюсь" 2) для очень частотных безличных конструкций типа "мне кажется".
Модель на основе CRF вообще не заработала, видимо где-то грубо накосячил. Буду разбираться.
Зато заработала в начальном приближении модель на нейросети (сигмоид + backpropagation), но там своя проблема - вычислительно это очень тяжелая вещь. Хотя вроде и сходимость хорошая, градиентный спуск не подвел. Откопал, стряхнул пыть и откомпилировал свою старую утилиту, которая читает описание задачи из XML файла - конфигурация сети, параметр обучения, входные и выходные сигналы. Возможно надо будет попробовать покопать в сторону softmax. Ну это если CRF не удасться завести, там все-таки сходимость намного лучше.

РУССКИЙ ЛЕММАТИЗАТОР

Процент ошибок получения леммы:
Лемматизатор, 4-gram со сглаживанием ....... 0.22 %
Лемматизатор, Hidden Markov Model 1* ......... 0.44 %

(*) [1] модель сделана только для сравнения, так как применять ее в отдельном движке лемматизации невозможно по техническим причинам. [2] модель имеет меньший размер  признакового вектора, поэтому результат ощутимо хуже, чем у N-грамной модели со сглаживанием.

РУССКАЯ МОРФОЛОГИЯ (POS TAGGING)

Процент ошибок определения части речи:
Conditional Random Fields ................................................................. 0.45 %
Русская морфология, Hidden Markov Model //observation=word// .... 1.78 %
Русская морфология, Hidden Markov Model //observation=suffix// .... 1.90 %
Русская морфология, 4-gram со сглаживанием ............................... 2.44 %

нейросети, статистика, обучение, chunker, crf, hmm, N-граммы, pos tagger, conditional random fields, вероятностная модель, hidden markov model

Previous post Next post
Up