Dec 07, 2012 18:52
ТЕКУЩИЕ ИЗМЕНЕНИЯ
1. Эталонный корпус вырос до ~43000 предложений.
2. В нисходящий парсер добавлено очень много новых правил.
3. Для лемматизатора сделана экспериментальная скрытая марковская модель.
4. Эксперименты со статистическим chunker'ом.
СТАТИСТИЧЕСКИЙ ПАРСЕР (CHUNKER)
Пока сделал только 2 эксперимента с моделями. В предложении определяются токены, относящиеся к подлежащему и сказуемому для 1) обычного варианта с личной формой глагола "я сомневаюсь" 2) для очень частотных безличных конструкций типа "мне кажется".
Модель на основе CRF вообще не заработала, видимо где-то грубо накосячил. Буду разбираться.
Зато заработала в начальном приближении модель на нейросети (сигмоид + backpropagation), но там своя проблема - вычислительно это очень тяжелая вещь. Хотя вроде и сходимость хорошая, градиентный спуск не подвел. Откопал, стряхнул пыть и откомпилировал свою старую утилиту, которая читает описание задачи из XML файла - конфигурация сети, параметр обучения, входные и выходные сигналы. Возможно надо будет попробовать покопать в сторону softmax. Ну это если CRF не удасться завести, там все-таки сходимость намного лучше.
РУССКИЙ ЛЕММАТИЗАТОР
Процент ошибок получения леммы:
Лемматизатор, 4-gram со сглаживанием ....... 0.22 %
Лемматизатор, Hidden Markov Model 1* ......... 0.44 %
(*) [1] модель сделана только для сравнения, так как применять ее в отдельном движке лемматизации невозможно по техническим причинам. [2] модель имеет меньший размер признакового вектора, поэтому результат ощутимо хуже, чем у N-грамной модели со сглаживанием.
РУССКАЯ МОРФОЛОГИЯ (POS TAGGING)
Процент ошибок определения части речи:
Conditional Random Fields ................................................................. 0.45 %
Русская морфология, Hidden Markov Model //observation=word// .... 1.78 %
Русская морфология, Hidden Markov Model //observation=suffix// .... 1.90 %
Русская морфология, 4-gram со сглаживанием ............................... 2.44 %
нейросети,
статистика,
обучение,
chunker,
crf,
hmm,
N-граммы,
pos tagger,
conditional random fields,
вероятностная модель,
hidden markov model