Расширение морфологического движка для решения задачи Named Entry Recognition: kelijah

kelijah

Расширение морфологического движка для решения задачи Named Entry Recognition

Oct 25, 2015 19:20

В морфологический движок внесена следующая фича.
Теперь, даже если слово найдено в лексиконе, движок все равно применяет некоторые правила несловарной морфологии и добавляет их результаты в набор.
Это позволяет распознавать различные ФИО без искажения опознанной части речи и формы.
Например, для входного предложения "Пихт грустно улыбнулся." можно заметить, что фамилия Пихт является формой родительного падежа множественного числа существительного "пихта". Из-за этого синтаксический парсер вынужден закрывать глаза на морфологическую форму слова, и далее по цепочке получается странная информации в tree bank - подлежащее в родительном падеже. Подозреваю, что некоторая доля от текущий 1.1% ошибаемости на part-of-speech tagging возникает из-за этих искажений.
Теперь же движок умеет делать так:

Как видно на скриншоте утилиты Syntax, для "Пихт" парсер оставил не словарную форму, а подставил результат работы специмальных правил, и итоговый результат морфологически безупречен.

морфологический разбор текста, русский язык, вероятностная русская морфология, Морфологический анализ, морфология, частеречная разметка, pos tagger