(начало тут
http://kelijah.livejournal.com/173429.html)
Вот простой пример того, как правильное определение морфологического контекста слова позволяет правильно выбрать лемматизирующее правило.
Исходное предложение: Гораздо интереснее обстоят дела с интерконнектом и программным обеспечением.
Слово интерконнектом не словарное. Как получить его нормальную форму? Если действовать просто по аналогии, то можно попасть в ловушку неоднозначных падежных окончаний. Например, есть слово
коннектом, поэтому вне контекста можно ошибочно предположить, что интерконнектом является нормальной формой. Это неправильно, так как в этом контексте намного более вероятно, что перед нами форма существительного (а не краткая форма прилагательного типа "знаком") в творительном падеже, а у него обычно применяется другое правило получения нормальной формы. Как определить эти ключевые морфологические признаки? С помощью штатного алгоритма part-of-speech tagging, который использует вероятностную модель русской морфологии. Именно так работает новый лемматизатор в составе персера:
интерконнектом
5
интерконнект
СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:ЕД|ПАДЕЖ:ТВОР|ПАДЕЖВАЛ:РОД|РОД:МУЖ
В выдаче парсера видно, какие морфологические признаки парсер выбрал для этого слова на основе контекста, и что выбранное правило лемматизации дает верную нормальную форму (лемму) интерконнект. Ура-ура.
А что получится из случая с Оливером?
Исходный текст изобилует несловарной лексикой и ставит парсер в трудное положение:
Заглонитель Ланс Оливер чуть не погиб в результате наплочения турма.
Он ехал ласкунно на лошади покровнательно от Мэнсфилда (Австралия) и увидел вахню турмов, в которой было кастожно 15 животных.
Столенно, ничего бы и не случилось, если бы собака Оливера не начала порочить на вахню.
Один из турмов - старый, крупный лователь, выбатушенный корочением собаки, бросился за ней.
Та отпешила скумановаться за лошадью, на которой сидел Оливер.
Тогда турм бросился уже на Оливера.
Он схватил подвешенца отмалснными твинами за плечи и вытокнул его на землю.
Оливер вскочил на ноги и схватил турма, пытаясь подочевать ему обкаплюжиться на хвост и таким образом принять доланское положение.
Турм подстоголками укивовых лап в ропли раскелепил на заглонителе лахту и толстый тарат.
Наконец, Оливеру удалось зайти сзади турма и поклочить его.
Однако он и сам не выландал на ногах и вместе с турмом покорновался по размежному плою горы кастожно 35 метров и упал в сорот.
Шатировка продолжалась и в сороте, пока Оливер не слеменился схватить камень и обвинить несколько сильных ударов по голове турма.
Турм был помотрен.
Рустуя кулировку с Оливером, мельбурнский падакователь Кэвенег заявил, что турмы, особенно старые лователи, наплочивают на человека, когда они, как говорится, доспонарены к стене и им некуда сополиться.
Я не помню, сказал Кэвенег, чтобы такие наплочения скамничались торцией человека, но имеется много случаев, когда турм обвичивает человеку серподины.
Неполный список примеров правильной лемматизации:
-
наплочения
8
наплоченье
СУЩЕСТВИТЕЛЬНОЕ
ОДУШ:НЕОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:РОД|РОД:СР
-
турма
9
турм
СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:ЕД|ПАДЕЖ:РОД|ПАДЕЖВАЛ:РОД|РОД:МУЖ
-
Мэнсфилда
7
Мэнсфилд
СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:ЕД|ПАДЕЖ:РОД|ПАДЕЖВАЛ:РОД|РОД:МУЖ
-
вахню
13
вахня
СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:ЖЕН|ПАДЕЖВАЛ:РОД
-
турмов
14
турм
СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:МН|ПАДЕЖ:РОД|ПАДЕЖВАЛ:РОД|РОД:МУЖ
-
порочить
14
порочить
ИНФИНИТИВ
ВИД:НЕСОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|ПАДЕЖ:ВИН|ПАДЕЖ:ТВОР|ВОЗВРАТНОСТЬ:0
-
лователь
7
лователь
СУЩЕСТВИТЕЛЬНОЕ
ОДУШ:ОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ИМ|РОД:МУЖ
-
выбатушенный
9
выбатушенный
ПРИЛАГАТЕЛЬНОЕ
СТЕПЕНЬ:АТРИБ|КРАТКИЙ:0|ЧИСЛО:ЕД|ПАДЕЖ:ИМ|РОД:МУЖ
-
отпешила
1
отпешить
ГЛАГОЛ
ВОЗВРАТНОСТЬ:0|ВИД:СОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|МОДАЛЬНЫЙ:1|ПАДЕЖ:ТВОР|ПАДЕЖ:ВИН|ПАДЕЖ:РОД|ПАДЕЖ:ДАТ|РОД:ЖЕН|ЧИСЛО:ЕД|НАКЛОНЕНИЕ:ИЗЪЯВ|ВРЕМЯ:ПРОШЕДШЕЕ
-
скумановаться
2
скумановаться
ИНФИНИТИВ
ВОЗВРАТНОСТЬ:0|ВИД:НЕСОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|ПАДЕЖ:ТВОР
-
подвешенца
2
подвешенец
СУЩЕСТВИТЕЛЬНОЕ
ОДУШ:ОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:МУЖ
-
отмалснными
3
отмалснной
ПРИЛАГАТЕЛЬНОЕ
СТЕПЕНЬ:АТРИБ|КРАТКИЙ:0|ЧИСЛО:МН|ПАДЕЖ:ТВОР
-
твинами
4
твин
СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:МН|ПАДЕЖ:ТВОР|ПАДЕЖВАЛ:РОД|РОД:МУЖ
-
вытокнул
8
вытокнуть
ГЛАГОЛ
ВОЗВРАТНОСТЬ:0|ВИД:СОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|МОДАЛЬНЫЙ:1|ПАДЕЖ:ТВОР|ПАДЕЖ:ВИН|ПАДЕЖ:РОД|ПАДЕЖ:ДАТ|РОД:МУЖ|ЧИСЛО:ЕД|НАКЛОНЕНИЕ:ИЗЪЯВ|ВРЕМЯ:ПРОШЕДШЕЕ
-
обкаплюжиться
11
обкаплюжиться
ИНФИНИТИВ
ВОЗВРАТНОСТЬ:0|ВИД:НЕСОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|ПАДЕЖ:ТВОР
-
доланское
17
доланский
ПРИЛАГАТЕЛЬНОЕ
СТЕПЕНЬ:АТРИБ|КРАТКИЙ:0|ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:СР
-
подстоголками
1
подстоголок
СУЩЕСТВИТЕЛЬНОЕ
ОДУШ:НЕОДУШ|ЧИСЛО:МН|ПАДЕЖ:ТВОР|РОД:ЖЕН
-
укивовых
2
укивовой
ПРИЛАГАТЕЛЬНОЕ
СТЕПЕНЬ:АТРИБ|КРАТКИЙ:0|ЧИСЛО:МН|ПАДЕЖ:РОД
-
ропли
5
ропль
СУЩЕСТВИТЕЛЬНОЕ
ОДУШ:НЕОДУШ|ЧИСЛО:МН|ПАДЕЖ:ВИН|РОД:МУЖ
-
раскелепил
6
раскелепить
ГЛАГОЛ
ВОЗВРАТНОСТЬ:0|ВИД:СОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|МОДАЛЬНЫЙ:1|ПАДЕЖ:ТВОР|ПАДЕЖ:ВИН|ПАДЕЖ:РОД|ПАДЕЖ:ДАТ|РОД:МУЖ|ЧИСЛО:ЕД|НАКЛОНЕНИЕ:ИЗЪЯВ|ВРЕМЯ:ПРОШЕДШЕЕ
-
лахту
9
лахт
СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:ЕД|ПАДЕЖ:ДАТ|ПАДЕЖВАЛ:РОД|РОД:МУЖ
-
тарат
12
тарат
СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:ЕД|ПАДЕЖ:ИМ|ПАДЕЖВАЛ:РОД|РОД:МУЖ
-
выландал
5
выландать
ГЛАГОЛ
ВОЗВРАТНОСТЬ:0|МОДАЛЬНЫЙ:0|ВИД:СОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|ПАДЕЖ:ВИН|ПАДЕЖ:РОД|ПАДЕЖ:ПАРТ|ПАДЕЖ:ТВОР|ПАДЕЖ:ДАТ|РОД:МУЖ|ЧИСЛО:ЕД|НАКЛОНЕНИЕ:ИЗЪЯВ|ВРЕМЯ:ПРОШЕДШЕЕ
Заметим, что лемматизация может иногда сталкиваться с пропажами гласных:
-
подстоголкамиword>
1position>
подстоголокlemma>
СУЩЕСТВИТЕЛЬНОЕpart_of_speech>
ОДУШ:НЕОДУШ|ЧИСЛО:МН|ПАДЕЖ:ТВОР|РОД:ЖЕНtags>
token>
В рамках вероятностной модели не обойтись без досадных ошибок:
-
ласкунно
2
ласкунно
СУЩЕСТВИТЕЛЬНОЕ
ОДУШ:НЕОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:СР|ПАДЕЖВАЛ:РОД
-
покровнательно
5
покровнательно
СУЩЕСТВИТЕЛЬНОЕ
ОДУШ:НЕОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:РОД|РОД:СР|ПАДЕЖВАЛ:РОД
-
кастожно
19
кастожно
СУЩЕСТВИТЕЛЬНОЕ
ОДУШ:НЕОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ИМ|РОД:СР|ПАДЕЖВАЛ:РОД
-
Столенно
0
Столенно
СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:ЕД|ПАДЕЖ:ИМ|ОДУШ:ОДУШ|РОД:МУЖ|CHARCASING:FirstCapitalized
-
корочением
10
корочений
СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:ЕД|ПАДЕЖ:ТВОР|РОД:МУЖ|ПАДЕЖВАЛ:РОД
-
подочевать
9
подочевать
СУЩЕСТВИТЕЛЬНОЕ
ОДУШ:НЕОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:МУЖ
-
заглонителе
8
заглонител
СУЩЕСТВИТЕЛЬНОЕ
ОДУШ:ОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ПРЕДЛ|РОД:МУЖ