Лемматизация с учетом морфологического контекста - тестовый забег нового лемматизатора в парсере

Jan 04, 2016 13:09

(начало тут http://kelijah.livejournal.com/173429.html)
Вот простой пример того, как правильное определение морфологического контекста слова позволяет правильно выбрать лемматизирующее правило.
Исходное предложение: Гораздо интереснее обстоят дела с интерконнектом и программным обеспечением.

Слово интерконнектом не словарное. Как получить его нормальную форму? Если действовать просто по аналогии, то можно попасть в ловушку неоднозначных падежных окончаний. Например, есть слово коннектом, поэтому вне контекста можно ошибочно предположить, что интерконнектом является нормальной формой. Это неправильно, так как в этом контексте намного более вероятно, что перед нами форма существительного (а не краткая форма прилагательного типа "знаком") в творительном падеже, а у него обычно применяется другое правило получения нормальной формы. Как определить эти ключевые морфологические признаки? С помощью штатного алгоритма part-of-speech tagging, который использует вероятностную модель русской морфологии. Именно так работает новый лемматизатор в составе персера:

интерконнектом

5
интерконнект

СУЩЕСТВИТЕЛЬНОЕ
ЧИСЛО:ЕД|ПАДЕЖ:ТВОР|ПАДЕЖВАЛ:РОД|РОД:МУЖ

В выдаче парсера видно, какие морфологические признаки парсер выбрал для этого слова на основе контекста, и что выбранное правило лемматизации дает верную нормальную форму (лемму) интерконнект. Ура-ура.

А что получится из случая с Оливером?

Исходный текст изобилует несловарной лексикой и ставит парсер в трудное положение:

Заглонитель Ланс Оливер чуть не погиб в результате наплочения турма.
Он ехал ласкунно на лошади покровнательно от Мэнсфилда (Австралия) и увидел вахню турмов, в которой было кастожно 15 животных.
Столенно, ничего бы и не случилось, если бы собака Оливера не начала порочить на вахню.
Один из турмов - старый, крупный лователь, выбатушенный корочением собаки, бросился за ней.
Та отпешила скумановаться за лошадью, на которой сидел Оливер.
Тогда турм бросился уже на Оливера.
Он схватил подвешенца отмалснными твинами за плечи и вытокнул его на землю.
Оливер вскочил на ноги и схватил турма, пытаясь подочевать ему обкаплюжиться на хвост и таким образом принять доланское положение.
Турм подстоголками укивовых лап в ропли раскелепил на заглонителе лахту и толстый тарат.
Наконец, Оливеру удалось зайти сзади турма и поклочить его.
Однако он и сам не выландал на ногах и вместе с турмом покорновался по размежному плою горы кастожно 35 метров и упал в сорот.
Шатировка продолжалась и в сороте, пока Оливер не слеменился схватить камень и обвинить несколько сильных ударов по голове турма.
Турм был помотрен.
Рустуя кулировку с Оливером, мельбурнский падакователь Кэвенег заявил, что турмы, особенно старые лователи, наплочивают на человека, когда они, как говорится, доспонарены к стене и им некуда сополиться.
Я не помню, сказал Кэвенег, чтобы такие наплочения скамничались торцией человека, но имеется много случаев, когда турм обвичивает человеку серподины.

Неполный список примеров правильной лемматизации:

-
  наплочения

8
  наплоченье

СУЩЕСТВИТЕЛЬНОЕ
  ОДУШ:НЕОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:РОД|РОД:СР

-
  турма

9
  турм

СУЩЕСТВИТЕЛЬНОЕ
  ЧИСЛО:ЕД|ПАДЕЖ:РОД|ПАДЕЖВАЛ:РОД|РОД:МУЖ

-
  Мэнсфилда

7
  Мэнсфилд

СУЩЕСТВИТЕЛЬНОЕ
  ЧИСЛО:ЕД|ПАДЕЖ:РОД|ПАДЕЖВАЛ:РОД|РОД:МУЖ

-
  вахню

13
  вахня

СУЩЕСТВИТЕЛЬНОЕ
  ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:ЖЕН|ПАДЕЖВАЛ:РОД

-
  турмов

14
  турм

СУЩЕСТВИТЕЛЬНОЕ
  ЧИСЛО:МН|ПАДЕЖ:РОД|ПАДЕЖВАЛ:РОД|РОД:МУЖ

-
  порочить

14
  порочить

ИНФИНИТИВ
  ВИД:НЕСОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|ПАДЕЖ:ВИН|ПАДЕЖ:ТВОР|ВОЗВРАТНОСТЬ:0

-
  лователь

7
  лователь

СУЩЕСТВИТЕЛЬНОЕ
  ОДУШ:ОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ИМ|РОД:МУЖ

-
  выбатушенный

9
  выбатушенный

ПРИЛАГАТЕЛЬНОЕ
  СТЕПЕНЬ:АТРИБ|КРАТКИЙ:0|ЧИСЛО:ЕД|ПАДЕЖ:ИМ|РОД:МУЖ

-
  отпешила

1
  отпешить

ГЛАГОЛ
  ВОЗВРАТНОСТЬ:0|ВИД:СОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|МОДАЛЬНЫЙ:1|ПАДЕЖ:ТВОР|ПАДЕЖ:ВИН|ПАДЕЖ:РОД|ПАДЕЖ:ДАТ|РОД:ЖЕН|ЧИСЛО:ЕД|НАКЛОНЕНИЕ:ИЗЪЯВ|ВРЕМЯ:ПРОШЕДШЕЕ

-
  скумановаться

2
  скумановаться

ИНФИНИТИВ
  ВОЗВРАТНОСТЬ:0|ВИД:НЕСОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|ПАДЕЖ:ТВОР

-
  подвешенца

2
  подвешенец

СУЩЕСТВИТЕЛЬНОЕ
  ОДУШ:ОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:МУЖ

-
  отмалснными

3
  отмалснной

ПРИЛАГАТЕЛЬНОЕ
  СТЕПЕНЬ:АТРИБ|КРАТКИЙ:0|ЧИСЛО:МН|ПАДЕЖ:ТВОР

-
  твинами

4
  твин

СУЩЕСТВИТЕЛЬНОЕ
  ЧИСЛО:МН|ПАДЕЖ:ТВОР|ПАДЕЖВАЛ:РОД|РОД:МУЖ

-
  вытокнул

8
  вытокнуть

ГЛАГОЛ
  ВОЗВРАТНОСТЬ:0|ВИД:СОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|МОДАЛЬНЫЙ:1|ПАДЕЖ:ТВОР|ПАДЕЖ:ВИН|ПАДЕЖ:РОД|ПАДЕЖ:ДАТ|РОД:МУЖ|ЧИСЛО:ЕД|НАКЛОНЕНИЕ:ИЗЪЯВ|ВРЕМЯ:ПРОШЕДШЕЕ

-
  обкаплюжиться

11
  обкаплюжиться

ИНФИНИТИВ
  ВОЗВРАТНОСТЬ:0|ВИД:НЕСОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|ПАДЕЖ:ТВОР

-
  доланское

17
  доланский

ПРИЛАГАТЕЛЬНОЕ
  СТЕПЕНЬ:АТРИБ|КРАТКИЙ:0|ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:СР

-
  подстоголками

1
  подстоголок

СУЩЕСТВИТЕЛЬНОЕ
  ОДУШ:НЕОДУШ|ЧИСЛО:МН|ПАДЕЖ:ТВОР|РОД:ЖЕН

-
  укивовых

2
  укивовой

ПРИЛАГАТЕЛЬНОЕ
  СТЕПЕНЬ:АТРИБ|КРАТКИЙ:0|ЧИСЛО:МН|ПАДЕЖ:РОД

-
  ропли

5
  ропль

СУЩЕСТВИТЕЛЬНОЕ
  ОДУШ:НЕОДУШ|ЧИСЛО:МН|ПАДЕЖ:ВИН|РОД:МУЖ

-
  раскелепил

6
  раскелепить

ГЛАГОЛ
  ВОЗВРАТНОСТЬ:0|ВИД:СОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|МОДАЛЬНЫЙ:1|ПАДЕЖ:ТВОР|ПАДЕЖ:ВИН|ПАДЕЖ:РОД|ПАДЕЖ:ДАТ|РОД:МУЖ|ЧИСЛО:ЕД|НАКЛОНЕНИЕ:ИЗЪЯВ|ВРЕМЯ:ПРОШЕДШЕЕ

-
  лахту

9
  лахт

СУЩЕСТВИТЕЛЬНОЕ
  ЧИСЛО:ЕД|ПАДЕЖ:ДАТ|ПАДЕЖВАЛ:РОД|РОД:МУЖ

-
  тарат

12
  тарат

СУЩЕСТВИТЕЛЬНОЕ
  ЧИСЛО:ЕД|ПАДЕЖ:ИМ|ПАДЕЖВАЛ:РОД|РОД:МУЖ

-
  выландал

5
  выландать

ГЛАГОЛ
  ВОЗВРАТНОСТЬ:0|МОДАЛЬНЫЙ:0|ВИД:СОВЕРШ|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|ПАДЕЖ:ВИН|ПАДЕЖ:РОД|ПАДЕЖ:ПАРТ|ПАДЕЖ:ТВОР|ПАДЕЖ:ДАТ|РОД:МУЖ|ЧИСЛО:ЕД|НАКЛОНЕНИЕ:ИЗЪЯВ|ВРЕМЯ:ПРОШЕДШЕЕ

Заметим, что лемматизация может иногда сталкиваться с пропажами гласных:

-

подстоголкамиword>

1position>

подстоголокlemma>

СУЩЕСТВИТЕЛЬНОЕpart_of_speech>

ОДУШ:НЕОДУШ|ЧИСЛО:МН|ПАДЕЖ:ТВОР|РОД:ЖЕНtags>
token>

В рамках вероятностной модели не обойтись без досадных ошибок:
-
  ласкунно

2
  ласкунно

СУЩЕСТВИТЕЛЬНОЕ
  ОДУШ:НЕОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:СР|ПАДЕЖВАЛ:РОД

-
  покровнательно

5
  покровнательно

СУЩЕСТВИТЕЛЬНОЕ
  ОДУШ:НЕОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:РОД|РОД:СР|ПАДЕЖВАЛ:РОД

-
  кастожно

19
  кастожно

СУЩЕСТВИТЕЛЬНОЕ
  ОДУШ:НЕОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ИМ|РОД:СР|ПАДЕЖВАЛ:РОД

-
  Столенно

0
  Столенно

СУЩЕСТВИТЕЛЬНОЕ
  ЧИСЛО:ЕД|ПАДЕЖ:ИМ|ОДУШ:ОДУШ|РОД:МУЖ|CHARCASING:FirstCapitalized

-
  корочением

10
  корочений

СУЩЕСТВИТЕЛЬНОЕ
  ЧИСЛО:ЕД|ПАДЕЖ:ТВОР|РОД:МУЖ|ПАДЕЖВАЛ:РОД

-
  подочевать

9
  подочевать

СУЩЕСТВИТЕЛЬНОЕ
  ОДУШ:НЕОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:МУЖ

-
  заглонителе

8
  заглонител

СУЩЕСТВИТЕЛЬНОЕ
  ОДУШ:ОДУШ|ЧИСЛО:ЕД|ПАДЕЖ:ПРЕДЛ|РОД:МУЖ

part-of-speech tagging, парсер, лемматизатор, вероятностная русская морфология, вероятностная модель, частеречная разметка

Previous post Next post
Up