Случай с Оливером - парсинг несловарной лексики

Jun 27, 2015 10:25

Прогнал через парсер текст "Случай с Оливером". Далее - результаты и пояснения.

Само по себе наличие "несловарных слов" не является нетипичным для текста. Но статистические особенности этой несловарности важны. Встретить в тексте новый глагол - редкое событие, если мы не читаем какую-нибудь узкоспециализированную техническую статью. А вот несловарные существительные встречаются постоянно и сбивать парсер не должны.

Вышеупомянутый текст ставит парсер в положение маленького человечка, осваивающего язык, для которого любой текст - шарада из неизвестных глаголов, прилагательных и наречий, причем неизвестно, что это именно именно глаголы, прилагательные и наречия. Как с такой задачей будет справляться вероятностная модель русской морфологии, не понимающая смысла, но знающая обычный контекст употребления грамматических форм?

Вот сам текст:

Заглонитель Ланс Оливер чуть не погиб в результате наплочения турма.
Он ехал ласкунно на лошади покровнательно от Мэнсфилда (Австралия) и увидел вахню турмов, в которой было кастожно 15 животных.
Столенно, ничего бы и не случилось, если бы собака Оливера не начала порочить на вахню.
Один из турмов - старый, крупный лователь, выбатушенный корочением собаки, бросился за ней.
Та отпешила скумановаться за лошадью, на которой сидел Оливер.
Тогда турм бросился уже на Оливера.
Он схватил подвешенца отмалснными твинами за плечи и вытокнул его на землю.
Оливер вскочил на ноги и схватил турма, пытаясь подочевать ему обкаплюжиться на хвост и таким образом принять доланское положение.
Турм подстоголками укивовых лап в ропли раскелепил на заглонителе лахту и толстый тарат.
Наконец, Оливеру удалось зайти сзади турма и поклочить его.
Однако он и сам не выландал на ногах и вместе с турмом покорновался по размежному плою горы кастожно 35 метров и упал в сорот.
Шатировка продолжалась и в сороте, пока Оливер не слеменился схватить камень и обвинить несколько сильных ударов по голове турма.
Турм был помотрен.
Рустуя кулировку с Оливером, мельбурнский падакователь Кэвенег заявил, что турмы, особенно старые лователи, наплочивают на человека, когда они, как говорится, доспонарены к стене и им некуда сополиться.
Я не помню, сказал Кэвенег, чтобы такие наплочения скамничались торцией человека, но имеется много случаев, когда турм обвичивает человеку серподины.

После парсинга я просмотрел результаты и пометил красным те несловарные лексемы, для которых парсер выбрал неверную часть речи. Заленым помечены верно опознанные формы:

Заглонитель Ланс Оливер чуть не погиб в результате наплочения турма.
Он ехал ласкунно на лошади покровнательно от Мэнсфилда (Австралия) и увидел вахню турмов, в которой было кастожно 15 животных.
Столенно, ничего бы и не случилось, если бы собака Оливера не начала порочить на вахню.
Один из турмов - старый, крупный лователь, выбатушенный корочением собаки, бросился за ней.
Та отпешила скумановаться за лошадью, на которой сидел Оливер.
Тогда турм бросился уже на Оливера.
Он схватил подвешенца отмалснными твинами за плечи и вытокнул его на землю.
Оливер вскочил на ноги и схватил турма, пытаясь подочевать ему обкаплюжиться на хвост и таким образом принять доланское положение.
Турм подстоголками укивовых лап в ропли раскелепил на заглонителе лахту и толстый тарат.
Наконец, Оливеру удалось зайти сзади турма и поклочить его.
Однако он и сам не выландал на ногах и вместе с турмом покорновался по размежному плою горы кастожно 35 метров и упал в сорот.
Шатировка продолжалась и в сороте, пока Оливер не слеменился схватить камень и обвинить несколько сильных ударов по голове турма.
Турм был помотрен.
Рустуя кулировку с Оливером, мельбурнский падакователь Кэвенег заявил, что турмы, особенно старые лователи, наплочивают на человека, когда они, как говорится, доспонарены к стене и им некуда сополиться.
Я не помню, сказал Кэвенег, чтобы такие наплочения скамничались торцией человека, но имеется много случаев, когда турм обвичивает человеку серподины.

Важное замечание: морфоанализатор на самом деле знает, что, к примеру, "ласкунно" может быть наречием. В этом легко убедиться с помощью утилиты Lexicon:

Solarix Lexicon // 13.42.11147  Win32  (build date Jun  2 2015) //

Loading dictionary from ..\bin-windows\dictionary.xml... OK 0 msec
Dictionary version=165
Type #exit to exit
: ласкунно

There are 13 projections:
#1  НАРЕЧИЕ:??? ientry=1073741876 iform=0 { СТЕПЕНЬ:АТРИБ }
#2  СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:ИМ РОД:СР }
#3  СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:РОД РОД:СР }
#4  СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:ТВОР РОД:СР }
#5  СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:ВИН РОД:СР }
#6  СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:ДАТ РОД:СР }
#7  СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:ПРЕДЛ РОД:СР }
#8  СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:ИМ РОД:СР }
#9  СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:РОД РОД:СР }
#10 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:ТВОР РОД:СР }
#11 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:ВИН РОД:СР }
#12 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:ДАТ РОД:СР }
#13 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:ПРЕДЛ РОД:СР }

Неправильный выбор делается именно вероятностной моделью part-of-speech tagger'а.

shift-reduce parser, несловарная морфология, вероятностная русская морфология, синтаксический разбор, парсер, синтаксический анализатор, вероятностная модель, частеречная разметка

Previous post Next post
Up