Прогнал через парсер текст "Случай с Оливером". Далее - результаты и пояснения.
Само по себе наличие "несловарных слов" не является нетипичным для текста. Но статистические особенности этой несловарности важны. Встретить в тексте новый глагол - редкое событие, если мы не читаем какую-нибудь узкоспециализированную техническую статью. А вот несловарные существительные встречаются постоянно и сбивать парсер не должны.
Вышеупомянутый текст ставит парсер в положение маленького человечка, осваивающего язык, для которого любой текст - шарада из неизвестных глаголов, прилагательных и наречий, причем неизвестно, что это именно именно глаголы, прилагательные и наречия. Как с такой задачей будет справляться вероятностная модель русской морфологии, не понимающая смысла, но знающая обычный контекст употребления грамматических форм?
Вот сам текст:
Заглонитель Ланс Оливер чуть не погиб в результате наплочения турма.
Он ехал ласкунно на лошади покровнательно от Мэнсфилда (Австралия) и увидел вахню турмов, в которой было кастожно 15 животных.
Столенно, ничего бы и не случилось, если бы собака Оливера не начала порочить на вахню.
Один из турмов - старый, крупный лователь, выбатушенный корочением собаки, бросился за ней.
Та отпешила скумановаться за лошадью, на которой сидел Оливер.
Тогда турм бросился уже на Оливера.
Он схватил подвешенца отмалснными твинами за плечи и вытокнул его на землю.
Оливер вскочил на ноги и схватил турма, пытаясь подочевать ему обкаплюжиться на хвост и таким образом принять доланское положение.
Турм подстоголками укивовых лап в ропли раскелепил на заглонителе лахту и толстый тарат.
Наконец, Оливеру удалось зайти сзади турма и поклочить его.
Однако он и сам не выландал на ногах и вместе с турмом покорновался по размежному плою горы кастожно 35 метров и упал в сорот.
Шатировка продолжалась и в сороте, пока Оливер не слеменился схватить камень и обвинить несколько сильных ударов по голове турма.
Турм был помотрен.
Рустуя кулировку с Оливером, мельбурнский падакователь Кэвенег заявил, что турмы, особенно старые лователи, наплочивают на человека, когда они, как говорится, доспонарены к стене и им некуда сополиться.
Я не помню, сказал Кэвенег, чтобы такие наплочения скамничались торцией человека, но имеется много случаев, когда турм обвичивает человеку серподины.
После парсинга я просмотрел результаты и пометил красным те несловарные лексемы, для которых парсер выбрал неверную часть речи. Заленым помечены верно опознанные формы:
Заглонитель Ланс Оливер чуть не погиб в результате наплочения турма.
Он ехал ласкунно на лошади покровнательно от Мэнсфилда (Австралия) и увидел вахню турмов, в которой было кастожно 15 животных.
Столенно, ничего бы и не случилось, если бы собака Оливера не начала порочить на вахню.
Один из турмов - старый, крупный лователь, выбатушенный корочением собаки, бросился за ней.
Та отпешила скумановаться за лошадью, на которой сидел Оливер.
Тогда турм бросился уже на Оливера.
Он схватил подвешенца отмалснными твинами за плечи и вытокнул его на землю.
Оливер вскочил на ноги и схватил турма, пытаясь подочевать ему обкаплюжиться на хвост и таким образом принять доланское положение.
Турм подстоголками укивовых лап в ропли раскелепил на заглонителе лахту и толстый тарат.
Наконец, Оливеру удалось зайти сзади турма и поклочить его.
Однако он и сам не выландал на ногах и вместе с турмом покорновался по размежному плою горы кастожно 35 метров и упал в сорот.
Шатировка продолжалась и в сороте, пока Оливер не слеменился схватить камень и обвинить несколько сильных ударов по голове турма.
Турм был помотрен.
Рустуя кулировку с Оливером, мельбурнский падакователь Кэвенег заявил, что турмы, особенно старые лователи, наплочивают на человека, когда они, как говорится, доспонарены к стене и им некуда сополиться.
Я не помню, сказал Кэвенег, чтобы такие наплочения скамничались торцией человека, но имеется много случаев, когда турм обвичивает человеку серподины.
Важное замечание: морфоанализатор на самом деле знает, что, к примеру, "ласкунно" может быть наречием. В этом легко убедиться с помощью утилиты Lexicon:
Solarix Lexicon // 13.42.11147 Win32 (build date Jun 2 2015) //
Loading dictionary from ..\bin-windows\dictionary.xml... OK 0 msec
Dictionary version=165
Type #exit to exit
: ласкунно
There are 13 projections:
#1 НАРЕЧИЕ:??? ientry=1073741876 iform=0 { СТЕПЕНЬ:АТРИБ }
#2 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:ИМ РОД:СР }
#3 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:РОД РОД:СР }
#4 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:ТВОР РОД:СР }
#5 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:ВИН РОД:СР }
#6 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:ДАТ РОД:СР }
#7 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:ЕД ПАДЕЖ:ПРЕДЛ РОД:СР }
#8 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:ИМ РОД:СР }
#9 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:РОД РОД:СР }
#10 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:ТВОР РОД:СР }
#11 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:ВИН РОД:СР }
#12 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:ДАТ РОД:СР }
#13 СУЩЕСТВИТЕЛЬНОЕ:??? ientry=1073741862 iform=0 { ОДУШ:НЕОДУШ ЧИСЛО:МН ПАДЕЖ:ПРЕДЛ РОД:СР }
Неправильный выбор делается именно вероятностной моделью part-of-speech tagger'а.