Учебный NLP - это когда разбираем хорошо написанный текст:
"Ещё при жизни Пушкина сложилась его репутация величайшего национального русского поэта"
Красота синтаксического разбора, подкрепленная всей мощью технологий и достижениями computer science и machine learning:
И вот из уютного мира хороших текстов мы попадаем в реальный мир человеческих коммуникаций, где запятая - это черный пояс по русскому языку.
"ироничные действия черта повесть " ночь перед рождеством " помогите пожалуйста !"
От такого синтаксического разбора пользы уже никакой нет - он поломан на 98%. И так для всех социальных медиа - реплики в чатботах, посты вконтакте, смс-ки, объявления на Авито. Если вам кажется, что этот пример априори слишком сложен, то вот архитипичная реплика человека в любом чатботе (сорри за лексику, это жизнь):
"Блять дайте мне живовго человека ."
Это "случай с Оливером наоборот", если обратить внимание на глагол "Блять". Ок, морфоанализатор не знает такого слова (очень зря!). А если знает все слова - это гарантия успеха? Проверим.
"Имеются запасные делали и инструкция ."
Поломано на 98%.