В предыдущем релизе парсера я использовал очень грубую разметку слов для парсера. В некоторых случаях было даже удивительно, что парсер умудрялся правильно выстраивать синтаксическое дерево. Например, для глаголов был единственный тег "ГЛАГОЛ", без дополнительной информации о времени, наклонении, числе и так далее. Косвенно это можно считать подтверждением того, что синтаксис ЕЯ - очень самосогласованная и упорядоченная штука с многими слоями признаков, которые уточняют и улучшают разбор по мере добавления в модель. И при овладении языком ребенком, кстати говоря, тоже, что позволяет учить язык постепенно.
В некоторых случаях, такая крупнозернистость давала искажение разметки ребер. Например, парсер не видел разницу между частицей "НЕ" и частицей "И", так как для него в тексте была просто ЧАСТИЦА.
С другой стороны, это придавало модели сильное обощение и устойчивость к переобучению.
Второй релиз имеет на борту полностью пересчитанную модель синтаксиса с улучшенной детализацией. Размер файлов модели увеличился более чем на порядок (с ~2 до 37 Мб), скорость разбора упала примерно на 25%.
Ссылка на скачивание нового архива с парсером под Win32
лежит тут.