Пересчет вероятностной модели русского синтаксиса: kelijah

kelijah

Пересчет вероятностной модели русского синтаксиса

Jan 08, 2015 11:36

В предыдущем релизе парсера я использовал очень грубую разметку слов для парсера. В некоторых случаях было даже удивительно, что парсер умудрялся правильно выстраивать синтаксическое дерево. Например, для глаголов был единственный тег "ГЛАГОЛ", без дополнительной информации о времени, наклонении, числе и так далее. Косвенно это можно считать подтверждением того, что синтаксис ЕЯ - очень самосогласованная и упорядоченная штука с многими слоями признаков, которые уточняют и улучшают разбор по мере добавления в модель. И при овладении языком ребенком, кстати говоря, тоже, что позволяет учить язык постепенно.

В некоторых случаях, такая крупнозернистость давала искажение разметки ребер. Например, парсер не видел разницу между частицей "НЕ" и частицей "И", так как для него в тексте была просто ЧАСТИЦА.

С другой стороны, это придавало модели сильное обощение и устойчивость к переобучению.

Второй релиз имеет на борту полностью пересчитанную модель синтаксиса с улучшенной детализацией. Размер файлов модели увеличился более чем на порядок (с ~2 до 37 Мб), скорость разбора упала примерно на 25%.

Ссылка на скачивание нового архива с парсером под Win32 лежит тут.

статистический парсер, парсер, русский язык, дистрибутив, shift-reduce parser