Shift-reduce parsing (DeSR) на 30 тысячах предложений

Nov 09, 2013 13:48

Количество и суть изменений, внесенных в синтаксический парсер за последнюю летнюю итерацию, в совокупности оказались такими, что потребовалось обновлять весь тестовый корпус разобранных предложений. К примеру, перемещение модальных и вспомогательных глаголов в подчинение инфинитиву полностью меняет синтаксические деревья, уменьшая их высоту и делая более широкими. Я рассчитываю закончить обновление корпуса к декабрю, и после этого появится возможность сравнения и обновления всех вероятностных моделей POS Tagger'а и Dependency Parser'а. Итоговый размер корпуса составит около 200 тысяч предложений.

А пока что можно сделать прикидочные расчеты на актуализированной части корпуса.

Итак, на 30 тысячах русских предложений shift-reduce парсер (http://desr.sourceforge.net/) достигает точности примерно в 93% (точность простановки и типизации ребер). При этом 10% от использованного корпуса использовано для тестирования, то есть проверочные предложения не были знакомы парсеру из этапа обучения.

bottom-up parsing, статистический парсер, русский язык, dependency parser, синтаксический анализатор, вероятностная модель

Previous post Next post
Up