Обновление синтаксического парсера

Oct 14, 2016 10:57


Большое обновление всех компонентов русского синтаксического парсера (http://solarix.ru/parser.shtml):
  • 1. Лексикон увеличен примерно до 283520 статей, в которых собраны морфологические описания 3900344 словарных форм. Число уникальных слов достигло 2415380. На большой корпусе текстов (масс-медия, книги, блоги и т.д.) этот лексикон покрывает почти 98% всех токенов.
  • 2. Корпус эталонных разборов, на которых учатся модуль частеречной разметки (part-of-speech tagger) и синтаксический парсер, расширен за счет включения нескольких тысяч примеров предложений с цепочками прилагательных и другими конструкциями. За счет этого улучшился синтаксический разбор некоторых паттернов.
  • 3. Расширен блок несловарной морфологии, благодаря чему улучшена разбираемость текстов с большим количеством окказионализмов, научно-техническими терминами и т.д.
  • 4. Вероятностные модели частеречной разметки, синтаксического парсинга и лемматизации полностью пересчитаны с новым лексиконом и treebank'ом.
Ссылка на архив с бинарниками (русская словарная база в комплекте, вероятностные модели и исполнимые файлы): http://solarix.ru/for_developers/download/win/parser-ru-win64.7z

part-of-speech tagging, статистический парсер, парсер, лемматизатор, дистрибутив, частеречная разметка, pos tagger

Previous post Next post
Up