Большое обновление всех компонентов русского синтаксического парсера (
http://solarix.ru/parser.shtml):
- 1. Лексикон увеличен примерно до 283520 статей, в которых собраны морфологические описания 3900344 словарных форм. Число уникальных слов достигло 2415380. На большой корпусе текстов (масс-медия, книги, блоги и т.д.) этот лексикон покрывает почти 98% всех токенов.
- 2. Корпус эталонных разборов, на которых учатся модуль частеречной разметки (part-of-speech tagger) и синтаксический парсер, расширен за счет включения нескольких тысяч примеров предложений с цепочками прилагательных и другими конструкциями. За счет этого улучшился синтаксический разбор некоторых паттернов.
- 3. Расширен блок несловарной морфологии, благодаря чему улучшена разбираемость текстов с большим количеством окказионализмов, научно-техническими терминами и т.д.
- 4. Вероятностные модели частеречной разметки, синтаксического парсинга и лемматизации полностью пересчитаны с новым лексиконом и treebank'ом.
Ссылка на архив с бинарниками (русская словарная база в комплекте, вероятностные модели и исполнимые файлы):
http://solarix.ru/for_developers/download/win/parser-ru-win64.7z