Тюнинг UnigramTagger+AffixTagger+DefaultTagger до 97,5%

Nov 21, 2016 10:47

В продолжение http://kelijah.livejournal.com/199946.html.

Если организовать цепочку backoff-тэггеров AffixTagger по окончаниям от 1 до 4 символов, плюс добавить DefaultTagger, и повесить всё это на UnigramTagger, то качество вырастает почти на полпроцента:

UnigramTagger+AffixTagger(4,3,2,1)+DefaultTagger accuracy=0.97537562778

Дефолтный тэггер настроен на выдачу СУЩЕСТВИТЕЛЬНОЕ, поскольку морфология прилагательных очень регулярна и отлично ловится AffixTagger'ами.

Обновленный код на питоне лежит там же.

part-of-speech tagging, nltk, python, частеречная разметка, pos tagger

Previous post Next post
Up