Учет границ и сглаживание для N-граммной модели русского языка

Nov 07, 2012 18:12

Перечитал еще раз внимательно документ http://www.coli.uni-saarland.de/~thorsten/tnt/, и понял что зря я
не сделал учет границ. Близость к границе - сильная feature, некоторые части речи существенно меняют частоту
появления в начале или в конце предложения. Например императив склонен появляться первым. Поэтому добавил
в черновую модель вероятностной морфологии границы как feature. Качество немного выросло.

Заодно еще раз обдумал сглаживание в своей N-граммной модели и нашел парочку недоработок. После добавки качество еще немного выросло. Для вероятностного лемматизатора, кстати, тоже.

Попробую реализовать tot одну идею по улучшению качества rule inference модуля, и затем устрою общий забег всех моделек.

обучение, вероятностная модель, морфология

Previous post Next post
Up