Перечитал еще раз внимательно документ
http://www.coli.uni-saarland.de/~thorsten/tnt/, и понял что зря я
не сделал учет границ. Близость к границе - сильная feature, некоторые части речи существенно меняют частоту
появления в начале или в конце предложения. Например императив склонен появляться первым. Поэтому добавил
в черновую модель вероятностной морфологии границы как feature. Качество немного выросло.
Заодно еще раз обдумал сглаживание в своей N-граммной модели и нашел парочку недоработок. После добавки качество еще немного выросло. Для вероятностного лемматизатора, кстати, тоже.
Попробую реализовать tot одну идею по улучшению качества rule inference модуля, и затем устрою общий забег всех моделек.