Part-of-Speech Tagging - текущий пересчет модели на 65k предложений: kelijah

kelijah

Part-of-Speech Tagging - текущий пересчет модели на 65k предложений

Nov 10, 2013 11:09

POS Tagging алгоритм, использующий Conditional Random Fields с контекстом +/-3 слова и одной переходной вероятностью, с обучением на корпусе в ~65 тысяч предложений, даёт на неизвестных 10% предложениях ошибку в ~3%.

Судя по тенденции (ошибка в 4.5% при обучении/тестировании на 30 тысячах), дальнейшее увеличение тренировочного корпуса скорее всего позволит подойти к "физическому" пределу в ~2% ошибок для POS tagging.

И это хорошо и разумно.

conditional random fields, вероятностная русская морфология, вероятностная модель, pos tagger