Nov 10, 2013 11:09
POS Tagging алгоритм, использующий Conditional Random Fields с контекстом +/-3 слова и одной переходной вероятностью, с обучением на корпусе в ~65 тысяч предложений, даёт на неизвестных 10% предложениях ошибку в ~3%.
Судя по тенденции (ошибка в 4.5% при обучении/тестировании на 30 тысячах), дальнейшее увеличение тренировочного корпуса скорее всего позволит подойти к "физическому" пределу в ~2% ошибок для POS tagging.
И это хорошо и разумно.
conditional random fields,
вероятностная русская морфология,
вероятностная модель,
pos tagger