Ингридиенты:
1)
CRFSuite, реализующий старый и добрый linear chain CRF
2) размеченный корпус для русского языка (например из
Universal Dependencies)
3) набор векторов word2vec (я использую, как всегда,
gensim, обучаемый на корпусе в ~150 Гб текстов разного характера, вплоть до блогов)
4) обученную модель
wordchar2vecДалее формируем обучающий
(
Read more... )