Довел до конца эксперимент по реализации модели частеречной разметки на основе классификатора XGBoost.
Исходник (питон 2.x)
лежит тут.
Выводы из эксперимента.
1. На таком числе классов (почти 300)
xgboost обучается чертовски медленно. Фактически на
корпусе ГИКРИЯ обучение шло три дня, полностью загружая 4 ядра i7.
Нейросетка на Keras в таких же условиях обучается за полчаса. Обе модели при этом останавливаются по early stopping, то есть строятся максимально хорошие модели.
2. Построенная модель размечает текст немного хуже, чем нейросетка.