Исходник part-of-speech tagger на базе XGBoost: kelijah

kelijah

Исходник part-of-speech tagger на базе XGBoost

Mar 14, 2017 20:58

Довел до конца эксперимент по реализации модели частеречной разметки на основе классификатора XGBoost.
Исходник (питон 2.x) лежит тут.

Выводы из эксперимента.

1. На таком числе классов (почти 300) xgboost обучается чертовски медленно. Фактически на корпусе ГИКРИЯ обучение шло три дня, полностью загружая 4 ядра i7. Нейросетка на Keras в таких же условиях обучается за полчаса. Обе модели при этом останавливаются по early stopping, то есть строятся максимально хорошие модели.

2. Построенная модель размечает текст немного хуже, чем нейросетка.

xgboost, morphorueval 2017, python, machine learning