Соревнование:
http://www.dialog-21.ru/evaluation/2017/morphorueval/ Как в старые добрые времена, которые я не успел застать: машинное время на моем сервере на ближайшие пару недель расписано полностью. Все четыре ядра и 32 Гб памяти будут гонять питоновские скрипты.
На данный момент в проработке и тестах:
1. Сеточная char-level LSTM модель для лемматизации с трансдьюсерами.
2. Сеточная char-level LSTM модель для частеречной разметки. Замечательная и красивая штука, но ансамбль круче.
3. Ансамбль из char-level LSTM + DecisionTree + MaxEnt + NLTK ClassifierBasedPOSTagger для частеречной разметки.
Если успею, то в ансамбль войдет сеточная word-level LSTM модель.
Неудачные эксперименты - использование CRF, RandomForest и GradientBoostingClassifier (последние два из sklearn).
Все модели, в том числе неудачные, будут выложены на github и подробно описаны в запланированных постах. Использую только python, keras, sklearn и NLTK, никаких сторонних непереносимых библиотек.