Когда фичи неожиданно провзаимодействовали с leaks на Quora Question Pair

May 24, 2017 07:44

Соревнование по определению похожих вопросов (перефразировок) Quora Question Pair на Kaggle через 2 недели закончится. У меня в запасе осталась одна неиспытанная NLP фича. Но под нее надо писать прожку на C# из-за большого количества циклов, не сводимых к numpy-функционалу. Поэтому могу и не успеть.

А тут неожиданно очередной опубликованный leak провзаимодействовал с остальными моими фичами и в итоге модель на xbgoost с кучей фич от посимвольной похожести в разных видах до забавных NLP фич part-of-speech tagger+salient words или n-gram language model резко улучшилась. Текущий logloss на паблике упал до 0.16:



Забавно и немного поучительно.
Сейчас запустил новый расчет для гибридной сеточной модели (char-level + word-level + доп.фичи). Раньше эта сетка давала точность лучше, чем xgboost, посмотрим на результаты.

соревнования, xgboost, перефразировки, kaggle, machine learning

Previous post Next post
Up