[Начало
http://kelijah.livejournal.com/212124.html]
Используемый софт & хард
Я использую deep learning framework Keras (
https://keras.io) с Theano backend под Ubuntu 16, плюс старенькая NVidia GTX 980.
Под Windows, кстати, Keras тоже можно использовать, если работать с пакетом Anaconda (
https://www.continuum.io/downloads).
Но все модели крайне жадные до вычислительных ресурсов. На CPU они работают очень неторопливо, примерно в 10-15 раз медленнее, чем на GPU.
Для обработки текста используется NLTK (
http://www.nltk.org/). Некоторые участники соревнования также использовали замечательный набор инструментов NLP Spacy (
https://spacy.io/).
Для получения tf-idf представления текста и LSI я применял как средства scikit-learning (
http://scikit-learn.org/), так и Gensim (
https://radimrehurek.com/gensim/), но для описываемых далее моделей эти подходы не используются.