Описание задачи:
https://github.com/Koziev/chatbot/blob/master/PyModels/trainers/README.wordchar2vector.mdНа питоне тренировка модели описана этим кодом:
https://github.com/Koziev/chatbot/blob/master/PyModels/trainers/wordchar2vector_trainer.py Итак, код идентичен, датасеты тоже. Немного отличаются версии Theano, CUDA и CudNN, возможно какие-то оптимизации дают дополнительное преимущество GTX 1080. Кроме того, хост с GTX 1080 имеет на борту i7-6700 @ 3.4 GHz, а GTX 980 работает с i7-4790K CPU @ 4.00GHz.
Одна эпоха обучения нейросетки длится на GTX 980 примерно 127 секунд, на GTX 1080 примерно 78 секунд. При этом из-за небольшого размера батча загрузка GPU по памяти далека от того, чтобы как-то сказалось преимущество 8 Гб на борту GTX 1080 в сравнении с 4 Гб у GTX 980, nvidia-smi показывает 315 Mib GPU Memory Usage.