После нескольких итераций, в ходе которых исправлены некоторые ошибки и добавлены новые синтаксические конструкции, в репозиторий
https://github.com/Koziev/NLP_Datasets/tree/master/QA выложены новые файлы с тройками "предпосылка-вопрос-ответ" с таким форматом:
T: Малышки успешно прошли актировку
Q: малышки успешно прошли что?
A: актировку
T: Малышки успешно прошли актировку
Q: малышки что успешно прошли?
A: актировку
T: Малышки успешно прошли актировку
Q: успешно прошли малышки что?
A: актировку
T: Брат пристально посмотрел на доктора
Q: на кого посмотрел брат?
A: на доктора
T: Брат пристально посмотрел на доктора
Q: на кого брат посмотрел?
A: на доктора
T: Брат пристально посмотрел на доктора
Q: посмотрел на кого брат?
A: на доктора
Датасеты генерируются автоматически из корпуса предложений, который тоже выложен в репозитории
https://github.com/Koziev/NLP_Datasets/tree/master/Samples. Объем датасетов достаточно велик, примерно по 50 тысяч троек, чтобы тренировка deep learning моделей была достаточно эффективна.