Обновленные датасеты для тренировки чат-ботов

Dec 10, 2017 20:55

После нескольких итераций, в ходе которых исправлены некоторые ошибки и добавлены новые синтаксические конструкции, в репозиторий https://github.com/Koziev/NLP_Datasets/tree/master/QA выложены новые файлы с тройками "предпосылка-вопрос-ответ" с таким форматом:


T: Малышки успешно прошли актировку
Q: малышки успешно прошли что?
A: актировку

T: Малышки успешно прошли актировку
Q: малышки что успешно прошли?
A: актировку

T: Малышки успешно прошли актировку
Q: успешно прошли малышки что?
A: актировку

T: Брат пристально посмотрел на доктора
Q: на кого посмотрел брат?
A: на доктора

T: Брат пристально посмотрел на доктора
Q: на кого брат посмотрел?
A: на доктора

T: Брат пристально посмотрел на доктора
Q: посмотрел на кого брат?
A: на доктора

Датасеты генерируются автоматически из корпуса предложений, который тоже выложен в репозитории https://github.com/Koziev/NLP_Datasets/tree/master/Samples. Объем датасетов достаточно велик, примерно по 50 тысяч троек, чтобы тренировка deep learning моделей была достаточно эффективна.

dataset, nlp

Previous post Next post
Up