Датасеты получены в результате автоматической обработки и содержат подмножество возможных вопросов.
Могут быть полезны для проверки идей в области question answering, для чего они собственно и сделаны.
Файл
https://github.com/Koziev/NLP_Datasets/blob/master/QA/premise_question_answer4.txt содержит до полусотни тысяч вопросов к предложениям из трех слов.
Аналогичный датасет для четырехсловных предложений доступен по ссылке
https://github.com/Koziev/NLP_Datasets/blob/master/QA/premise_question_answer5.txt.
Выглядит это так:
T: Мама удивилась вопросу
Q: Мама удивилась чему?
A: вопросу
Q: Мама чему удивилась?
A: вопросу
Q: чему удивилась Мама?
A: вопросу
Q: чему Мама удивилась?
A: вопросу
Q: удивилась Мама чему?
A: вопросу
Q: удивилась чему Мама?
A: вопросу
Q: кто удивился вопросу?
A: Мама
Q: кто вопросу удивился?
A: Мама
Q: вопросу кто удивился?
A: Мама
Q: вопросу удивился кто?
A: Мама
Q: удивился вопросу кто?
A: Мама
Q: удивился кто вопросу?
A: Мама
Метка T: определяет предпосылку, затем для одной предпосылки идет цепочка пар вопрос Q: и ответ A: