Выложил небольшие датасеты для question answering на русском языке

Dec 02, 2017 17:29

Датасеты получены в результате автоматической обработки и содержат подмножество возможных вопросов.
Могут быть полезны для проверки идей в области question answering, для чего они собственно и сделаны.
Файл https://github.com/Koziev/NLP_Datasets/blob/master/QA/premise_question_answer4.txt содержит до полусотни тысяч вопросов к предложениям из трех слов.
Аналогичный датасет для четырехсловных предложений доступен по ссылке https://github.com/Koziev/NLP_Datasets/blob/master/QA/premise_question_answer5.txt.

Выглядит это так:


T: Мама удивилась вопросу

Q: Мама удивилась чему?
A: вопросу

Q: Мама чему удивилась?
A: вопросу

Q: чему удивилась Мама?
A: вопросу

Q: чему Мама удивилась?
A: вопросу

Q: удивилась Мама чему?
A: вопросу

Q: удивилась чему Мама?
A: вопросу

Q: кто удивился вопросу?
A: Мама

Q: кто вопросу удивился?
A: Мама

Q: вопросу кто удивился?
A: Мама

Q: вопросу удивился кто?
A: Мама

Q: удивился вопросу кто?
A: Мама

Q: удивился кто вопросу?
A: Мама

Метка T: определяет предпосылку, затем для одной предпосылки идет цепочка пар вопрос Q: и ответ A:

github, nlp

Previous post Next post
Up