Новый датасет для чат-бота - смена грамматического лица

Dec 13, 2017 09:31

Данные представляют собой пары предложений:


Я не проверял .    ты не проверял .
Я ищу работу !    ты ищешь работу !
Что я умею ?    Что ты умеешь ?
Чем я занимаюсь ?    Чем ты занимаешься ?
Ранее я писала ...    Ранее ты писала ...

Все предложения имеют похожую синтаксическую структуру - подлежащие в виде местоимения "я", глагол-сказуемое согласован.
Каждая запись содержит 2 предложения, разделенных символом табуляции. Второе предложение получено из первого сменой лица подлежащего и пересогласованием глагола.

Планирую использовать эти данные для обучения сеточной модели, которая будет поддерживать режим "вовлеченности" для чат-бота, в частности - запоминать факты о собеседнике, которые он сам сообщает.

Данные будут выкладываться здесь: https://github.com/Koziev/NLP_Datasets/tree/master/ChangePerson

dataset, nlp, чат-боты

Previous post Next post
Up