Данные представляют собой пары предложений:
Я не проверял . ты не проверял .
Я ищу работу ! ты ищешь работу !
Что я умею ? Что ты умеешь ?
Чем я занимаюсь ? Чем ты занимаешься ?
Ранее я писала ... Ранее ты писала ...
Все предложения имеют похожую синтаксическую структуру - подлежащие в виде местоимения "я", глагол-сказуемое согласован.
Каждая запись содержит 2 предложения, разделенных символом табуляции. Второе предложение получено из первого сменой лица подлежащего и пересогласованием глагола.
Планирую использовать эти данные для обучения сеточной модели, которая будет поддерживать режим "вовлеченности" для чат-бота, в частности - запоминать факты о собеседнике, которые он сам сообщает.
Данные будут выкладываться здесь:
https://github.com/Koziev/NLP_Datasets/tree/master/ChangePerson