Сделал оценки нескольких методов для определения, является ли реплика допустимым продолжением диалога.
Датасет - Толока. Взято 100,000 реплик. (Был еще контест в 2018 от Я с похожей задачей, тамошний датасет, по-моему, грязноват в сравнении с Толокой.)
В качестве истории бралась одна предшествующая фраза другого собеседника.
Негативные сэмплы добавлялись в количестве 1 на 1 позитивный.
Оценки получены кроссвалидацией на 3х фолдах.
Baseline -
LinearSVC на символьных шинглах roc auc=0.55
LightGBM на символьных шинглах ruc auc=0.645
Нейросетка поверх
pretrained ruBERT из deeppavlov roc auc=0.709
PS: Если увеличить обучающий набор до 200,000 позитивных пар, roc auc BERT-классификатора вырастает до 0.723.