Transformer и 30 тысяч сэмплов контекст-вопрос-ответ для русскоязычного чатбота

Jan 07, 2019 19:41

Пытаюсь оценить перспективность использования keras-варианта Трансформера для задачи генерации реплики русскоязычного чатбота на основе контекста и вопроса.
Проверил разные варианты представления текста, в том числе отдельные слова и рекомендуемый авторами SentencePiece.
Параметры Трансформера варьировал в поисках оптимума, учитывая небольшой объем датасета - примерно 30 тысяч сэмплов.
Результат пока - негативный, качество генерации ответов сильно ниже самых плохих seq2seq моделей.

transformer, нейросети, nlp, question answering, чатбот

Previous post Next post
Up