В
чатботе задача восстановления полной реплики по контексту (заполнение
эллипсисов, раскрытие
анафоры и т.д.) сейчас решается одной seq2seq моделью, которая обучается в режиме teacher forcing на ~75 тысячах сэмплов. Эта модель на валидации дает примерно качество ~0.95 (посимвольный jaccard).
Я решил посмотреть, что можно получить файнтюнингом ruGPT на этих же данных.
Модель sberbank-ai/rugpt3small_based_on_gpt2
batch_size = 12
epochs = 10
время обучения - около 15 минут на эпоху
jaccard score = 0.90
Кривая обучения:
Модель sberbank-ai/rugpt3large_based_on_gpt2
batch_size = 12
epochs = 10
время обучения - около часа на эпоху
jaccard score = 0.925
Кривая обучения: