В продолжение поста
https://kelijah.livejournal.com/304485.html.
1) Я подготовил и выложил в репозиторий
https://huggingface.co/inkoziev/rugpt_chitchat более тяжелую модель с 760 млн. параметров.
2) Сделаны замеры точности решения арифметических задач при использовании разных базовых моделей. Методика такая: при генерации датасета часть арифметических сэмплов откладывается в тестовый набор. После файнтюна модели прогоняем эти сэмплы и смотрим, совпадает ли сгенерированный ответ с эталонным. При этом любое отклонение от эталонного результата считается провалом, даже если модель выдала "101" вместо "100". Далее делим кол-во успехов на общее число сэмплов и получаем "arith. score":
Model name in huggingface | Arith. score
--------------------------------------------|--------------
sberbank-ai/rugpt3large_based_on_gpt2 | 0.91
sberbank-ai/rugpt3medium_based_on_gpt2 | 0.70
sberbank-ai/rugpt3small_based_on_gpt2 | 0.58
tinkoff-ai/ruDialoGPT-small | 0.44
Замечу также, что неотфайнтюненные на моем датасете модели дают нулевую точность на этих арифметических тестах.