Результаты замера точности модели читчата на арифметических задачах: kelijah

kelijah

Результаты замера точности модели читчата на арифметических задачах

Sep 25, 2022 14:33

В продолжение поста https://kelijah.livejournal.com/304485.html.

1) Я подготовил и выложил в репозиторий https://huggingface.co/inkoziev/rugpt_chitchat более тяжелую модель с 760 млн. параметров.

2) Сделаны замеры точности решения арифметических задач при использовании разных базовых моделей. Методика такая: при генерации датасета часть арифметических сэмплов откладывается в тестовый набор. После файнтюна модели прогоняем эти сэмплы и смотрим, совпадает ли сгенерированный ответ с эталонным. При этом любое отклонение от эталонного результата считается провалом, даже если модель выдала "101" вместо "100". Далее делим кол-во успехов на общее число сэмплов и получаем "arith. score":

Model name in huggingface | Arith. score
--------------------------------------------|--------------
sberbank-ai/rugpt3large_based_on_gpt2 | 0.91
sberbank-ai/rugpt3medium_based_on_gpt2 | 0.70
sberbank-ai/rugpt3small_based_on_gpt2 | 0.58
tinkoff-ai/ruDialoGPT-small | 0.44

Замечу также, что неотфайнтюненные на моем датасете модели дают нулевую точность на этих арифметических тестах.

chitchat, генеративная модель, читчат, chatbot, чатбот