Новая методика и результаты оценки моделей на арифметических задачах: kelijah

kelijah

Новая методика и результаты оценки моделей на арифметических задачах

Jan 30, 2023 10:20

1) Датасет inkoziev/arithmetic переработан, теперь там много диалогов вокруг арифметики такого вида:

- Фонарик Федора работает от 2 батареек, а фонарик Лехи от 6. Сколько батареек нужно фонарикам Федора и Лехи в сумме?
- 2+6=8, столько батареек потребуется.
- Теперь прибавь к результату 469, что получилось?
- 8 плюс 469 равно 477
- Подели на 53, что получилось?
- 9

2) Методика оценки и сравнения разных моделей изменена. Теперь я делаю только 1 эпоху, модели файнтюнятся только на этом датасете (90%). Оценка точности разбита на 2 части.

Во-первых, оценивается доля ответов, содержащих полностью верное числовое решение. Это значит, что ответы

- Фонарик Федора работает от 2 батареек, а фонарик Лехи от 6. Сколько батареек нужно фонарикам Федора и Лехи в сумме?
- 8

и

- Фонарик Федора работает от 2 батареек, а фонарик Лехи от 6. Сколько батареек нужно фонарикам Федора и Лехи в сумме?
- 8 батареек

считаются совпадающими. Соответствующие числа приводятся в третьем столбце таблички.

Во-вторых, как и предлагал p2004r, считается среднее отклонение числовой части сгенерированного ответа от правильного. Эти цифры приводятся во втором столбце таблички.

Сама табличка:

Модель Среднее отклонение числового ответа Доля верных ответов
в сравнении с верным
sberbank-ai/rugpt3small_based_on_gpt2 5442% 9.2%
sberbank-ai/rugpt3medium_based_on_gpt2 124% 14.4%
sberbank-ai/rugpt3large_based_on_gpt2 68.4% 25.0%

В общем, классические модели генерализуются достаточно плохо.

В этом есть своя внутреняя ирония и проявление кое-каких аналогий с живими системами.

Большие нейросетевые модели, являющиеся сплетением мозгодробительных математических приёмов типа аналитического вычисления частных производных, не очень хорошо справляются с простой арифметикой. Напрашивающаяся аналогия: живой мозг, который по одной из гипотез занимается байесовским выводом, на верхнем уровне очень плохо умеет в теорвер, например склонен игнорировать априорные вероятности при оценке вероятности последствий.

генеративная модель, датасеты, генерация текста