1) Датасет
inkoziev/arithmetic переработан, теперь там много диалогов вокруг арифметики такого вида:
- Фонарик Федора работает от 2 батареек, а фонарик Лехи от 6. Сколько батареек нужно фонарикам Федора и Лехи в сумме?
- 2+6=8, столько батареек потребуется.
- Теперь прибавь к результату 469, что получилось?
- 8 плюс 469 равно 477
- Подели на 53, что получилось?
- 9
2) Методика оценки и сравнения разных моделей изменена. Теперь я делаю только 1 эпоху, модели файнтюнятся только на этом датасете (90%). Оценка точности разбита на 2 части.
Во-первых, оценивается доля ответов, содержащих полностью верное числовое решение. Это значит, что ответы
- Фонарик Федора работает от 2 батареек, а фонарик Лехи от 6. Сколько батареек нужно фонарикам Федора и Лехи в сумме?
- 8
и
- Фонарик Федора работает от 2 батареек, а фонарик Лехи от 6. Сколько батареек нужно фонарикам Федора и Лехи в сумме?
- 8 батареек
считаются совпадающими. Соответствующие числа приводятся в третьем столбце таблички.
Во-вторых, как и предлагал
p2004r, считается среднее отклонение числовой части сгенерированного ответа от правильного. Эти цифры приводятся во втором столбце таблички.
Сама табличка:
Модель Среднее отклонение числового ответа Доля верных ответов
в сравнении с верным
sberbank-ai/rugpt3small_based_on_gpt2 5442% 9.2%
sberbank-ai/rugpt3medium_based_on_gpt2 124% 14.4%
sberbank-ai/rugpt3large_based_on_gpt2 68.4% 25.0%
В общем, классические модели генерализуются достаточно плохо.
В этом есть своя внутреняя ирония и проявление кое-каких аналогий с живими системами.
Большие нейросетевые модели, являющиеся сплетением мозгодробительных математических приёмов типа аналитического вычисления частных производных, не очень хорошо справляются с простой арифметикой. Напрашивающаяся аналогия: живой мозг, который по одной из гипотез занимается байесовским выводом, на верхнем уровне очень плохо умеет в теорвер, например склонен игнорировать априорные вероятности при оценке вероятности последствий.