Comments | kelijah: Новая методика и результаты оценки моделей на арифметических задачах

kelijah

Новая методика и результаты оценки моделей на арифметических задачах

Jan 30, 2023 10:20

1) Датасет inkoziev/arithmetic переработан, теперь там много диалогов вокруг арифметики такого вида:
( Методика и результаты... )

генеративная модель, датасеты, генерация текста

Comments 5

piter239 January 30 2023, 12:33:24 UTC

скорее всего вы в курсе, но - на всякий случай:
с теоретической точки зрения нейронная сеть является конечным автоматом, поэтому арифметические задачи _в полном объёме, для любых чисел_ она решать принципиально не в состоянии.

Всё, на что можно рассчитывать (как на чудо) - неясно каким образом внутри конечного автомата возникнет/будет создан эмулятор ALU для чисел конечной длины.

Но калькуляторы мы ведь умеем делать? Не будет ли эффективнее распознавать "вот тут нужно вычислить" и вызывать символьный калькулятор?

kelijah January 30 2023, 13:01:01 UTC

>Но калькуляторы мы ведь умеем делать? Не будет ли эффективнее распознавать "вот тут нужно вычислить" и вызывать символьный калькулятор?

Просто удивительно, что одна идея может придти в разные головы почти одновременно :)

Я как раз записал себе недавно: попробовать RL на этой задаче, чтобы моделька училась "нажимать кнопки" на калькуляторе или даже писать выражения на питоне. Ну типа как WebGPT (https://openai.com/blog/webgpt/).

Отсюда мостик к гибридной архитектуре, когда нейросетка пишет программу, а интерпретатор исполняет эту программу. Лучшее от обоих миров.

piter239 January 30 2023, 14:12:31 UTC

точно!

мощь "голой" LLM впечатляет, после RLHF - поражает, но гибридные архитектуры обещают возможности неотличимые от магии.

Потому что специализация, разделение функций и кооперация))

kelijah January 30 2023, 15:12:02 UTC

Такое же ощущение :)

Правда предыдущую идею генерировать языковой моделью правила if...then...else для рулового чатбота мне дотащить до реализации не удалось. Хотя вроде тоже в голове оно было все красиво, интерпретируемость там всякая, гибридность... Не осилилось.

piter239 January 30 2023, 15:13:20 UTC

да, не осилить такое "в одно лицо"....