Эксперименты с Chain of Thought Prompting: kelijah

kelijah

Эксперименты с Chain of Thought Prompting

May 20, 2022 09:43

Заметка Language Models Perform Reasoning via Chain of Thought описывает few-shot подход к генерации ответов с побочным продуктом в виде раскрытой "цепочки рассуждений" (ага, примерно так и учат в школе - не просто написать ответ, а расписать ход решения):

Я проделал некоторое количество экспериментов с ruGPT-XL (1.3 млрд параметров) в этом же направлении, с прицелом на реализацию такого подхода в чатботе. Но результаты меня не очень радовали. Один из примеров:

Q: У Васи было четыре бургера. Один он съел, два отдал друзьям. Сколько бургеров у него осталось?

A: 4-1-2=1. Ответ 1 бургер.

Q: У Наташи было 5 ирисок. Две она съела, одну потеряла. Сколько ирисок у нее осталось?

A: 2-3+5=9. Ответ 9 конфет (ирисок).

Желтым маркером я выделил то, что генерирует модель.

То есть гэпэтэха вроде бы пытается воспроизвести заданный в первой паре Q+A ход рассуждений, но результат выдает по принципу "что-то с числами, авось прокатит". И это даже было бы неплохо, если бы не другие, менее привлекательные примеры:

Q: Сколько длится осень?

A: Осень длится 3 месяца: сентябрь, октябрь и ноябрь. Ответ: 3 месяца.

Q: Сколько длится весна?

A: Весна начинается в середине марта с момента первого пробуждения земли от сна зимой. На данный момент у нас зима. Весна будет длиться ровно месяц - один день (в марте) или две недели(с апреля по май).

😵

rugpt, генеративная модель, генерация текста