ppo | kelijah

kelijah

Эксперимент с RLHF для файнтюна поэтического перефразировщика

kelijah Jan 27, 2023 09:39

Как я и планировал, продолжаю толкать темку с reinforcement learning from human feedback в стихах и диалогах. После месяца экспериментов, в основном неудачных, наметились некоторые положительные подвижки, про которые я сейчас и хочу рассказать.

Итак, я делаю эксперименты в своеобразной песочнице - на задаче перефразировки. Для нее у меня есть и ( Read more... )

генеративная модель, ppo, перефразировки, reinforcement learning, генерация текста, rlhf

Leave a comment 4