Как я и
планировал, продолжаю толкать темку с
reinforcement learning from human feedback в
стихах и диалогах. После месяца экспериментов, в основном неудачных, наметились некоторые положительные подвижки, про которые я сейчас и хочу рассказать.
Итак, я делаю эксперименты в своеобразной песочнице - на задаче
перефразировки. Для нее у меня есть и
(
Read more... )