1) Попробую запустить пайплайн в
проекте генеративных стихов с
Reinforcement Learning from Human Feedback. Предварительные эксперименты с моделями reward'ов и PPO показывают, что там не все так просто с подбором гиперпараметров. Но у ChatGPT это получилось, и не вижу причин, почему бы не получить удовольствие от такого интересного исследования в генерации стихов :)
2) Есть амбициозная задумка завести в
чатбот тот же самый RLHF. Пока тут все еще очень смутно, но почему-то видится
генеративка BLOOM размером 1.7 млрд в качестве рабочей лошадки. Попробую сыграть на knowledge transfer между языками и максимально учесть результаты проекта
LAION Open Assistant. Когда появится время, буду экспериментировать.
3)
Меморандум Фристона подопнул глянуть снова на байесовские методы и альтернативные взгляды на AGI. С одной стороны, байесовский вывод по-прежнему кажется очень непрактичной штукой, не считая библиотек для байесовской оптимизации
hyperopt, разумеется. В самом деле, численно брать интегралы для расчета маржинального правдоподобия в 100млн-мерном пространстве параметров это ого как круто. С другой стороны, то, что обещает байесовский подход, кажется невероятно интригующим. Пока неспешно читаю все, что написал Фристон и вокруг этой темы. Параллельно хочется разобраться с имеющимися инструментами байесовского вывода типа
Pyro и попробовать поделать кое-что в стороне от мейнстимового ML.