PDF-ка
доступна тут.
Цифры там указаны немного устаревшие, так как сейчас датасеты для претрейна и для файнтюна заметно распухли. Последний претрейн шел двое суток на 4х гпушках, а файнтюн на одной моей gtx3090 длится около 5 часов.
Также в документе мало внимания уделено управлению генерацией текста, в том числе опыту управления логитами и скрытыми состояними GPT (как это делается в
Plug and Play Language Model).