Прочитал статью
reStructured Pre-training, но не уловил концептуальных отличий от
T5.
В обоих случаях модель учат на множестве задач, формулируемых на естественном языке, получая профит от переноса знаний между задачами.
То, что RSP специально затачивают под решение задач через zero-shot, тянет максимум на улучшение "API" модели.
Или я чего-то упустил...
🤔