https://arxiv.org/abs/2404.04125 We consistently find that, far from exhibiting "zero-shot" generalization, multimodal models require exponentially more data to achieve linear improvements in downstream "zero-shot" performance, following a sample inefficient log-linear scaling trend.
(
Read more... )
Comments 2
Не только про данные, ещё и про железки.
Но вообще s-образные кривые (типа-экспонента в начале, типа-логарифм в конце) весьма распостранёны, если смотреть на всякое развивающееся. Вот что в it не очень-то видно чего-то типа популяционных волн (за редчайшим исключением типа "пузыря доткомов") - это кмк более интересно. Возможно мы сейчас как раз в районе гребня первой такой.
Reply
Reply
Leave a comment