Прогресс в ИИ: мнение оптимистов: giovanni1313

giovanni1313

Прогресс в ИИ: мнение оптимистов

Dec 16, 2024 14:30

Аналитики из “Semianalysis” на днях опубликовали большой обзор, пытающийся развеять недавние сообщения в прессе о проблемах с прогрессом в ИИ. Если журналисты, осознанно или нет, стремятся создать пессимистичный нарратив и подогнать под него добытые факты, то “Semianalysis” топит за диаметрально противоположную точку зрения. Стакан не наполовину пуст - он наполовину полон!

Статьи «Блумберга» и ”The Information” аналитики клеймят как «нагнетание страхов» (”fear, uncertainty, doubt”). Что же предлагает “Semianalysis” в качестве опровержения? Открытая широкой публике часть обзора очень многословна и по сути представляет собой «конспект лекций» по современным методам обучения языковых моделей. Даже закрадывается впечатление, что писал его ЧатГПТ - но попадающиеся опечатки всё-таки указывают на человеческое авторство...

Если отжать из «конспекта» всю воду, то собственно новой информации останется немного:

1. “Semianalysis” подтверждает исчерпание качественных интернет-данных для обучения моделей. Однако проект оптимистично надеется на непубличный массив пользовательских сообщений в распоряжении «Меты» (а как же качество этих текстов?) и освоение гигантской видеобиблиотеки “Youtube”.

2. Еще одно препятствие на пути к дальнейшему масштабированию обучения - объемы необходимой для этого вычислительной инфраструктуры. Которые переросли возможности отдельно стоящих дата-центров. Требуется расширять процесс обучения на несколько дата-центров одновременно - что сопряжено с большими инженерными сложностями и ограничениями.

3. Масштабирование обучения на интернет-данных упёрлось в стену - но масштабирование продолжает развиваться на этапе пост-обучения (синтетические данные) и масштабирования в режиме инференса (модель тратит больше вычислений на отдельную задачу). Оба направления по-прежнему требуют экспоненциального роста вычислений и, соответственно, капитальных затрат.

4. ИИ-стартап “Anthropic”, вопреки сообщениям в прессе, не был разочарован характеристиками своей передовой, самой большой модели Claude 3.5 Opus. Она работает так же хорошо, как ожидали разработчики, исходя из принципов масштабирования. “Anthropic” не стал открывать к ней публичный доступ, потому что вместо этого он использовал ее для создания закрытых синтетических данных. На которых была обучена модель меньшего размера Claude 3.5 Sonnet.

И вот последний пункт вызывает массу вопросов к товарищам оптимистам из “Semianalysis”. Потому что тут вполне может быть ситуация, как в бородатом анекдоте: «...но не в лотерею, а в преферанс, и не выиграл, а проиграл».

Использовал ли “Anthropic” свою флагманскую модель для генерации синтетических обучающих данных? Да, эта часть информации похожа на правду. А вот остальное…

Во-первых, «подтвержденные ожидания». В числе ожиданий команды «Антропик» был не только прогресс в способностях моделей, предсказанный согласно правилам масштабирования. Но и публичный релиз этой модели. Руководство открыто говорило - имея в уме предсказанные заранее способности - что флагманская модель будет доступна для всех. Но потом почему-то «передумало».

И если руководство передумало - значит, что-то из ожиданий всё-таки не сбылось. “Semianalysis” утверждает, что нужно исключить вариант «не сбылось в худшую сторону». Значит, модель превзошла ожидания? Значит, она была настолько хороша, что, открыв публичный доступ к ней, «Антропик» рисковал быстро утратить своё конкурентное преимущество? Ведь тогда другие игроки могли тоже использовать ее для создания синтетических обучающих данных.

Гипотетически, угроза потери конкурентного преимущества - единственный удобный для оптимистов вариант. Потому что остальные отговорки, упомянутые “Semianalysis”, выглядят слабо. Типа утверждения, что флагманская модель «имела плохую экономику». Стоп, так это супер-продвинутая модель или нет? Если супер-продвинутая, если она далеко впереди конкурентов - то платежеспособный спрос на нее найдется. Но гораздо более вероятно, что модель была «так себе» и при этом дорого обходилась в работе. И тогда действительно смысла в ее релизе не было.

Проблема с нарративом оптимистов заключается еще и в том, что Claude 3.5 Opus попросту исчез из публичной повестки «Антропик». Модель вроде есть - а вроде ее и нет. И если модель действительно так хороша - то можно не давать к ней доступ, а просто заявить во всеуслышание: вот что мы можем! Мы - впереди всей ИИ-индустрии!

Ведь вокруг идёт технологическая гонка. Гонка с очень большими ставками. Ведь ИИ называют технологией века. Прятать что-либо, прятать свои достижения в такой ситуации - попросту глупо. И вдвойне глупо, когда твой денежный поток не покрывает и десятой части расходов, и ты целиком зависишь от настроений внешних спонсоров.

Лидерство в этой гонке означает гигантскую капитализацию твоего стартапа. ”OpenAI” сейчас оценивается в 157 миллиардов долларов. И эти оценки не просто тешат тщеславие фаундера и позволяют покупать дорогие спорткары. Капитализация - это то, сколько денег ты можешь привлечь на развитие технологии. А технология в данном случае требует гигантских сумм на своё развитие. Эта технологическая гонка - гонка капиталов.

Поэтому мы не видим среди ИИ-стартапов примеров скромности, «секретничанья» и замалчивания своих достижений. Напротив, все хотят хайпа. И хайп работает. Ситуация вокруг флагманской модели «Антропик» в этом свете говорит о том, что модель задвинули в дальний угол не от хорошей жизни. А скорее потому, что ее посредственные характеристики бросят тень на восприятие конкурентных позиций «Антропик» и породят разговоры, что стартап начал отставать от лидеров. Риск публичного разочарования выглядит гораздо более реальным, чем выдуманный риск «завладения синтетическими обучающими данными».

Подытоживая, то, что стакан наполовину пуст, не отменяет того, что он одновременно наполовину полон. Пока одна парадигма развития ИИ начинает тормозить, другие направления могут дать технологии второе дыхание. Если всё пойдёт гладко - то нам удастся поддерживать тот высочайший темп совершенствования ИИ, к которому мы успели привыкнуть за последние несколько лет.

_______________________________________________________________

Друзья, я начал вести канал в Телеграм: Экономика знаний. Подписывайтесь!

ИИ, онолитека, бизнес, технологии