Что там произошло с AI? Ничего особенного, узбагойтесь. Просто там продолжает работать экспонента.

Dec 21, 2024 10:30

Конечно, весь интернет жужжит от объявления о будущем выпуске AI-агента с моделью o3 (его ещё не выпустили! только пообещали!), где две основные фичи:
-- по решению задач достигнут уровень PhD
-- пройден тест ARC.

Я бы не слишком обольщался прохождением уровня PhD, потому как у PhD есть собранность -- и возможность инициативно решать длинные цепочки задач (причём, замечу, если это аспирант, то его собранность в этом частично обеспечивается научным руководителем, но если уже PhD -- это уже готовность с самостоятельным исследованиям). То, что мы знаем про сегодняшних AI-агентов (это давно уже не просто LLM), так это их прохождение пути "олимпиадных программистов", которые работать не могут (ибо надо понимать, как участвовать в коллективной разработке), но могут решать отдельные сложные хорошо поставленные задачи -- "побеждать в олимпиаде". Олимпиадников (нынешних AI-агентов) и победителей "Что, где, когда" мы не боимся. Да, o3 на 175 месте в Codeforces, то есть примерно 175й сильнейший олимпиадный программист во всем мире (https://t.me/gonzo_ML/3108). Но явно не 175й сильнейший программист в "кровавом энтерпрайзе", коллективной разработке корпоративного софта. Но и недооценивать это нельзя. Это как вместо счёт с костяшками сначала получить даже не механический "Феликс", а электронный калькулятор, а затем и универсальный компьютер с возможностью программировать на фортране. Хороший инструмент корпоративного программиста. Software 1.0 -- это использование формального языка высокого уровня и непосредственное исполнение программы, Software 2.0 -- это обучаемые программы, "дифференцируемое всё" и обучение через примеры, Software 3.0 -- программирование на естественном языке, шаг формализации делает компилятор, в котором где-то в недрах есть обращение к LLM. Ну, программисты перейдут к ещё одному инструменту -- и будут так же биться с этим инструментом, которому они дают задания как когда-то давали компьютеру свою программу -- а на выходе будет получаться не совсем то, что они имели в виду. Ничего функционально не меняется. Но, конечно, прихват возможностей всех этих копилотов в части "пообщаться с соседями, почитать код в репозитории, поглядеть документацию" идёт быстро. Так что берём -- и используем, недаром AI-агентов сегодня называют чаще или Copilot в pAIr programming/writing/modeling, или AI-assistant (поручил ему отдельную "олимпиадную" задачу -- и принял решение, вот примерно как поручил калькулятору посчитать, а Гуглу найти, только задачи посложнее).

У нас в клубе создателей вчера был семинар (видео: https://www.youtube.com/watch?v=SOw0X8cl3fg), на котором Юрий Геронимус начал рассказывать о своём проекте, где он на базе материалов наших курсов вовсю использует ChatGPT с o и o1 (https://t.me/systemsthinking_course/29222) -- и проект двигается довольно бодро. Всю человечью часть работы делает он сам (прежде всего как организатор и операционный менеджер), прототипирование он сдвигает на ChatGPT -- а потом уже прототип отдаёт остальным ролям (из которых особо выделяются visionary и architect). Вот такое разделение труда, в котором люди работают, а ChatGPT "отвечает на отдельные вопросы" (а не "участвует в разработке").

Важно, что этот "сдвиг работ на AI-агента" происходит ровно так же как "сдвиг работ на других сотрудников" (почему-то не люблю слово "делегирование" -- в нём кто-то имеет власть и делегирует с барского плеча кому-то свои задачи, "сажает своих обезьянок на чужое плечо" (В 1974 году в журнале Гарвард Бизнес Ревю была опубликована статья «Менеджер и его время: у кого на плечах обезьянка?», которая стала классикой темы взаимоотношений начальника и подчинённых). Если у нас сотрудничество и распределённое лидерство, то начальники, конечно, есть. Но работы делятся (в рамках разделения труда) и сдвигаются с одних людей на другие. Вот AI-агенты как раз и участвуют в этом разделении труда. Вы общаетесь так же, как с людьми: указываете свою роль, их роль, не забываете уточнить ваш метод работы и желаемый их метод работы, уточняете формат рабочих продуктов, оцениваете ресурсы. Всё то же самое, никаких дополнительных курсов "по промптингу" не надо, курсов ШСМ вполне достаточно -- это лишний раз подтвердили на семинаре. Но, конечно, надо развивать свой интеллект (вот фрагмент рассказа из моего двухдневного семинара про разницу интеллектов аборигена из джунглей и топ-менеджера в компании-единороге, мозг-то у них одинаковый, а интеллект -- нет: https://www.youtube.com/watch?v=lGnGAlQa0uQ).

Сумма труда на Земле при этом не постоянна (экономисты не понимают, почему этого никто не понимает!), поэтому никто ничей труд не забирает: возможного труда становится всё больше и больше (скажем, труда программистов лет сто назад вообще не было)! Так что пара лет до момента, когда новое поколение более умных AI-систем сможет участвовать в разделении труда софтверной разработки -- есть. А дальше? Ну, телеграфистов нет, а видеосвязь (ещё и групповые звоники) повсеместна -- и никто не жалуется, что "компьютеры и оптоволокно отобрали у телеграфистов работу, и они голодают". Не волнуйтесь, голодать не будете. Это не только к программистам относится, конечно.

Для меня самым сильным во вчерашнем объявлении про o3 был текст François Chollet -- "OpenAI o3 Breakthrough High Score on ARC-AGI-Pub", https://arcprize.org/blog/oai-o3-pub-breakthrough. Как говорится, "мопед мой", ибо этот тест поминается и в моих курсах. Суть этого теста в том, что люди (совсем не PhD) в этом тесте решают 83.8% задач по оценкам самого Chollet, а по уточнённым оценкам -- меньше, 73.3% and 77.2% correct (https://arxiv.org/html/2409.01374). AI-агенты решали -- примерно половину по состоянию на 2024 год (https://arcprize.org/2024-results). И тут o3 решила задач больше, чем человек (хотя дороже -- примерно по $20 за задачу в режиме low compute, а люди решали по $5 за задачу, но это ж пару лет или меньше, и стоимости будут уравнены. Сверхчеловеческий результат там был получен при цене x172 от режима low comput -- но это полтора миллиона долларов). Более того, large ensemble of low-compute Kaggle solutions can now score 81% on the private eval (то есть решает задачи, которые никто не видел -- поэтому нельзя подстроиться). Так что "король умер, да здравствует король" -- тест ARC в его текущей версии умер. С 2022 года велись исследования по альтернативным тестам, которые людям давались бы легко, а существующим на сегодня эээ... программно-аппаратным комплексам -- трудно. Поэтому в 2025 году выдадут следующую такую задачу. И вот когда таких задач по факту не останется -- тогда и будем говорить, что "компьютеры стали сверхчеловеками". Этот момент называют "получение AGI" -- artificial general intelligence, но я считаю, что уже и сейчас не все люди могут делать то, что делает обычный калькулятор, само указание, что "вот этот AI-агент уже AGI" ничего не поменяет, всё интересное происходит уже прямо сейчас.

Но и с AGI (как мозгом-в-шкафу-без-ног, и, тем более, рук -- его так обычно представляют) тут прогресс не остановится, ибо есть и неформально сформулированный капуцин-тест Шмитхубера на телесный интеллект (4E cognition: embodied, embedded, enactive, extended): робот видит на пальме банан, строит к нему маршрут, взбирается на дерево и забирает банан со скоростью, сравнимой с обезьянней. Этот тест легко делает обезьяна-капуцин, а робот пока такого не может. В 2015 году Шмитхубер давал 10 лет на то, чтобы решить эту задачу -- по идее это должно случиться в 2025 году, но что-то я сомневаюсь. Зато после решения этой задачи наверняка всё и в робототехнике будет быстро (тут надо будет решить ещё и задачу по хардверу, энергетике, механике -- но там ведь тоже экспоненты, и там тоже CAD Copilots уже давно работают).

Tony Seba со своей теорией технологического развития (везде экспоненты! и эти экспоненты ещё и участвуют в конвергенции технологий, все эти конвергирующие технологии друг ко другу приходят сбоку) оказывается прав. И в мире растёт непредсказуемость, ходы хорошего игрока в шахматы непредсказуемы для начинашки, ходы AI непредсказуемы для опытного шахматиста, и это будет во всех предметных областях (вот тут пишут, как об этом говорил Суцкевер -- https://www.reuters.com/technology/artificial-intelligence/ai-with-reasoning-power-will-be-less-predictable-ilya-sutskever-says-2024-12-14/).

Вот как это "неожиданно" выглядит для теста ARC. Вот, дождались, пока экспонента развития прошла и через этот тест:




UPDATE: обсуждения в https://www.facebook.com/ailevenchuk/posts/pfbid0rvRTSNasYkLmRq5FnatGRkr9YryC3GPC1UCdAXafRDhnbUxFNGNNYRV3HQWYbc9Cl, https://t.me/systemsthinking_course/29210, https://t.me/ailev_blog_discussion/27963
Previous post Next post
Up