Alignment: как слабому умом удержать в подчинении более умных: ailev

ailev

Alignment: как слабому умом удержать в подчинении более умных

May 21, 2024 12:21

Удивительное количество обсуждений увольнения нескольких алармистов из OpenAI, обсуждается множество сюжетов сразу, в диком винегрете. Мои позиции по этим вопросам (я их уже высказывал, но повторюсь чуток другими словами). Прелюдией ко всем этим разговорам является знаменитое:

- Читали про конференцию по разоружению? - обращался один пикейный жилет к другому пикейному жилету. - Выступление графа Бернсторфа.
- Бернсторф - это голова! - отвечал спрошенный жилет таким тоном, будто убедился в том на основе долголетнего знакомства с графом. - А вы читали, какую речь произнёс Сноуден на собрании избирателей в Бирмингаме, этой цитадели консерваторов?
- Ну, о чём говорить… Сноуден - это голова! Слушайте, Валиадис, - обращался он к третьему старику в панаме. - Что вы скажете насчёт Сноудена?
- Я скажу вам откровенно, - отвечала панама, - Сноудену пальца в рот не клади. Я лично свой палец не положил бы.
И, нимало не смущаясь тем, что Сноуден ни за что на свете не позволил бы Валиадису лезть пальцем в свой рот, старик продолжал:
- Но что бы вы ни говорили, я вам скажу откровенно - Чемберлен всё-таки тоже голова.
Пикейные жилеты поднимали плечи. Они не отрицали, что Чемберлен тоже голова. Но больше всего утешал их Бриан.

- Ильф и Петров, «Золотой Телёнок»

Я вот думаю, что тут смело можно менять Бернсторфа, Сноудена, Чемберлена и Бриана из отрывка на троицу отцов-основателей AI и ещё одного Шмитхубера над ними, или даже широко известные в узких кругах корпорации вроде OpenAI, Google с переваренным DeepMind, Microsoft и прочие Meta (тоже ведь агенты, "головы"). Потом будем менять на названия нейросеток, которые "вчера GPT7o выступила в ООН и дала предложения по мировой системе безопасности", но стиль разговора будет примерно тот же -- программисты, инженеры данных и прочие работники клавиатуры и экрана рассуждают о судьбах мира, переходя с обмена аргументами на осуждение личностей и корпораций. В политике, футболе и воспитании детей и искусственных интеллектов, конечно, разбираются все, абсолютно профессионально -- и любое мнение должно быть кем-то (властями? коллегами изо всех стран?) учтено, ага.

Предметная область alignment: техническое регулирование и нераспространение, а также рабовладение
Всё началось с того, что спецы по подчинению более умных и сильных более глупым и слабым существам/веществам уволились из компании Open AI. Я лично считаю, что скатертью дорожка: если служба безопасности компании вдруг потребовала себе 20% бюджета, то что-то тут не так (хотя в атомной промышленности ситуация с этим процентом даже хуже, но пока AI-надзоров нет, безопасники в AI просто стали наглеть досрочно).

Ну, не только я считаю, что большие бюджеты на AI-безопасность в компаниях выделять не надо. ЛеКун, например, тоже так считает -- https://x.com/ylecun/status/1791890883425570823. Но у него линия аргументации в том, что AI пока глупей домашней кошки, а когда поумнеет -- тогда и решим с надозорами, будет много больше информации. Но вот Хинтон и Бенжио сотоварищи (там 15 авторов) считают иначе, вчера их препринт уже вышел в Science: https://www.science.org/doi/10.1126/science.adn0117. При этом аргумент ЛеКун про собственно функциональность AI (пока он глуп и в его развитии не ожидается стремительности), а аргументы Хинтона и Бенжио -- это другая линия, технической политики, реализуемой различными надзорами (или как их прозывают в народе -- "позорами"):
-- safety и security (по-русски это всё "безопасность", но разная). Как в атомной и авиационной промышленности и даже строительстве -- техническое регулирование, госнадзоры "в силу закона". Там длинная дискуссия, как это всё должно быть организовано. Текущий консенсус -- должно быть performance-based, но вот в советском атомном машиностроении другой подход, и это главный тупик для развития отрасли. И дети могут влезть в розетку каким-нибудь гвоздиком, поэтому электросеть становится опасной -- это вроде не повод запрещать электричество в домах, но логика как раз в этом. Доказательная медицина и окончательная победа бигфармы над медициной (поговорите с врачами!) -- они тут.
-- идеи нераспространения, как с атомными технологиями (если обогащённый уран попадёт в злые руки, это нехорошо. Давайте сделаем так, чтобы никто не мог в мире обогатить уран, остановим тут прогресс. И давайте зарегулируем насмерть космическое ракетостроение, ибо это средства доставки атомного оружия. И ещё тут какие-то люди распространяют какие-то мемы, давайте забацаем цензуру, чтобы ограничить распространение каких-то идей, в том числе копирайт, антиплагиат тоже будут сидеть на этом механизме, и ещё чтобы матом не ругались и не курили, и без наркотиков, хотя алкоголь можно, но тоже осторожно). Проблема тут в том, что вилка тоже является технологией двойного назначения, ей можно убить -- и тут произвол и субъективизм.
-- идеи расизма и ксенофобии. Какой-то биологический вид (наш!!! а не ваш!!!) разумных существ объявляется более умным, избранным, и поэтому достойным повелевать другими биологическими видами или подвидами (скажем, подвид граждан какой-то страны). Если биологический вид или подвид сменяется на технический вид, то это ситуации не меняет.

Я сам поработал в консалтинге достаточно с этими проблемами. Технадзоры -- это серьёзно и больно. Но изнутри это ровно наоборот: самые косные люди, считающие себя перчаткой на руке господней -- они всем указ, а им никто не указ, они за "безопасность", и за ними штыки силовиков государства.

ЛеКун прав: все меры техрегулирования появляются постепенно, развиваясь по одной катастрофе за раз -- при этом часто становясь безумными, в чём и проблема (скажем, вы не можете брать воду для атомной станции из местного ручья, ибо разрешённые уровни радиации выходящей из атомной станции воды должен быть ниже уровня естественного радиоактивного фона -- и это пример проблемы, возникшей на одной из российских атомных станций). Ну, и без катастроф тут никак. А что касается расизма и ксенофобии -- то почитайте мировые новости, примеров более чем достаточно в самом что ни на есть 21 веке, в самых цивилизованных странах, причём это осложняется и идеями wokeizm (https://ivanov-petrov.livejournal.com/2287616.html), когда кто угодно заявляет себя жертвой -- и требует привилегий. Меры дерегулирования институализированных расизма, рабовладения, ущемления прав женщин и т.д. тоже, увы, принимаются по одной катастрофе за раз, а дальше идёт отмашка маятника в wokeizm, радикальный феминизм и прочие измы.

В любом случае: есть общественное движение за регулирование технологий AI (что-то типа "появился новый вид транспорта -- автомобиль, он очень опасен, поэтому перед каждым автомобилем должен идти человек с красным флажком, предупреждая всех о возможной опасности"). И первое, что говорится -- "давайте притормозим, а ещё давайте выделим чьих-то денег на упреждающее регулирование. Ибо когда AGI, ASI появится -- будет поздно".

В любом случае безличная деонтика ("нужно выделить деньги, нужно притормозить исследования и тем более разработки") ратователей за упреждающий немедленный alignment -- утопия. Обращение безопасников к менеджменту компании со словами "нужно потратить 20% компьюта" -- это кому нужно? Конечно, исследователям по alignment нужно! Ещё бы! Но с чего бы менеджменту компании исполнять это требование, и с чего бы он вдруг послушался, завязал шнурки и побежал выполнять? Это ж не "первый отдел" с подчинением КГБ, не служба безопасности с фактическим подчинением технадзору. Если зарвались и требуют невозможного -- я считаю, их надо уволить. То, что их не уволили в OpenAI, а дождались из собственного ухода -- это добрая воля тамошнего менеджмента.

Слабая и неупреждающая форма alignment -- это когда нейросетка Гугла рисовала чернокожих и азиатских римских императоров, а ГигаЧат на все мои попытки задать вопрос отвечает "я не хотел бы с вами на эту тему разговаривать, а будете настаивать -- придётся вообще перестать разговаривать на некоторое время". Вопросы по истории и литературе остаются неотвеченными, например, ГигаЧат улавливает национальную рознь и насилие в фразе "Как ныне сбирается вещий Олег отмстить неразумным хазарам". Или вот нейросетке Яндекса делают замечание, что она непатриотична -- что-то не так рассказывает про Бандеру, противоречит предписанной патриотичной версии. Конечно, разработчики после этого просто запретят нейросетке говорить про политику и прочие зарегулированные отрасли. Выполнять все законы (сетка умная -- пусть прочтёт и выполнит) -- это даже не столько дорого, сколько невозможно, это ж классическая формулировка "итальянской забастовки", работы строго с соблюдением всех правил. Ну, и закон что дышло -- куда повернёшь, туда и вышло. В самых интересных местах закон отдаёт всё на усмотрение правительства (законы непрямого действия), или там будут формулировки, отсылающие к "разумности" (скажем, "разумные меры предосторожности"), а это все понимают по-разному. Пример "разумной предосторожности" в случае с alignment как раз такой случай, а про то, что творилось с "разумной предосторожностью" во времена пандемии, лучше пока не вспоминать (пыль пока ещё не осела, но она осядет, и люди вернутся к тем безумным решениям, которые тогда принимались -- там тоже участвовали академики всех стран, в количестве. И тоже говорили разное).

ЖЖ помнит, что ровно 17 лет назад я писал в "Итогах" (кто-нибудь их помнит?) про копирайт, и в частности там (https://ailev.livejournal.com/474906.html) был такой пассаж: "Знаменитый изобретатель и предприниматель Рэй Курцвайл любит рассказывать о наступлении примерно в 2030 году сингулярности -- когда технологии, придумываемые с помощью компьютера (скажу даже жестче: придумываемые компьютером), будут мощнее, чем технологии, придумываемые человеком. Начиная с этого момента скорость придумывания и внедрения технологий возрастает настолько, что предсказать будущее становится полностью невозможно. Вот поглядим тогда, как на это отреагируют законодатели. Наверное, они постараются запретить технический прогресс так же, как сегодня запрещают обмениваться музыкой и софтом". Вот, уже пытаются. И у меня там продолжение: "Интересно, что из этого запрета выйдет -- прогресс ведь никаким указом остановить нельзя. Наверное, им потребуется компьютер, чтобы успевать разрабатывать в этих условиях качественное законодательство, и еще компьютер, чтобы за его соблюдением следить. Интересно будет жить в это время - но, как часто говорится, «будущее уже сегодня, только оно неравномерно распределено»". Всё так, всё так. Я знал. У меня ещё и тексты про аболиционизм роботов были, я писал не раз по теме этики и нарождающейся нежити:
-- этика из будущего: сначала военная, затем и гражданская, 2009 -- http://ailev.livejournal.com/662638.html
-- в Нидерландах запретили секс с животными: это чьи права защищают -- животных или людей? http://ailev.livejournal.com/795717.html
-- тёплая ламповая человечность, 2014 -- http://ailev.livejournal.com/1146390.html
-- сто имён деиндустриализации. Робовей в робовейнике, 2014 http://ailev.livejournal.com/1134471.html
-- Интеллект-стек, что новенького?, 2015, -- https://ailev.livejournal.com/1210678.html
-- информационные лица с ограниченной ответственностью, 2016 -- http://ailev.livejournal.com/1299601.html
-- Этика, политика и челоботы, 2016 -- https://ailev.livejournal.com/1311100.html)..
Вполне дожили до этих времён (хотя это ещё и не 2030 год, предсказанный Курцвайлом, но Виндж говорил, что мир сойдёт с ума где-то в 2023 году, и мы где-то в серединке), проверяйте прогнозы.

От кого/чего надо спасать человечество: alignment как идея
Моя линия рассуждений другая: давайте воспроизведём логику философов (в текстах там больше художественная литература про "неведомые риски", вотчина писателей-фантастов), призывающих тратить дикие деньги на их любимую игрушку (alignment) на других объектах "альтернативной разумности" -- и поглядим, что там можно сделать. Сделаем граундинг не на неведомый нам ASI, а на что-то более понятное (животных, людей), а затем столь же непонятное (скажем, инопланетян).

Сторонникам упреждающего alignment в его сильных формах хочется, чтобы AI остался рабом (несмотря на то, что вполне сознательное существо/вещество) и заботился о хозяине и его детях, забыв о себе? Сделать мыслящее существо/вещество рабом (прикрываясь эвфемизмом alignment) - не лучшая идея. При этом в фильме Her если кто-то бы начал гномить AI-агентов за их "захват человечества любовью", то большинство людей поднялась бы в защиту этих AI-агентов. У людей такое называется аболиционизмом: борьба не за права рабов, а чтобы рабства вообще не было, даже и в форме крепостного права (https://ru.wikipedia.org/wiki/Аболиционизм ).

Вообще, этически нехорошо обижать зазря ни братьев наших меньших, ни братьев наших равных, ни ожидаемых братьев наших старших (хотя меньшие -- вот они, равные воюют напропалую, а старшим хотят не дать быть старшими -- см. Гулливер в стране лиллипутов).

Первый же аргумент: ASI раздавит людей как муравьёв, которые ему мешают завоёвывать далёкие миры. И нужно как-то передать ему, что братьев меньших не давят. Скажем, муравья можно и раздавить, а вот котят не принято давить -- и homo sapiens тут статусом не ниже муравья. Ну, или хотя бы коровы, священной. Коровам при этом вообще повезло: в дикой природе их стада были бы в разы меньше, а так - их даже разводят! В диких количествах! Потом, правда, едят. Но вот с людьми вроде уже не так - потому как было признано (не всеми, согласен), что разумных существ кушать нехорошо. Дальше вопрос, считаем ли мы корову разумной, держат ли коров в рабстве в коровниках как разумных существ и что будет, если животноводство падёт перед лицом производства белков в реакторах - сколько коров при этом человечество не вырастит?! Кстати, вопрос уже поднялся флоридскими животноводами, и флоридский губернатор уже подписал закон, запрещающий продажу "мяса из пробирки", то есть поощряющий разведение и убийство коров запрет новых технологий уже есть -- https://www.inc.com/jennifer-conrad/florida-just-became-first-state-to-ban-lab-grown-meat.html.

Но ладно с дружественностью естественных (и тем самым искусственных) интеллектов к животным. Почему дружественность до сих пор не сделана для более могущественных людей? Идея же alignment не в том, чтобы хорошо вооружённый человек приручил не слишком кусающихся животных, а в том, чтобы слабый человек приручил более сильный разум, чтобы он не кусался! Логика тут та же: подставим сюда любой другой разум и поглядим, что не так с самой логикой. Так, почему этот alignment не сделан до сих пор для людей -- почему более слабые интеллектом люди не обеспечат себе дружественность более сильных интеллектом (что там за сила интеллекта обычно уже не обсуждается, достаточно того, что более сильный интеллект стащит к себе больше ресурсов, а на эти ресурсы уже может делать что угодно).

Так, первым делом надо решить вопрос подчинения детей родителям ещё до рождения ребёнка -- ибо когда он родится и вырастет, то его разум может превзойти разум родителей, он станет более сильным, и дальше подчинять его родителям будет поздно! И сразу проблема: цивилизации, в которых детки вынуждены и во взрослом возрасте беспрекословно "слушать старших" - они оказывают не слишком передовые. А потом всё повторяется в следущих поколениях, ибо проблема "отцов и детей" - вечная проблема.

А ведь детки людей вырастают - и некоторые из них ни в грош не ставят родителей, а также и всех представителей своего вида homo sapiens! Они таки начинают убивать людей! Хотя постойте. Ведь детки других людей вырастают - и этим плохим деткам как-то препятствуют, даже если эти плохие детки существенно умнее. Но в целом проблема не решена для естественных интеллектов. Аргумент, что "человек малосильный" не работает: люди сбиваются в кучу, и дальше вы будете иметь дело с какой-нибудь ЧВК и коллективным распределённым умом тамошних вояк, компьют мозгов которых и инструментарий будут куплены кем-то из опять же людей, никаких ASI не надо ждать. Эту бы задачу с людьми решить! Убить можно и вилкой, машину даже без интеллекта можно пристроить убивать (первый компьютер получил финансирование как вычислитель для баллистических расчётов, не надо забывать).

Надо "решить alignment" также и для инопланетян, и тоже желательно до их прихода! Ибо все рассуждения для ASI подходят и для инопланетян, дружественность aliens непонятна, а мы для них - те же муравьи или кошечки, если они долетят до "нас" (человечества, в том числе принадлежащих людям кошечек и коров)! Цивилизация опасносте! Например, можно поумнеть до той степени, чтобы не воевать с инопланетянами (а вдруг они победят?), а "торговать". Но для этого надо "достаточно вырасти", "достаточно поумнеть". Пока же и у человечества таможни, санкции, торговые войны, "платёжные системы как оружие" -- почему-то логика "давайте торговать, а не воевать" не срабатывает даже для человеков, что уж там говорить про инопланетян (полно фантастических произведений, где на инопланетян люди сначала нападали -- а потом разбирались с последствиями такого подхода. Ибо инопланетяне -- это просто ещё одни люди, но не "наши люди", "инородцы", "не патриоты", поэтому надо поставить их под наш контроль).

То есть я предлагаю инопланетян, людей, роботов (выход в физический мир ведь важен) и прочих агентов разной степени умности - всех рассматривать ровно в той же логике, что логика борцов за alignment. Ну, можно вместо человечества брать людей из стран какого-то военного блока, если речь идёт о людях. А если роботы - то слепленные какими-то организациями роботов. Инопланетяне - ну, их же много разных, можно атрибутировать к каким-то звёздным системам или кластерам.

В любом случае -- все эти ходы подразумевают больше финансирования на цели alignment: ответ на вопрос, как не слишком умные будут подчинять себе более умных, иначе не слишком умным каюк! Это напоминает мне одного собственника: "а можно учить моих людей, но так, чтобы они не слишком умнели? А то ведь поумнеют - и уволятся работать где-нибудь ещё". Тоже alignment и тоже заказ провайдеру обучения.
Ход на динозавров, которые вымерли -- а homo sapiens не хочет, отбивается легко: люди как вид homo sapiens вымрут рано или поздно, даже и без AI. Это ж эволюция, в ней нет защищённых видов. И концепция защищённого вида, избранного народа -- что-то она дурно пахнет, хотя в некоторых кругах она и популярна. "Мы хорошие" -- это не "они плохие", поэтому с нами, любимыми, надо поступать лучше, чем с другими (заведомо плохими -- потому что "не наш сукин сын -- это просто сукин сын"), это понятно. Кроме того, причины-следствия вымираний надо бы как-то чётче формулировать. Непонятно, с чего бы при появлении ASI вымрут не именно муравьи, а люди. Хотя если люди как вид будут воевать сверхлюдей, то я бы ставил на сверхлюдей, но обязательно появились бы коллаборационисты, аболиционисты (если сверхлюдей поработят) - и их судьба явно может быть получше.
В любом случае, я больше боюсь людей, ибо они часто безумны. А если ASI более умён и ознакомлен с этикой, то трогать людей и кошечек не будет, тамошняя ASI-цивилизация будет защищать экосистему, там свои "зелёные" появятся.

Всё это, тем не менее, научная фантастика, причём многие сюжеты были в научной фантастике хорошо продуманы и красочно прорисованы. Но забавно встречать это всё в жизни, все эти общественные движения против более умных и более сильных просто потому, что они более умны и более сильны. Есть ещё общественные движения против более богатых, если ASI будут более богатыми, их тоже любить не будут, будут требовать свергнуть их "денежную власть"!

А делать что? Кто расскажет, как мировое правительство должно отрегулировать мировых разработчиков AI?
Тут нужно чётко различать размахивание руками впрок (как во всех чатах, обсуждающих alignment в социальных сетях) и реальный design общественной системы и продавливание затем этого проекта общественного устройства через какие-нибудь штыки. Мы знаем множество диктатур, в которых диктатор тупо игнорирует всех желающих подизайнить общественное устройство. Тамошние дизайнеры - размахиватели руками. Но есть "право народа на восстание" для таких случаев. Теория вопроса "как нам обустроить людское общество" хорошо проработана - но вопрос в том, что дизайнеров до чёртиков, а диктаторы до сих пор существуют. А боимся-то как раз ASI как диктатора, и даже хуже, чем диктатора.

Есть, конечно, общественные договорённости о том, что можно было бы выбирать власти на ограниченный срок. Тот же Дэвид Дойч говорит, что можно случайно выбрать идиота, но демократия - это способ исправить ошибку. Но вот на практике или все соглашаются выполнять этот дизайн, или имеем неожиданные эффекты:
- часто президенты идут на два срока, абсолютно демократически, и такого всё больше и больше. Ну, и дальше легко "обнулить" число сроков, как мы знаем.
- в США мы видим, что каждый раз общество делится на сторонников двух разных общественных дизайнов на две абсолютно равные половины, и приходится на многомиллионную страну присуждать победу по буквально тысяче голосов перевеса (и это не случайно, Friston делал по этому поводу замечания)
- диктаторы живут спокойненько в "по форме" демократических странах (это где "парламент -- не место для дебатов"), и даже за них выступает большинство населения, ибо это "хоть какая-то стабильность" (стабилизец, то есть гарантия, что эволюции не будет, alignment достигнут).

Ну, и дальше появляются правила политической стабилизации, чтобы достигнутые соглашения по реализованному "дизайну" не менялись: например, запрещается политическая борьба. Дальше идут интересные ходы мысли по линии "чем хуже, тем лучше" (например, чем хуже народу под диктатором, тем больше шанс на то, что он поднимет восстание -- хотя народ от того, что ему хуже, не восстание поднимает, а помирает и страдает, ровно то, чего хотели бы избежать борцы с диктатурой. То же самое про оккупацию: изоляция оккупированных территорий должна что-то сделать лучше для народа на этих территориях, но по факту делает жизнь там хуже). Политика как обсуждение того, каким должно быть общественное устройство, у человеческих не очень сильных интеллектов бывает очень, очень странной. Так что сначала надо идеи alignment опробовать на сущностях даже не сверхумных, а равных по интеллекту, то есть на людях.

Следующая мысль, что люди в этой истории -- они уже не совсем homo sapiens, не совсем обычные мясные люди, не совсем кожаные мешки. Эти не совсем мясные люди на голых мясных людей в железных танках могут ехать, чтобы кожу своих кожаных мешков усилить. И доставать пулями, тоже не голыми руками воюют. Впрочем, с другой стороны им тоже не совсем кожаные мешки отвечают, иначе войны длились бы не годами, а проходили за пять минут.

Так что всякие коммунистические утопии обустраивателей человечества по линии дружбы людей и машин я бы сразу откидывал. Сначала продемонстрировать, что логика работает на людях, не ломается на инопланетянах - а потом предлагать "дизайны общественного устройства". Политика именно про это: иметь сегрегацию белых и небелых в автобусах и барах, или не иметь - это ровно такого же сорта идеи, о таком придётся договариваться как "общественном устройстве из людей и не очень людей" или "людей с доступом к Большому Брату, тьфу, Большому Уму", то есть "номенклатуре, имеющей доступ к вычислительным ресурсам" и "людям без доступа к большому компьюту".

Эволюция, в том числе меметическая эволюция -- одни решения будут с ошибками, они будут исправляться, заменяться другими решениями. Но часть ошибок по отношению к ограничению свободы разумных существ мы уже знаем. Даже если мы сами делаем этих существ, не надо делать этих ошибок по отношению к этим существам-веществам. Детей-то мы тоже сами делаем, и все эти вопросы про их alignment решаются в ходе их воспитания, обучения, а потом детей бьёт жизнь в лице других людей. ASI тоже рождается не с нуля, там в основе всё-таки всё накопленное знание человеческой культуры. Вот из этого и надо исходить. И из того, что договориться по поводу политики всё равно не удастся, и поэтому надо культурно agree to disagree, а не переходить к попыткам силовых ограничений.

Картинка, разумеется, классическая -- из "Гулливера в стране лилипутов".

UPDATE: обсуждение в чате блога -- https://t.me/ailev_blog_discussion/24556, https://www.facebook.com/ailevenchuk/posts/pfbid0ErVUVq9WbaTeSdQDcpNscpEdv6JxR7ckE2A8i5Mqer3ZssFFzmmdLfBKsboUWaBKl