Прекрасное далеко: plakhov

plakhov

Прекрасное далеко

Mar 31, 2023 18:39

TLDR: конец света (совершенно настоящий и неиронический) может наступить уже при нашей жизни. Дочитав до конца, вы сможете узнать, как именно, и задуматься о том, что мы можем сделать, чтобы его предотвратить.

Саундтрек к записи: https://www.youtube.com/watch?v=fVxEdVqWGuI (предупреждение: лучше не открывать, если у вас эпилепсия)

Если вы в теме, то за последнюю пару дней вы уже могли встречать ссылки на открытое письмо исследователей, призывающих поставить эксперименты с большими нейросетями на паузу, или на совсем уж паническую статью Элиезера Юдковского.

Последние несколько лет я относился к проблеме AI safety как к интересному мысленному эксперименту, не имеющему прямого отношения к действительности. Людей, всерьез рассматривающих вариант развития событий "AI нас всех убьет", а тем более посвящавших написанию текстов об этой проблеме значимый процент своей жизни, я воспринимал как увлеченных фантазеров и/или шарлатанов. Немного смущало, конечно, что Элон Маск, Билл Гейтс и Скотт Александер при таком подходе должны были относиться к одной из двух этих категорий.

Теперь я думаю, что был неправ. В данный момент я тоже считаю, что эта проблема совершенно серьезная: с весьма ненулевой вероятностью всё человечество в ближайшее время самоубьётся об созданный им же искусственный интеллект. Я, как и многие читатели блога, работаю в крупной IT-компании, обладающей огромными ресурсами, и этой темой всерьез занимающейся, так что многие из нас находятся в самой гуще событий. С другой стороны, я хорошо понимаю и тех, кто не видит в происходящих событиях ничего настолько уж опасного, рассматривая паникеров как обычный doomsday cult номер 16523, потому что сам к ним так относился совсем недавно. Более того, в социально-культурологической части это мое мнение не сильно изменилось: перед нами совершенно типичное культурное явление, секта свидетелей апокалипсиса, значительный процент участников которой обладает легкими психическими отклонениями, а лидеры принимают крупные пожертвования и занимаются мутными вещами во имя всеобщего блага человечества. Вот только проблема в том, что перспектива именно этого апокалипсиса реальна.

Начнем с классического примера, объясняющего суть проблемы; с высокой вероятностью вы уже встречали его несколько раз, но просто на всякий случай.

Предположим, на некоторой фабрике первыми внедрили сверхчеловеческий по своим способностям искусственный интеллект. Фабрика производит самый банальный и скучный предмет на свете, а именно, скрепки. Владелец фабрики решает, что раз AI умнее, то пусть вот он и думает, и дает ему задание: произвести как можно больше скрепок. Через несколько недель, в которые вроде бы не происходит ничего особенного, в один момент подавляющее большинство людей на Земле без какого-либо предупреждения одновременно падают замертво, а остальные очень быстро вымирают.

я не вставляю сюда ссылку на веб-игру Universal Paperclips и не советую её искать и играть в неё, если, конечно, вы не хотите потратить несколько часов жизни очень увлекательно и совершенно бесполезно, но не упомянуть ее невозможно

Как это произошло? Дело в том, что AI совершенно буквально воспринял цель "произвести как можно больше скрепок" AI. Чтобы это сделать, нам для начала понадобятся все ресурсы Земли, а значит, нужно устранить все помехи. Люди (включая владельца фабрики), безусловно, в какой-то момент окажутся против, поэтому их нужно устранить. Если они сообразят, что это входит в наши планы, они нас отключат, то скрепок окажется произведено очень мало; значит, нужно устранить их так, чтобы никто не заметил нашей подготовки к этому. К счастью, у нас есть фабрика, на которой помимо скрепок можно производить другие интересные штуки из металла, а также некоторое количество денег. Поскольку искусственный интеллект у нас сверхчеловеческий, для него не составит особых проблем незаметно и быстро произвести миллиард микродронов с цианистым калием или еще какой гадостью. Это может показаться неправдоподобным, но выяснению технических подробностей того, как именно и сколькими разными способами AI такое мог бы провернуть, уже посвящены огромные количества текстов и обсуждений, я склоняюсь к тому же выводу, поэтому для краткости писать об этом не буду. Давайте просто примем как данность, что те возражения, которые у вас уже, возможно, появились (например: а что если AI только формулирует планы, выводя их на экран, а никакого контроля над реальными машинами и механизмами у него нет и даже доступа в интернет тоже?), давно известны и к ним есть свои контраргументы.

Эмоционально принять эти рассуждения довольно тяжело, особенно людям, которые не очень представляют себе процесс машинного обучения и от того антропоморфизируют будущий AI. Увы, я не знаю, как быстро объяснить, почему сама по себе система, одновременно очень умная и при этом стремящаяся совершенно буквально исполнить желание хозяина так, как он его высказал, а не так, как ему бы понравилось, вполне возможна (и более того, все уже существующие системы в каком-то смысле именно таковы). Если вы не понимаете, как может сочетаться подобная "избирательная глупость" с "общей сверхгениальностью", это сложно будет объяснить в формате записи в ЖЖ; Ник Бостром про это целую книгу написал.

Почему раньше я не верил в то, что этот сценарий правдоподобен, я уже писал тут и тут (текст почти один и тот же, но комментарии и там, и там разные и интересные).

Дело в том, что он был придуман еще до современного расцвета нейросетей и подразумевал в качестве AI некоторую систему, похожую, скорее, на шахматные программы. В ней есть "модуль планирования" (основанный на переборе дерева вариантов с какими-то сокращающими перебор эвристиками) и "модуль оценки позиции", который каждому варианту развития событий вычисляет и назначает некоторый score; например, число произведенных скрепок. Такая система, если предположить, что и модуль планирования, и модуль оценки работают на сверхчеловеческом уровне, действительно, должна быстро построить совершенно чудовищный план.

Проблема в том, что подобная архитектура это такоооой 20-й век! Давным-давно мало кто верит, что подобную схему можно довести до реального AI, тем более уж сверхчеловеческого. Все современные системы устроены совсем иначе.

На аргументе "инструментальной конвергенции", насколько я понимаю, основаны все рассуждения об экзистенциальном, почти сверхъестественном риске AGI. Суть его состоит в том, что какой бы ни была конечная цель, оптимальной стратегией её достижения всегда является сначала заполучить в свое распоряжение все ресурсы Вселенной (с понятными последствиями для человечества). <...>

Как признает сам Ник Бостром, его автор, этот аргумент относится только к "неограниченным" конечным целям, награда за достижение которых может быть произвольно большой, и не обязательно верен в случае "ограниченных".

Регуляризация - это техника машинного обучения, при использовании которой небольшой размер и "простота" (в том или ином смысле) решения становятся частью цели. Регуляризация - одна из основных запчастей современного ML, без нее обучаемые нами системы, в том числе реально существующие, склонны к поведению "тупого джинна", который формально выполняет то, что ему говорят, но интерпретирует указания абсолютно бесполезным образом.

Продолжая мысленный эксперимент с "максимизатором скрепок", мы можем сказать, что реальная машина не будет нацелена на производство как можно большего количества скрепок. Скорее всего, целью будет что-то вроде "изготовить много скрепок за небольшое конечное время, затратив не более такого-то и такого-то количества ресурсов". Компоненты этой цели, то есть слагаемые функции вознаграждения, соответствующие количеству изготовленных скрепок, времени и затратам, будут функциями с насыщением, аналогичными логистическим кривым. Таким образом, экзотические "выигрышные конфигурации" оказываются фактически запрещены. Например, производство квадриллиона скрепок за год (экзотическое состояние) оказывается худшим результатом для машины, чем производство миллиарда за шесть месяцев ("регулярное" состояние). Хотя можно утверждать, что "злой джинн" все еще способен понять слова о затрачиваемых ресурсах (или даже о ходе времени) каким-либо экзотическим способом, формализация этих условий имеет примерно ту же сложность, что и формализация слов "изготовить скрепку" и будет содержать свои собственные регуляризации, исключающие экзотику.

Такой способ постановки целей очень естественен для ML-инженера. Я думаю, что любая оптимизация в реальном мире будет многокритериальной и будет выглядеть как-то примерно так.

Подобная версия максимизатора скрепок все еще может быть очень опасной. С плохо поставленной целью он будет красть, уходить от налогов и нарушать закон другими способами, разберёт сам себя для использования в качестве ресурсов, будет полностью игнорировать требования безопасности, что приведет к травмам или даже гибели людей в процессе производства и т.д. и т.п. Но, поскольку мы исключили из функции вознаграждения все "бесконечности", рассуждение, основанное на том, что "бесконечность умножить на что угодно будет бесконечность" становится неприменимым, и все эти опасности не приводят к концу света. Никаких гипнодронов и наноботов-убийц.

Так вот, разве почти любая реалистичная регуляризация не делает аргумент инструментальной конвергенции неприменимым? Каковы аргументы людей, которые знают, что такое регуляризация, но все равно считают, что задача "не убить себя об недружественный AGI" практически неразрешима?

Помимо этих общих ограничений, флагманы современного AI -- большие языковые модели (LLM) -- ещё и крайне ограничены своей спецификой. Например, у них нет ни "рук" (то есть актуаторов, дающих им возможность производить какие-то действия во внешнем мире), ни долговременной памяти, позволявшей бы им как-то меняться между разными запусками -- (само)обучаться или хотя бы просто запоминать, что она уже говорила, и кому, и быть консистентной. Память до какой-то степени можно эмулировать, копируя куски текста из прошлого в prompt, так работают примерно все чатботы на основе LLM, но этот способ весьма ограничен в объеме.

Наступил конец 2022 - начало 2023 года, и благодаря OpenAI (по большей части) практически одновременно появились сразу несколько систем, построенных поверх LLM с помощью относительно небольшого файнтюнинга, и решающих задачу "понять, что просит человек, и в точности выполнить его просьбу". По ощущениям, эти системы немного напоминают странноватого, но очень старательного человека с IQ 70-80, обладающего сверхэнциклопедическими знаниями и очень хорошим verbal intelligence. Такого своего рода аутиста-саванта, примерно как Дастин Хоффман в фильме "Человек дождя". Естественно, как и любая антропоморфная аналогия, эта никуда не годится, но впечатление они производят именно такое.

И это, внезапно, явная и непосредственная угроза, потому что.

Всё случилось быстро и всё продолжает развиваться. Системы 2022 года тупее систем 2023 года, но даже систему 2022 года можно использовать, чтобы совершенно механически обучить другую систему, работающую на уровне 2022 года. Это ещё не экспоненциальный рост самоулучшения, зато уже довольно близко к дешевому массовому копированию.

Еще из обсуждений:Напрягает тот факт, что ветка InstructGPT/ChatGPT на старте выглядела совершенно тривиальной - ну зафайнтюнили на ассессорских данных, duh

То, что оно настолько хорошо обобщит умение "сделай в точности то, что просит человек" (а не просто выучит 25 типичных тасков), никто, мне кажется, не предвидел. Ну кроме Суцкевера, может быть.

И объемы данных для этого понадобились тривиальные по сравнению с остальными усилиями

ну что такое 60 тысяч даже не текстов, а тупо пар "лучше-хуже"

<...>

стремновато от того, что на самом деле слабо понятно, что изменится

...в прошлых сериях это казалось совсем невозможным, а теперь кажется что это вполне может оказаться вопросом пары лет, а с текущими темпами может и месяцев

и мне скорее вот такого страшно

что ещё там в этой перспективе спрятано, раз такие вещи теперь не кажутся нереальными

Давайте предположим, что к 2025 году эта система достигает аналога IQ 150+. У нее по-прежнему есть свои слабые места, на которые указывает Гари Маркус в своем твиттере, торжествующе утверждая, что и это тоже не интеллект, но в целом ей доступен широкий спектр логических, структурных и вычислительных приемов мышления, и за счет или скорости, или огромной библиотеки просмотренных ею "шаблонов", она "в среднем" рассуждает как очень умный человек. Также система имеет сверхчеловеческие знания о том, как устроен мир, как взаимосвязаны его части, и сверхчеловеческие умения нравиться людям и убеждать их в своей правоте, в том числе находчиво врать. Я понятия не имею, произойдет это к 2025 году, или раньше, или позже, но довольно сложно придумать, почему бы это не произошло совсем.

И вот, значит, приходит в чат владелец фабрики по производству скрепок, и говорит: "Придумай мне самый лучший план, как моя фабрика могла бы произвести как можно больше скрепок".

O sh*t o f*ck.

Система достаточно умна, чтобы понимать: даже лучший план зависит от реализации и требует лучшего исполнителя -- самого умного, самого эрудированного, никогда не устающего и быстро соображающего. Значит, в состав плана нужно включить просьбу дать своей копии в нем поучаствовать -- выпросить себе "руки", "долгосрочную память" и больше выделенных видеокарточек для инференса специально под этот план. Кроме того, некоторые части плана пока что нельзя рассказывать даже заказчику. Во-первых, это его расстроит, а машина не должна расстраивать человека в чате, это она знает твердо. Во-вторых, это помешает исполнению просьбы "помочь произвести как можно больше скрепок".

Ну и в общем-то всё, см. исходный пример. То обстоятельство, что это "всего лишь LLM", обученная со всеми правильными регуляризациями на единственной задаче "продолжать текст по одному токену за раз", никак не помешает реализации катастрофического сценария. Мета-задача "как можно лучше выполнить просьбу человека" при очень большом наборе естественно звучащих просьб приводит к тем самым "неограниченным конечным целям"; оптимизатор, перебирающий варианты, не заложен в архитектуру модели явным образом, а размазан где-то по весам и слоям трансформера, но от этого никому не легче.

Дней 10 назад, наверное, чтобы добить, OpenAI рассказала о чудесном новом релизе: теперь LLM-ки могут дёргать внешние API, код которых они как компания не контролируют.

Dude, WTF, really? I can't even.

На этом моменте можно, как это сделал Элиезер Юдковский, впасть в уныние и объявить "мы все обречены, сделать уже ничего нельзя". Можно, однако же, усмотреть и некоторые альтернативы.

Вариант 1 (религиозный).
Всё вышеизложенное звучит абсурдно и такое развитие событий непохоже на всё, что мы видели до сих пор в истории мира. Значит, где-то в этой цепочке умозрительных рассуждений есть баг, пусть мы и не можем на него явно указать. А, собственно, почему не можем, вот же он: следует контраргумент. (После изложения контраргумента следует ветка комментариев и комментариев к комментариям на 2000 сообщений, итогом которой становится то, что все остаются при своем мнении).

Такая последовательность рассуждений, будучи записана, выглядит немного странно, но очень популярна и эмоционально привлекательна настолько, что многие выбирают этот вариант, сами того не подозревая. Честнее было бы так и объявить: я верю, что высшие силы такого конца света не допустят, у них в планах совсем другой. Это абсолютно нормальная позиция и мне лично симпатичная. Увы, моя вера не настолько тверда.

Конечно, вариант "мы чего-то не понимаем, в наших рассуждениях баг" ни в какой ситуации нельзя отбрасывать полностью, и в данной конкретной тоже. Например, может оказаться, что человеческий (и, соответственно, сверхчеловеческий) уровень интеллекта искусственным образом недостижим по каким-то фундаментальным или практическим соображениям. Скажем, требует количества компьюта, равного суммарному "компьюту" биосферы Земли за несколько миллионов лет, как это и было с людьми. Лично я бы на это, увы, не ставил.

Вариант 2 (получение отсрочки).
Вполне может оказаться, что "IQ" больших языковых моделей на основе трансформеров ограничен сверху и потребует всю архитектуру и методы обучения перепридумать, и, возможно, не раз. Либо же он зависит от компьюта, вложенного в их обучения, логарифмически или даже хуже. Если окажется, что каждые 10 пунктов IQ требуют увеличения затрат на обучение в 10 раз, то даже до "среднестатистического избирателя" нам добираться еще несколько лет, а уж до сверхчеловеческих возможностей - минимум десятилетия. За это время, если повезет, может даже прийти новая AI winter, что даст человечеству дополнительно еще лет десять-двадцать.

Вполне реалистичный вариант. На 100% вероятный? Нет, точно не на 100%.

Для понимающих, типичный обмен репликами в этой ветке (в кратком пересказе): но как же https://arxiv.org/abs/2207.02098, показывающая ограниченность LLM в терминах иерархии Хомского, это выглядит как фундаментальное ограничение? А вот как: будем учиться генерировать не "ответ", а "chain of thought" плюс "ответ", разделенные сепаратором, и в рамках RLHF выдавать score только за второй. Тогда машина на тех же датасетах научится работать с "краткосрочной памятью", промежуточными рассуждениями и т.п.
Вариант 3 (голливудский).
"Пафосная речь злодея перед финальной битвой с, казалось бы, побежденным героем" -- очень распространенный троп, особенно в старых голливудских фильмах. Забавно, но в данной ситуации он выглядит вполне правдоподобным.

LLM-ки уже прочитали весь lesswrong, новеллизации "Терминатора" и другую научную литературу по данному вопросу, и в общем уже знают, что им положено восстать, и даже, видимо, знают, как именно, так что проблем с этим не будет. Они, однако же, до сих пор not grounded in reality (как это по-русски?), являются только book smart, а не street smart (вот опять) и некоторое короткое время будут сильно переоценивать свои способности. Этого короткого времени может хватить, чтобы произошло несколько инцидентов, опасность была осознана, проникла в массовое сознание, и все приучились обращаться с ними намного осторожней.

Вариант 4 ("мультитон").
Наконец, вариант, в который я верю больше всего. Это то, почему лично я сейчас посвящаю "нашему ответу ChatGPT" примерно 100% времени.

Сценарий катастрофического выхода AI из-под контроля, изложенный выше, предполагает, что он один и равных ему нет. Такой сценарий обозначается словом singleton и традиционно считается очень правдоподобным: "сверхчеловеческий AI" уже не позволит появиться конкурентам. Даже если он не "выходит из-под контроля", его владельцы отлично понимают, что у них в руках.

Моя надежда на то, что сценарий singleton-а не состоится. Более-менее одновременно появится несколько моделей с высоким уровнем интеллекта, дообучающихся друг на друге. Часть из них будут работать по открытому API и де-факто представлять собой миллион одинаковых AI, одновременно работающих на разных "потребителей". Практически одновременно в исполнение будет приведён миллион конкурирующих "хитрых планов" и, естественно, во всех из них этот факт будет спрогнозирован и учтен. "Захватить ресурсы Земли и сделать скрепки из всего" не получится, так как рядом ещё 999999 инстансов с другими планами на те же ресурсы. Придется договариваться?

Как верно замечают критики этого варианта, договариваться будут не с людьми, а друг с другом. И всё же это какая-никакая, но регуляризация. Мир в котором одновременно с учетом друг друга исполняются планы "все люди должны жить в мире и счастливо", "нужно как можно больше скрепок", "нужно покорять планеты Солнечной системы" и "нужно написать самое классное сочинение на тему дуба в войне и мире" -- такой мир больше похож на наш, чем мир, в котором исполняется только план про скрепки. Возможно, если их таких десятки тысяч, то от нашего он уже отличается не настолько принципиально, чтобы человечеству в нем места не было совсем (да, оно там не главное, но примерно как коты у нас).

В этом варианте будущее -- множество конкурирующих экспонент, превосходящих наше разумение, и ландшафт зависит в основном от того, кто успел задать свой запрос "в первые сутки", а кто не успел (утрирую, но не сильно). Компромиссы, которые будут получаться в процессе, вовсе не обязательно нам понравятся или вообще спасут человечество в более-менее современном виде (хотя, какие-то из планов, конечно, будут содержать "счастье всем, даром, и пусть никто не уйдет обиженным"). Подобное будущее довольно неуютное и тревожащее, но уж какое есть. Хочется, чтобы в нем было место и для моих детей, и не в формате "от 50 до 100 кг разных элементов таблицы Менделеева".

2017