Источник.
Программы искусственного интеллекта (ИИ) после окончания курсов обучения (а это большая часть текстов, созданных человечеством за всё время) получают удивительные способности. Например, для них теперь не проблема одновременная работа с сотней языков, в то время как люди с лингвистическими способностями - гиперполиглоты - могут уверенно оперировать "лишь" дюжиной. ИИ может штамповать прозу в разных литературных стилях и писать сносные рифмованные стихи. DeepMind’s Ithaca AI может взглянуть на греческие буквы, выгравированные на мраморе, и угадать текст, вырезанный вандалами тысячи лет назад. Эти результаты указывают на многообещающий путь развития ИИ: просто запихивайте в его пасть все большие объемы текста, созданного человеком, и ждите проявления чудесных новых способностей. При наличии достаточного количества данных этот подход, возможно, приведет к гибкому интеллекту или даже человекоподобному искусственному разуму.
Беда только в том, высококачественные предметы человеческой культуры, как, например, хорошая проза, считаются самым труднопроизводимым продуктом во вселенной. И их не бесконечное количество. Обычные тексты вряд ли годятся для ИИ: большие языковые модели, обученные на книгах, пишут гораздо лучше обученных на огромном количестве постов в социальных сетях. Группа исследователей под руководством Пабло Вильялобоса (Pablo Villalobos) из Epoch AI недавно предсказала, что высококачественный материал для программ ИИ, типа устрашающе впечатляющего ChatGPT, закончится к 2027 году.
Следует отметить, что для чтения ИИ доступна лишь незначительная часть всего лингвистического творчества человечества. Прошло более 100000 лет с тех пор, как радикально творческие африканцы превзошли эмоциональное ворчание наших предков-животных и начали воплощать свои мысли в обширные системы звуков.
Письменность позволила людям зафиксировать и сохранить гораздо больше слов. Но она, как и большинство новых технологий, поначалу была дорогой. Разработанные ресурсоемкие методы могли сохранить лишь небольшую часть культурного наследия человечества.
Только после того, как печатный станок начал массово выпускать книги, наша коллективная текстовая память достигла промышленных масштабов. Исследователи из Google Books подсчитали, что со времен Гутенберга люди опубликовали более 125 миллионов наименований разных текстов. По оценкам команды Epoch, оцифровано из них уже 10-30 миллионов, что дает ИИ возможность читать сотни миллиардов или даже более триллиона слов.
Эти цифры могут показаться впечатляющими, но они находятся в пределах 500 миллиардов слов, на которых обучали модель, лежащую в основе ChatGPT. Следующая версия - GPT-4 - может обучаться уже на десятках триллионов слов. Ходят слухи, что GPT-4 уже сможет создавать роман из 60 000 слов из одной подсказки. Но десять триллионов слов - это уже все оцифрованные книги, научные статьи и большая часть блогосферы. Это не означает, что GPT-4 прочтет весь этот материал, просто весь он будет в пределах его технической досягаемости. Тот факт, что ИИ скоро сможет прочесть все наши книги, не означает, что они смогут освоить весь текст, который мы производим.
Вместимость Интернета совершенно иного порядка. Но случайный текст, извлеченный из Интернета, как правило, не содержит хороших данных для обучения, за исключением статей из Википедии и чего-то подобного. Но, возможно, будущие алгоритмы позволят ИИ извлекать смысл и из наших твитов, подписей в Instagram и статусов в Facebook. Тем не менее, и эти низкокачественные источники не будут неисчерпаемыми. По словам Вильялобоса, через несколько десятилетий программы ИИ станут настолько мощными, что смогут поглощать сотни триллионов слов, включая и те, которые люди до сих пор выкладывали в сеть.
Вильялобос считает, что для увеличения производства творений человеческой культуры для ИИ, мы все могли бы, например, носить ключи на шее, которые записывают каждый наш речевой акт. По некоторым оценкам, люди произносят в среднем от 5000 до 20 000 слов в день. Умножая на 8 миллиардов человек и на 365 дней в году можно получить быстро накапливающиеся данные. Наши текстовые сообщения также можно записывать: например, сохранять все нажатия клавиш, которые совершают "белые воротнички", чтобы в дальнейшем передавать эти тексты в гигантские базы данных, которыми будут "питаться" программы ИИ. Вильялобос сухо добавил, что такие решения в настоящее время «значительно выходят за рамки окна Овертона».
Возможно, отдача от больших данных со временем будет уменьшаться. Вместо этого будет один или два алгоритмических прорыва, которые заселят наш мир искусственным разумом. В конце концов, мы знаем, что природа создала свои собственные способы распознавания образов, которые пока превосходят даже наши лучшие программы ИИ. Так, подросток, проглотив на несколько порядков меньше слов, чем ChatGPT, имеет гораздо более тонкое понимание письменного текста. Если его разум и работает на алгоритмах, то они гораздо лучше, чем те, которые используются сегодня ИИ.
Однако если наши программы, собирающие и обрабатывающие данные, когда-нибудь и превзойдут человеческое познание, нам придется утешать себя тем фактом, что ИИ создан по нашему образу и подобию. ИИ - не инопланетного происхождения. Он не принципиально иной. Он наш, отсюда. Он смотрел на Земные ландшафты. Он видел, как солнце садится над его океанами. Он использует придуманные нами имена для звезд. Он знает наши самые старые истории...
P.S.
Численные данные к этой статье здесь.
Телеграм-канал "Интриги книги"