ИИ-3: cinecon

cinecon

ИИ-3

Jun 04, 2024 02:32

Сначала всем дружно сюда: https://telegra.ph/Revolyuciya-iskusstvennogo-intellekta-uzhe-teryaet-populyarnost-06-01 (спасибо Н. Петрову за ссылку). Это не мои домыслы и оценки, а лично WSJ. На мой взгляд материал явно с двойным дном. Он объективен, факты отражены верно, но что-то мне подсказывает, что целью данного поста является не осмысление обозначенных проблем ИИ, а простая биржевая махинация. Кто следит за моим блогом, тот в курсе, что глобальные фонды США ведут активную скупку активов по всему миру. Значит им нужны деньги, ФРС пока явно жмотничает, борясь с импортируемой инфляцией. Значит нужно что-то продать. А продавать выгоднее всего переоценённые активы американских айти-гигантов, но так, чтобы их стоимость не обрушить. Но вот когда распродажа закончена, вот тут-то и наступает момент, когда котировки очень желательно сбить, пусть себе падают. Потом можно будет скупить по дешёвке. И статья в WSJ бьёт точно в эту цель. Но это только к слову, этот материал об ИИ.

В комментах к ИИ-2 пришёл материал от Людвига Аристарховича, который мало кто видел, так что привожу его полностью.

"У гугла нет необходимости в ChatGPT, у них есть свой Gemini, как и еще у ряда крупных компаний свои нейронки. Китайские иероглифы за столетия стали настолько различны, что по сути единого языка в Китае не было, разница в произношении и смыслах была больше, чем между русским и украинским. Когда советские лингвисты приехали в Китай, то была даже программа перехода от иероглифического письма на условную латиницу(буквицу). Сейчас проблема в Китае во многом решена установлением пекинского диалекта, как общего стандарта для образования и документооборота.

Нейросети сейчас грубо можно поделить на языковые модели и модели распознавания образов/объектов.

В языковых моделях единицей генерации как правило выступают не отдельные буквы, а "тонены", т.е. как правило слово целиком. И уже к нему ищутся привязки и взаимосвязи. Так что никакой существенной разницы между иероглифическим письмом, латиницей и кириллицей там нет по определению. По сути это такая функция автозамены Т9 в телефонах на максималке.

Поэтому кстати нейронки не очень умеют в рифмы и поэзию - для ямбов и хореев нужен анализ букв и слогов, а не "токенов". Но есть специализированные модели для написания стихов, где в качестве токенов взяты отдельные буквы, подвид специализированных моделей.

В нейронках по распознаванию/генерации объектов, фото и видео используется диффузионная модель доведения до цифрового шума и восстановления объекта из него. Аналогично для программ ориентации в пространстве(сильно упрощенно).

Вот как-то так.

То, о чем вы пишете, это уже совсем другой уровень - у модели должна быть своя "картина мира" в голове.

На это пока не способна ни одна нейронка. Там проблемы возникают сразу от архитектуры и далее взаимоувязки команд с "картиной мира" в голове, анализ сложности задачи и много еще всякого .

То, что выйдет на рынок в ближайшее время можно разделить на несколько подгрупп.

Первое, это встраивание сжатых языковых моделей в телефоны и прочие гаджеты. Тут сильно поможет переход на архитектуру КАН (Колмогоров-Арнольд-нетворк). Далее сюда почти автоматом идут функции автоматического перевода с любого языка на какой угодно, неважно звоните вы другу в Турцию или подруге в Китай, вы будете слышать их голос на русском, при желании. Ну и все прочие переводы от фильмов до ютуба идут сюда же.

Далее идут модели для ориентации в пространстве, автопилот для автомобилей, дронов, домашних роботов и чего угодно еще.

Гугл кстати усиленно работает над "удлинением" выдачи токенов и запоминания нейронкой предыдущих сеансов. На сегодня языковые модели не помнят ваших прошлых разговоров. И если для чат-бота это не критично, то в случае выхода на рынок домашних и рабочих гуманоидных роботов (уже скоро) это будет критически важно.

Третий вид нейронок это будут специализированные модели на основе агентского подхода. Какие угодно - от медицинских, помощников терапевта при определении диагнозов, до юридических, способных составить длинные юридические документы за пару нажатий кнопок.

А, ну и нейронки генерации видео по текстовому запросу, самое обсуждаемое сейчас в сети. Фактически создать клип/мультфильм/сериал станет в разы менее затратным делом.

Интегральная всех моделей сегодня это домашний робот-помощник, т.к. ему нужно и ориентироваться в пространстве и понимать и уметь выполнять команды и поддержать разговор с человеком, желательно еще "считав" его настроение. Тут еще работы на годы вперед, то, что выйдет скоро на рынок, будет сравнимо с первыми персональными компьютерами и далее представьте прогресс до сегодняшних.

Вот как-то так, если без философии про AGI, общий искусственный интеллект и прочую сингулярность, просто анализ готовящихся к выходу на рынок решений."

Просто идеальный обзор текущей ситуации с ИИ, Людвигу Аристарховичу мой респект и уважуха. Сразу признаюсь, что вот это: "функция автозамены Т9 в телефонах на максималке" я в его материале не понял , но и вникать не собираюсь. Для меня гораздо важнее другое. С моей голокольни (высоко сижу, далеко гляжу) и Людвиг Аристархович, и парень Кристофер Мимс из WSJ говорят об одном и том же. Я бы эту проблему назвал интеллектуальным кризисом в развитии ИИ. У людей искусства есть такой оборот - кризис жанра. Здесь примерно тоже самое применительно к науке.

На вопрос, а что же делать? Где место России в этом, пока ещё раздробленном и лоскутном процессе, я уже дал ответ в ИИ-2. Просто повторюсь. Надо сосредоточить все усилия наших разработчиков на задаче самого верхнего уровня, на Метаязыке и его тезаурусе. Это именно то, что Людвиг Аристархович назвал AGI. Пока там конь не валялся (см. https://skillbox.ru/media/code/novyy-uroven-iskusstvennogo-intellekta-chto-takoe-agi-kogda-on-poyavitsya-i-kakim-budet/), и можно успеть раньше остального мира. При этом у нас есть забытый задел в виде работ Дмитрия Поспелова. И занимался он именно AGI, если говорить современным языком. А к тезаурусу Метаязыка можно постепенно пристыковывать (точно в нужном месте) все текущие лоскутные разработки на любые темы. Не надо пытаться объять необяное. Секторальных тем (предметных областей) слишком много. Ну и пусть во многих точках нас кто-то обгоняет. Эти разработки можно купить, можно скачать, можно получить на флешке и т.д. Главное, чтобы они нашли свое место в тезаурусе Метаязыка. Но остаётся ещё один крупный пробел, о котором современные разработчики ИИ пока не задумываются. Ближе всех к этому вопросу подобрались, причём на интуитивном уровне, Энн Тыугу и Дмитрий Поспелов. Для себя я эту проблему называю "допустимая логика". Чуть поясню. Одну и ту же болезнь конкретного человека можно лечить по разному, гомеопатией, терапевтически амбулаторно или хирургически в стационаре. Правда некоторые предпочитают экстрасенсов, знахарок и тибетских монахов, но их придётся оставить вне рамок ИИ. Понятно, что допустимых логик в рамках одной и той же предметной области может быть много. Следовательно в иерархии ИИ выше предметной области должен быть блок управления допустимой логикой для конкретной задачи этой области. Глубже пока лезть не будем.

И озаботиться проблемой поиска места России в процессе развития ИИ должны, причём по долгу службы, два человека, вице-премьер Чернышенко и министр Шадаев. Им будет, где развернуться.

agi, Э. Тыугу, вице-премьер Чернышенко, Д. Поспелов, wsj, министр Шадаев, Кристофер Мимс