Третья записка из серии #немогумолчать . (Первые две Заратустра пока не позволяет обнародовать. А эту можно.))
У Вадима Шефнера в рассказе «Скромный гений» есть прекрасный образ, с помощью которого хоть в малой мере можно отразить уровень глупости теоретического обоснования последнего проекта DARPA в области ИИ - GAILA. Один из второстепенных героев, инженер Петя, изобретает устройство для вскрытия консервных банок, которое займет целый квартал в центре города. Туда должны приезжать домохозяйки и холостяки, чтобы послушать музыку, сходить в парикмахерскую и т.п., пока многотонный агрегат трудится над тысячами банок, плывущими по конвейерной ленте.
Украшу метафору еще одним штрихом: допуски будут выставлены слишком грубо и на руки клиенты получат перемешанное крошево из продуктов и оболочек.
Что хочет DARPA от нового проекта под названием GAILA (Grounded Artificial Intelligence Language Acquisition)? Формально - положить еще один кирпичик в более масштабный проект AI Next. Фактически - совместить достижения в области распознавания изображений/видео и результаты машинного обучения разнообразных лингво-спикер-ботов.
Таким образом они рассчитывают заменить наборы ситуативных, специализированных словарей/датабаз ситуативными же видео-маркерами (микро-сценариями).
В качестве разъяснения и отчасти теоретического обоснования приводится абсолютно ложная и даже вредительски ложная метафора: дескать, вот так дети научаются речи и языку (in a manner similar to the way children do…).
Ладно. Положим, что результат - даже при заведомо бредовой посылке - может быть вполне конструктивен. В том смысле, что выбор семантических гнезд и грамматических моделей - при формировании программой речевого поведения - получит несколько групп дополнительных косвенных переключателей и регуляторов, что сократит общий путь в 2-3 раза, а время на непродуктивные индексации датабаз (даже с учетом их предварительной ML-дрессуры) уменьшит на порядок.
Еще одним - и важным - плюсом станет создание новых датабаз, где будут собраны многочисленные видеолингвистические соответствия и стандарты микросценариев.
Но ни один из этих положительных результатов ни на йоту не приблизит наш новый псевдо-ИИ к умению отвечать на самый простой и важный вопрос: а в чем смысл этого текста? Этого действия? Этого поведения? Этого фильма, картины и т.п. На самый главный вопрос современного Голливуда и вообще всей медиа-вселенной: че это за Х.У.Й.Н.Я? В смысле - What the fuck?
Почему? Легко объяснить. Чтобы хоть немного соответствовать сопоставлению с человеческим разумом, даже с самым примитивным и неразвитым, надо учесть такую базовую для нашей сапиентности [хрень] штуку, как социальность.
Человеческий мозг думает в качестве социального взаимодействия, из-за социального давления и для решения социальных задач. Иными словами, наш разум принципиально и тотально конфликтен на каждом этапе выбора кратчайшего (или оптимального) пути. Не зная и не понимая природу и механизм этого конфликта, не понимая принципов его постоянного оперативного разрешения с помощью широко понимаемого уподобления (1¹1, черное = стул, белое = стол, черное = белое, 1&1=3 и т.д.), мы никогда не получим мышления. Только счеты.
Надо полагать, DARPA не особенно интересны эти мелочи. Их приоритет в другой плоскости, в бюджетной. Бабло рубят, проще говоря.
Есть огромный пул всевозможных военно-полицейско-шпионских разработчиков, которые до хрена всего полезного сделали в области видеораспознаваний. Есть изрядные достижения в области распознавания ключевых слов и прочих существенных дескрипторов. И есть тяжелая и мутная история переводчиков, ассистентов, спикер-ботов и прочей псевдо-ИИ-шной херни, которую развивают айтишные монстры, Эппл-Гугл-Амазон-Яндекс и т.п.
Вот все, что касается сугубой технологии и математики - получается прекрасно. И можно с орбиты разглядеть букашку. И можно понять, что она арабская и была внесена в списки особо разыскиваемых еще 30 лет назад. И можно услышать, что она упоминает ВВ. И можно направить на нее умный дроно-коптер. И стереть из списков. А если целевая букашка при минимальной коррекции прически распознается как апельсин, а стадо мирных жуков распознается как орда букашкиных братьев - не страшно. Даже у высокоточного оружия есть свои допуски и люфты))
Но вот то, что относится к пониманию устройства сознания и языка - с этим глухо. Тупик. Причем безнадежный. И монстры не первый год привычно вбухивают средства в бессмысленное обустройство этого тупика. Так что DARPA хочет убить полтора зайца: дать заработать своим, «визуалам», и наебать чужих, т.е. обойтись без их хитровымудренной лингвистики, поскольку монстры сожрут любые бюджеты и попросят еще.
В каком-то мартовском интервью Валери Браунинг, одна из дарповских говорящих голов, заявила, что агентство желает получить ИИ со здравым смыслом (чтоб не путать букашку с апельсином) и со способностью к общению (чтобы обсудить принципиальные отличия жуков и букашек).
Это, вообще-то, два конфликтующих процесса/свойства, которые у человека примиряются/уравновешиваются гигантскими объемами ментального мусора, что проходит по департаменту Фрейда-Адлера-Сербского и т.п. Зачем тащить весь этот непроизводительный массив плохо работающих предохранителей и блокираторов в ИИ?
Ладно, сумма заблуждений суммы наук о человеческом разуме копилась очень долго и уж никак не DARPA виновна в том, что целеустремленно бегает по заранее обустроенным ложным путям. Ну нет своих мозгов и не надо. Хорошо работать и много зарабатывать это, как показывает жизнь, совершенно не мешает.