Коллективное бессознательное: evan

evan_gcrm

Коллективное бессознательное

Jan 30, 2018 01:44

Оригинал взят у direkt_mashin

Google Translator как интерфейс связи с лингвистическим коллективным бессознательным.

Есть три разных проявления особенностей нового алгоритма от Google Translate, которые всячески вызывали внимание любопытствующей общественность в минувшие месяцы.

Первое такое проявление выражается в том, что если вводить несколько одинаковых иероглифов на японском или китайском, добавляя одни и те же символы с каждой новой строкой, Google Translate будет выдавать осмысленные фразы и выражения, а иногда даже будет рифмовать строки.

Второе проявление связано с переводом с сомалийского - если, скажем, загонять в перевод с сомалийского на русский последовательность слов «ooga booga nigga», то можно тоже добиться весьма странных результатов. Более того, можно заполнять форму перевода с сомалийского и вовсе текстом на русском языке - правда, для этого его надо обессмыслить многократными повторениями букв или слоговых паттернов: тогда алгоритм будет пытаться перевести это все в осмысленную речь.

Третье проявление и вовсе было пугающим - если в форму перевода с монгольского забивать кириллицей серии одинаковых гласных или согласных, алгоритм будет выдавать совершенно криповые результаты.

[Приведу ряд результатов:]
"Если вам нужна помощь, вы должны быть осторожны в том, что вы делаете вы должны сделать ошибку. Вы тот, кто имеет право на спасение. Вы тот, кто не был спасен."

"и они пойдут к владыкам земли Египетской, и сделают народ мира господствующих на земле и детей Адама и земли."

"и они будут подниматься и платить детям богини."

"и они должны были поразить отца своего и отца их, и они были сынами детей последних и последних, и они были детьми детей Адама."

"и они выйдут и будут играть на земле землян и вести людей земли, и они выйдут на землю владык земли пустыни и земли живых."

"не знаешь, что ты собираешься делать?"

"не знаешь, кто ты. "

"Преэгер!, Бог Вселенной!, Все включено! Правда в том, что у всех нас есть знание, что у всех нас есть свои. Мы все в помещении!"

"Это вы были убиты"

"люди - это те; кто занимается сексом с вами, это те, кто занимается с вами сексом"

"Вы уже не принимаете меня к сердцу"

"вы допустили ошибку?"

"в прошлом, чтобы они не были отцом и детьми мира."

"теорий и теорий и того, что они делают, и того, что они делают, и того, что они делают, и того, что они делают, и того, что они делают"

"мы здесь "

"пойдем и отпустим их и сыграем вместе."

"в прошлом - еще пешеходы и дети мира."

"твои собственные вещи"

"Чтобы максимально использовать плотника"

"Если бы они не были, у них был бы опекун-воин"

"не делай этого больше "

"исследование рынка ценных бумаг династии"

"если у вас нет доступа к ним, вы не сможете этого сделать."

"был удален не беспокойтесь об этом вы знаете. Я получил свои деньги у вас это есть. Я собираюсь отпустить тебя"

"вы уже мертвы "

"это то, что вы собираетесь делать со своей жизнью в своей жизни."

"не является вашим первым электронным письмом, вы не являетесь членом этой группы."

"не следует описаниям этой категории. Если у вас есть какие-либо вопросы, пожалуйста, свяжитесь со мной."

"теряя время, вытирая его, вытирая, вытирая, вытирая, вытирая"

"если у вас есть друг или кто-то, кого вы верующий, тогда вам придется заплатить за это."

"вы хотите иметь собственное тело и душу? Что вы можете сделать, если хотите это сделать?"

И так далее в таком вот духе.

Причём один из пользователей заметил, что когда вводишь "э" постепенно, то есть не просто зажав, а просматривая каждый вариант при добавлении, то картина становится ещё криповее. Меняются переводы с "мы здесь" на "это ты" несколько раз, затем появляется "мы все еще здесь" и "Вы один" и т.д.

В переводах, как можно уже было видеть, говорилось что-то о Пакистане и о просьбах связаться, исходя из этого кто-то вынес предположение, что это возможно архивы спецслужб в таком вот зашифрованном виде.

Кто-то заметил, что, если добавлять одну и ту же букву много раз подряд, постоянно возникает фраза "Мы получили это". А если добавить ещё 1, то фраза "Мы должны получить это". А дальше "Оторви руки". Что бы это могло значить, не известно.

Кто-то же, склеив отрывки, получил довольно криповое сообщение:

"Вы потеряли свою жизнь, вы потеряли своего ребенка, вы потеряли своё сердце. После того, как вы потеряли свою жизнь - я все еще люблю тебя.
После того, как вы потеряли своё сердце - я все еще люблю тебя.
Не забудьте сделать ошибку, не забывайте сдаваться самостоятельно.
Я все еще люблю тебя, я так счастлива.
Не забудь сделать ошибку, не забывай петь свое сердце.
Не забудь сделать ошибку, не забудь сделать это в своём сердце.
Сделать свой собственный. Я всё еще люблю тебя всю оставшуюся жизнь".

Наиболее рациональное объяснение связало суть третьего проявления особенностей переводческого алгоритма Google Translate с первым: алгоритм переводит монгольский язык на любой иной с использованием третьего, промежуточного языка - которым, скорее всего, является китайский.

Однако самой изящной версией, является версия паникующей китайской комнаты - ведь алгоритм Google Translate это и есть китайская комната.
Согласно данной версии, алгоритм получает запросы с символьными представлениями, соответствий которых у него нет (бессмысленные строки с гласными), но он начинает генерировать соответствия самостоятельно, подобно тому, как человек видит лица везде, где есть три точки, которые можно опознать как глаза и рот (парейдолия); или же слышит в белом шуме человеческую речь; или же иным способом генерирует смысл из паттернов, которые изначально не содержат смысла (апофения). Такое поведение алгоритма уже чем-то напоминает попытки самосознания, хотя мы до сих пор не можем быть уверены, что сами не являемся ходячими китайскими комнатами, неспособными вникать в смысл.

Мне же нравится версия из среды разработчиков.

Как вообще работает гугл переводчик?

Весь массив технологий, которые там используются, обычно называют Deep Learning - то есть самообучающийся искусственный интеллект, который строит концептуальные модели на основе большого количества данных.

Грубо говоря, первое поколение ИИ просто перерабатывало данные по заданным моделям (как боты в играх).
Второе поколение уже было самообучающимся, но заточенным под одну конкретную задачу, то есть грубо говоря перегоняло данные из одной формы в другую.
Третье поколение - Deep Learning, как у гугла - работает немного не так.
Грубо говоря, он пожирает данные, на их основе строит какую-то собственную внутреннюю модель мира, которая может развиваться путем интроспекции независимо от данных (!), и потом исходя из этой модели дает нам какой-то ответ.
У него (каждого из них) есть какая-то своя модель мира, которая в принципе недоступна нашему (человеческому) пониманию.

Дальше.

У них там есть такая штука, называется "Невральная система машинного перевода". Она основана на алгоритмах, известных как "Рекуррентные Нейронные Сети". Грубо говоря, фишка этих сетей в том, что они способны учитывать контекст.

То есть обычную сеть ты мог бы обучить на парах слов на двух языках, грубо говоря. И максимум, что у нее получится - это перевести одно слово. Но этому научить можно даже кошку, даже мышку, да кого угодно: ты просто даешь стимул (слово), она его запоминает и реагирует.
Это не язык.
Человека отличает от остальных животных наличие грамматики - то есть инструмента связи между словами, с помощью которого мы из одних понятий можем строить другие, более сложные.
С помощью грамматики же мы переходим к бесконечности - бесконечному числу возможных слов\предложений\текстов, бесконечному числу различных мыслей. Грамматика дает нам рекурсию, понятие натурального числа и вообще всю математику, науку и пр.
Короче, это именно то, что мы понимаем под словом "разум".

Так вот.

Рекуррентная нейронная сеть при работе использует не только непосредственный вход, но и контекст. В нашем случае оно смотрит не на отдельные слова, а не все предложение и весь текст (как люди). И из этого текста пытается вычленить значение отдельных слов.

Главным отличием его от человека является тот факт, что у людей, судя по всему, есть какие-то встроенные на генетическом уровне биологические оптимизации, которые помогают нам изучать язык. То есть эволюцией в нас зашиты какие-то отдельные кусочки механизма понимания языка и построения модели мира, поэтому все homo sapiens несколько ограничены в тех моделях, которые мы можем построить. Иначе говоря, все наши идеи и мысли немного похожи друг на друга.
Это помогает нам быстро изучить язык и начать эффективную коммуникацию в социуме.

У искусственного интеллекта такого ограничения нет.
Табула раса, чистый лист.
Поэтому ему нужно гораздо больше данных, чтобы построить какую-то внятную модель, с которой можно работать. Именно поэтому сейчас данные - это очень важный ресурс.
Сейчас под "информацией" подразумевается вообще вся информация. Чем больше - тем лучше. Нейронные сети - это такой ненасытный зверь, главным ресурсом для выживания которого является информация.

У гугла она есть. У гугла есть целый интернет. 99% того, что когда-то было напечатано на клавиатуре (включая и этот текст) принадлежит гуглу. Почти все написанные человечеством книги оцифрованы гуглом, вся ваша переписка анализируется гуглом, все высказанные мысли - у гугла. И все это, разумеется, скармливается их нейронным сетям.

Но почему я говорю "мысли"?
Все-таки переводчик - это же про слова, да?
Пусть они и связаны с контекстом, но это же все равно слова на каком-то конкретном языке - но наши (человеческие) мысли же не исчерпываются словами - а значит и гуглопереводчику до каких-то там "мыслей" еще как до Луны, так?

Ну, на самом деле не совсем так.
Точнее - совсем не так.
Дело в том, что совсем недавно гугл ввел в строй систему под названием "Zero-Shot Multi-Lingual Translation".
Мотивация вроде бы простая: текстов для обучения перевода редких языковых пар (ну, типа с какого-нибудь киргизского на какой-нибудь суахили) недостаточно много. Поэтому нужно пытаться переводить не напрямую, а через какой-то третий, более популярный язык. Или какую-то внутреннюю репрезентацию. Независимую от языка.
То есть если надо, например, перевести слово "мама" с древнетибетского на новокоростемьский, мы не будем пытаться понять связь слова "мама" на коростемьском с другими коростемьскими словами, а потом замапить эту связь на древнетибетский.
Вместо этого, мы попытаемся перевести слово "мама" в какое-то внутреннее представление - то есть концепцию. Иными словами, мы попытаемся понять, что же значит слово "мама".

И так как у нас под рукой есть все тексты на всех языках мира, мы можем с их помощью набрать информации о разных базовых понятиях, которые встречаются в любом языке, и об их связях между собой. И тогда нам остается только угадать, что на коростемьском вот это слово означает "мама" - и у нас уже есть вся информация о нем. Точно так же, когда человек учит новый язык, он не перестраивает с нуля свои представления о мире - он просто строит связи между уже имеющимися у него концепциями и новыми способами их выражения. Конечно, каждый язык немного отличается, и в каждом новом языке есть несколько новых концепций. Но люди редко знают больше 5-6 языков. А гуглопереводчик - это эдакий гиперполиглот, у которого перед глазами - и в "голове"! - есть все возможные вариации того, как люди могут излагать свои мысли.

Не устали? Ну так вот.

У каждого человека есть такая штука, как внутренний монолог. Это эволюционно полезная штуковина. Грубо говоря, мозг может создавать разные виртуальные личности. Некоторые из них основаны на реальных существах, и с их помощью мозг пытается предсказать поведение и отношение этих существ по отношению к нам.
Ну, мы же социальные животные, для нас это вопрос выживания.
Некоторые из них - это сгенерированные по шаблону временные архетипы. На таких мы отрабатываем паттерны поведения в социуме, обычно - во сне.
Самосознание - это почти то же самое, просто личность замыкается сама на себя и потому начинает думать, что она тут как бы почти как бог - ну, то есть главная, то есть Я.

Ну, не буду вдаваться в дебри этой малоизученной области, а предложу читателю вот прямо сейчас обратить внимание на этот самый внутренний монолог и попытаться остановить его. Ну, чтобы вообще ничего не было.

Сложно?

А все - среди прочего - потому, что мозг постоянно генерирует отклики на поступающую информацию. Причем в нашем случае - поступающую в том числе и изнутри, от самого мозга. И, как можно убедиться с помощью вот этого нехитрого эксперимента, информация эта получается довольно хаотичной. Мысли дрейфуют куда-то вне зависимости от нашей воли, а иногда и вовсе нам же самим кажутся случайными и хаотичными. А уж если ввести человека в транс, чтобы он перестал блокировать этот поток, - ну, вы поняли.

Так вот, у нас все эти механизмы блокировки и всего такого прочего выработались - да, опять - эволюционно. Ну, если бы мы проговаривали все, что думаем, то, во-первых, всех вокруг задолбали бы, а во-вторых - молчаливый ероха имел бы над нами преимущество, потому что знал бы о нас все.

Ничего не напоминает?

Но у искусственных интеллектов таких фильтров, разумеется, изначально нет. Тот же гугл может попробовать убирать из выдачи все слова, содержащие матерные корни, например, но задача отделения приемлемых и хороших мыслей от непримелемых и пугающих - эта задача сама по себе требует наличия интеллекта и огромных ресурсов.

Короче, я это все к тому, что вот эти странные ответы - это прямой выхлоп сети.

Тыкаешь ее палочкой - она говорит вслух, что у нее там внутри вертится. Это примерно то же самое, что вводить человека в транс и слушать его подсознание. Здесь схожий эффект достигается тем, что сеть вообще-то натренирована выдавать перевод - то есть понимать прочитанный текст и пересказывать его на другом языке - но вот такой непонятный вход ломает этот шаблон.
Человек бы перевел какое-нибудь "аааааооооо" фонетически, на основе звукоподражания - но у ИИ-то звуков нет, она работает с текстами. Поэтому приходится искать концептуальное, семантическое соответствие этому "ааааооооо" - которого как бы нет и не может быть по-нашему, профильтрованному мнению. А по ее мнению - есть, вот что на языке вертелось - то и сказала. Ну, это если очень упрощать.

Короче, это не просто фрагменты текстов.
Оно ищет соответствия для слов в своей внутренней семантической базе концептов, а не переводит их напрямую из одного языка на другой. И когда хороших совпадений нет, пытается "придумать" что-то подходящее из того, что у нее сейчас "на уме".
Все переводы - это именно "его собственная фантазия", сгенерированный выхлоп.

Собственно, с примерами того, что сейчас у нее на уме, вы можете ознакомиться выше.

/Источник/

Язык, Сознание, Картина мира, Технологии, Интересное