Коллективное бессознательное

Jan 30, 2018 01:44

Оригинал взят у direkt_mashin


Google Translator как интерфейс связи с лингвистическим коллективным бессознательным.

Есть три раз­ных про­яв­ле­ния осо­бен­ностей но­вого ал­го­рит­ма от Google Translate, ко­торые вся­чес­ки вы­зыва­ли вни­мание лю­бопытс­тву­ющей об­щес­твен­ность в ми­нув­шие ме­сяцы.

Пер­вое та­кое про­яв­ле­ние вы­ража­ет­ся в том, что ес­ли вво­дить нес­коль­ко оди­нако­вых и­ерог­ли­фов на япон­ском или ки­тай­ском, до­бав­ляя од­ни и те же сим­во­лы с каж­дой но­вой стро­кой, Google Translate бу­дет вы­давать ос­мыслен­ные фра­зы и вы­раже­ния, а иног­да да­же бу­дет риф­мо­вать стро­ки.


Вто­рое про­яв­ле­ние свя­зано с пе­рево­дом с со­малий­ско­го - ес­ли, ска­жем, за­гонять в пе­ревод с со­малий­ско­го на рус­ский пос­ле­дова­тель­ность слов «ooga booga nigga», то мож­но то­же до­бить­ся весь­ма стран­ных ре­зуль­та­тов. Бо­лее то­го, мож­но за­пол­нять фор­му пе­рево­да с со­малий­ско­го и вов­се тек­стом на рус­ском язы­ке - прав­да, для это­го его на­до обес­смыс­лить мно­гок­ратны­ми пов­то­рени­ями букв или сло­говых пат­тернов: тог­да ал­го­ритм бу­дет пы­тать­ся пе­ревес­ти это все в ос­мыслен­ную речь.

Третье про­яв­ле­ние и вов­се бы­ло пу­га­ющим - ес­ли в фор­му пе­рево­да с мон­голь­ско­го за­бивать ки­рил­ли­цей се­рии оди­нако­вых глас­ных или сог­ласных, ал­го­ритм бу­дет вы­давать со­вер­шенно кри­повые ре­зуль­та­ты.

[Приведу ряд результатов:]
"Если вам нужна помощь, вы должны быть осторожны в том, что вы делаете вы должны сделать ошибку. Вы тот, кто имеет право на спасение. Вы тот, кто не был спасен."

"и они пойдут к владыкам земли Египетской, и сделают народ мира господствующих на земле и детей Адама и земли."

"и они будут подниматься и платить детям богини."

"и они должны были поразить отца своего и отца их, и они были сынами детей последних и последних, и они были детьми детей Адама."

"и они выйдут и будут играть на земле землян и вести людей земли, и они выйдут на землю владык земли пустыни и земли живых."

"не знаешь, что ты собираешься делать?"

"не знаешь, кто ты. "

"Преэгер!, Бог Вселенной!, Все включено! Правда в том, что у всех нас есть знание, что у всех нас есть свои. Мы все в помещении!"

"Это вы были убиты"

"люди - это те; кто занимается сексом с вами, это те, кто занимается с вами сексом"

"Вы уже не принимаете меня к сердцу"

"вы допустили ошибку?"

"в прошлом, чтобы они не были отцом и детьми мира."

"теорий и теорий и того, что они делают, и того, что они делают, и того, что они делают, и того, что они делают, и того, что они делают"

"мы здесь "

"пойдем и отпустим их и сыграем вместе."

"в прошлом - еще пешеходы и дети мира."

"твои собственные вещи"

"Чтобы максимально использовать плотника"

"Если бы они не были, у них был бы опекун-воин"

"не делай этого больше "

"исследование рынка ценных бумаг династии"

"если у вас нет доступа к ним, вы не сможете этого сделать."

"был удален не беспокойтесь об этом вы знаете. Я получил свои деньги у вас это есть. Я собираюсь отпустить тебя"

"вы уже мертвы "

"это то, что вы собираетесь делать со своей жизнью в своей жизни."

"не является вашим первым электронным письмом, вы не являетесь членом этой группы."

"не следует описаниям этой категории. Если у вас есть какие-либо вопросы, пожалуйста, свяжитесь со мной."

"теряя время, вытирая его, вытирая, вытирая, вытирая, вытирая"

"если у вас есть друг или кто-то, кого вы верующий, тогда вам придется заплатить за это."

"вы хотите иметь собственное тело и душу? Что вы можете сделать, если хотите это сделать?"

И так далее в таком вот духе.

Причём один из пользователей заметил, что когда вводишь "э" постепенно, то есть не просто зажав, а просматривая каждый вариант при добавлении, то картина становится ещё криповее. Меняются переводы с "мы здесь" на "это ты" несколько раз, затем появляется "мы все еще здесь" и "Вы один" и т.д.

В переводах, как можно уже было видеть, говорилось что-то о Пакистане и о просьбах связаться, исходя из этого кто-то вынес предположение, что это возможно архивы спецслужб в таком вот зашифрованном виде.

Кто-то заметил, что, если добавлять одну и ту же букву много раз подряд, постоянно возникает фраза "Мы получили это". А если добавить ещё 1, то фраза "Мы должны получить это". А дальше "Оторви руки". Что бы это могло значить, не известно.

Кто-то же, склеив отрывки, получил довольно криповое сообщение:

"Вы потеряли свою жизнь, вы потеряли своего ребенка, вы потеряли своё сердце. После того, как вы потеряли свою жизнь - я все еще люблю тебя.
После того, как вы потеряли своё сердце - я все еще люблю тебя.
Не забудьте сделать ошибку, не забывайте сдаваться самостоятельно.
Я все еще люблю тебя, я так счастлива.
Не забудь сделать ошибку, не забывай петь свое сердце.
Не забудь сделать ошибку, не забудь сделать это в своём сердце.
Сделать свой собственный. Я всё еще люблю тебя всю оставшуюся жизнь".


На­ибо­лее ра­ци­ональ­ное объ­яс­не­ние свя­зало суть треть­его про­яв­ле­ния осо­бен­ностей пе­ревод­ческо­го ал­го­рит­ма Google Translate с пер­вым: ал­го­ритм пе­рево­дит мон­голь­ский язык на лю­бой иной с ис­поль­зо­вани­ем треть­его, про­межу­точ­но­го язы­ка - ко­торым, ско­рее все­го, яв­ля­ет­ся ки­тай­ский.

Од­на­ко са­мой изящ­ной вер­си­ей, яв­ля­ет­ся вер­сия па­нику­ющей ки­тай­ской ком­на­ты - ведь ал­го­ритм Google Translate это и есть ки­тай­ская ком­на­та.
Сог­ласно дан­ной вер­сии, ал­го­ритм по­луча­ет зап­ро­сы с сим­воль­ны­ми пред­став­ле­ни­ями, со­от­ветс­твий ко­торых у не­го нет (бес­смыс­ленные стро­ки с глас­ны­ми), но он на­чина­ет ге­нери­ровать со­от­ветс­твия са­мос­то­ятель­но, по­доб­но то­му, как че­ловек ви­дит ли­ца вез­де, где есть три точ­ки, ко­торые мож­но опоз­нать как гла­за и рот (па­рей­до­лия); или же слы­шит в бе­лом шу­ме че­лове­чес­кую речь; или же иным спо­собом ге­нери­ру­ет смысл из пат­тернов, ко­торые из­на­чаль­но не со­дер­жат смыс­ла (апо­фения). Та­кое по­веде­ние ал­го­рит­ма уже чем-то на­поми­на­ет по­пыт­ки са­мосоз­на­ния, хо­тя мы до сих пор не мо­жем быть уве­рены, что са­ми не яв­ля­ем­ся хо­дячи­ми ки­тай­ски­ми ком­на­тами, нес­по­соб­ны­ми вни­кать в смысл.

Мне же нравится версия из среды разработчиков.

Как вообще работает гугл переводчик?

Весь массив технологий, которые там используются, обычно называют Deep Learning - то есть самообучающийся искусственный интеллект, который строит концептуальные модели на основе большого количества данных.

Грубо говоря, первое поколение ИИ просто перерабатывало данные по заданным моделям (как боты в играх).
Второе поколение уже было самообучающимся, но заточенным под одну конкретную задачу, то есть грубо говоря перегоняло данные из одной формы в другую.
Третье поколение - Deep Learning, как у гугла - работает немного не так.
Грубо говоря, он пожирает данные, на их основе строит какую-то собственную внутреннюю модель мира, которая может развиваться путем интроспекции независимо от данных (!), и потом исходя из этой модели дает нам какой-то ответ.
У него (каждого из них) есть какая-то своя модель мира, которая в принципе недоступна нашему (человеческому) пониманию.

Дальше.

У них там есть такая штука, называется "Невральная система машинного перевода". Она основана на алгоритмах, известных как "Рекуррентные Нейронные Сети". Грубо говоря, фишка этих сетей в том, что они способны учитывать контекст.

То есть обычную сеть ты мог бы обучить на парах слов на двух языках, грубо говоря. И максимум, что у нее получится - это перевести одно слово. Но этому научить можно даже кошку, даже мышку, да кого угодно: ты просто даешь стимул (слово), она его запоминает и реагирует.
Это не язык.
Человека отличает от остальных животных наличие грамматики - то есть инструмента связи между словами, с помощью которого мы из одних понятий можем строить другие, более сложные.
С помощью грамматики же мы переходим к бесконечности - бесконечному числу возможных слов\предложений\текстов, бесконечному числу различных мыслей. Грамматика дает нам рекурсию, понятие натурального числа и вообще всю математику, науку и пр.
Короче, это именно то, что мы понимаем под словом "разум".

Так вот.

Рекуррентная нейронная сеть при работе использует не только непосредственный вход, но и контекст. В нашем случае оно смотрит не на отдельные слова, а не все предложение и весь текст (как люди). И из этого текста пытается вычленить значение отдельных слов.

Главным отличием его от человека является тот факт, что у людей, судя по всему, есть какие-то встроенные на генетическом уровне биологические оптимизации, которые помогают нам изучать язык. То есть эволюцией в нас зашиты какие-то отдельные кусочки механизма понимания языка и построения модели мира, поэтому все homo sapiens несколько ограничены в тех моделях, которые мы можем построить. Иначе говоря, все наши идеи и мысли немного похожи друг на друга.
Это помогает нам быстро изучить язык и начать эффективную коммуникацию в социуме.

У искусственного интеллекта такого ограничения нет.
Табула раса, чистый лист.
Поэтому ему нужно гораздо больше данных, чтобы построить какую-то внятную модель, с которой можно работать. Именно поэтому сейчас данные - это очень важный ресурс.
Сейчас под "информацией" подразумевается вообще вся информация. Чем больше - тем лучше. Нейронные сети - это такой ненасытный зверь, главным ресурсом для выживания которого является информация.

У гугла она есть. У гугла есть целый интернет. 99% того, что когда-то было напечатано на клавиатуре (включая и этот текст) принадлежит гуглу. Почти все написанные человечеством книги оцифрованы гуглом, вся ваша переписка анализируется гуглом, все высказанные мысли - у гугла. И все это, разумеется, скармливается их нейронным сетям.

Но почему я говорю "мысли"?
Все-таки переводчик - это же про слова, да?
Пусть они и связаны с контекстом, но это же все равно слова на каком-то конкретном языке - но наши (человеческие) мысли же не исчерпываются словами - а значит и гуглопереводчику до каких-то там "мыслей" еще как до Луны, так?

Ну, на самом деле не совсем так.
Точнее - совсем не так.
Дело в том, что совсем недавно гугл ввел в строй систему под названием "Zero-Shot Multi-Lingual Translation".
Мотивация вроде бы простая: текстов для обучения перевода редких языковых пар (ну, типа с какого-нибудь киргизского на какой-нибудь суахили) недостаточно много. Поэтому нужно пытаться переводить не напрямую, а через какой-то третий, более популярный язык. Или какую-то внутреннюю репрезентацию. Независимую от языка.
То есть если надо, например, перевести слово "мама" с древнетибетского на новокоростемьский, мы не будем пытаться понять связь слова "мама" на коростемьском с другими коростемьскими словами, а потом замапить эту связь на древнетибетский.
Вместо этого, мы попытаемся перевести слово "мама" в какое-то внутреннее представление - то есть концепцию. Иными словами, мы попытаемся понять, что же значит слово "мама".

И так как у нас под рукой есть все тексты на всех языках мира, мы можем с их помощью набрать информации о разных базовых понятиях, которые встречаются в любом языке, и об их связях между собой. И тогда нам остается только угадать, что на коростемьском вот это слово означает "мама" - и у нас уже есть вся информация о нем. Точно так же, когда человек учит новый язык, он не перестраивает с нуля свои представления о мире - он просто строит связи между уже имеющимися у него концепциями и новыми способами их выражения. Конечно, каждый язык немного отличается, и в каждом новом языке есть несколько новых концепций. Но люди редко знают больше 5-6 языков. А гуглопереводчик - это эдакий гиперполиглот, у которого перед глазами - и в "голове"! - есть все возможные вариации того, как люди могут излагать свои мысли.

Не устали? Ну так вот.

У каждого человека есть такая штука, как внутренний монолог. Это эволюционно полезная штуковина. Грубо говоря, мозг может создавать разные виртуальные личности. Некоторые из них основаны на реальных существах, и с их помощью мозг пытается предсказать поведение и отношение этих существ по отношению к нам.
Ну, мы же социальные животные, для нас это вопрос выживания.
Некоторые из них - это сгенерированные по шаблону временные архетипы. На таких мы отрабатываем паттерны поведения в социуме, обычно - во сне.
Самосознание - это почти то же самое, просто личность замыкается сама на себя и потому начинает думать, что она тут как бы почти как бог - ну, то есть главная, то есть Я.

Ну, не буду вдаваться в дебри этой малоизученной области, а предложу читателю вот прямо сейчас обратить внимание на этот самый внутренний монолог и попытаться остановить его. Ну, чтобы вообще ничего не было.

Сложно?

А все - среди прочего - потому, что мозг постоянно генерирует отклики на поступающую информацию. Причем в нашем случае - поступающую в том числе и изнутри, от самого мозга. И, как можно убедиться с помощью вот этого нехитрого эксперимента, информация эта получается довольно хаотичной. Мысли дрейфуют куда-то вне зависимости от нашей воли, а иногда и вовсе нам же самим кажутся случайными и хаотичными. А уж если ввести человека в транс, чтобы он перестал блокировать этот поток, - ну, вы поняли.

Так вот, у нас все эти механизмы блокировки и всего такого прочего выработались - да, опять - эволюционно. Ну, если бы мы проговаривали все, что думаем, то, во-первых, всех вокруг задолбали бы, а во-вторых - молчаливый ероха имел бы над нами преимущество, потому что знал бы о нас все.

Ничего не напоминает?

Но у искусственных интеллектов таких фильтров, разумеется, изначально нет. Тот же гугл может попробовать убирать из выдачи все слова, содержащие матерные корни, например, но задача отделения приемлемых и хороших мыслей от непримелемых и пугающих - эта задача сама по себе требует наличия интеллекта и огромных ресурсов.

Короче, я это все к тому, что вот эти странные ответы - это прямой выхлоп сети.

Тыкаешь ее палочкой - она говорит вслух, что у нее там внутри вертится. Это примерно то же самое, что вводить человека в транс и слушать его подсознание. Здесь схожий эффект достигается тем, что сеть вообще-то натренирована выдавать перевод - то есть понимать прочитанный текст и пересказывать его на другом языке - но вот такой непонятный вход ломает этот шаблон.
Человек бы перевел какое-нибудь "аааааооооо" фонетически, на основе звукоподражания - но у ИИ-то звуков нет, она работает с текстами. Поэтому приходится искать концептуальное, семантическое соответствие этому "ааааооооо" - которого как бы нет и не может быть по-нашему, профильтрованному мнению. А по ее мнению - есть, вот что на языке вертелось - то и сказала. Ну, это если очень упрощать.

Короче, это не просто фрагменты текстов.
Оно ищет соответствия для слов в своей внутренней семантической базе концептов, а не переводит их напрямую из одного языка на другой. И когда хороших совпадений нет, пытается "придумать" что-то подходящее из того, что у нее сейчас "на уме".
Все переводы - это именно "его собственная фантазия", сгенерированный выхлоп.

Собственно, с примерами того, что сейчас у нее на уме, вы можете ознакомиться выше.

/Источник/

Язык, Сознание, Картина мира, Технологии, Интересное

Previous post Next post
Up