Закрытие темы полноценного машинного перевода

Aug 07, 2014 18:52

Народ с надеждой смотрит на компьютерщиков - ну когда же наконец они изобретут свой хвалёный искусственный интеллект, чтобы он нам нормально переводил тексты с одного языка на другой, а не так как сейчас, тупо и убого.

Сейчас я вас всех огорчу тем, что докажу, что этого светлого момента не дождёмся ни мы, ни сколь бы то ни было далёкие наши потомки. Докажу, что проблема полноценного перевода не имеет технического решения не зависимо от того, насколько мощно и фантастично развита техника и технология.

Для начала давайте выясним, чем принципиально отличается полноценный перевод от того, что реализуется автоматическими переводчиками. Если рассматривать процесс перевода как «чёрный ящик» (текст на входе, текст на выходе), то ничем. Различия появляются, когда мы вторгаемся вовнутрь «чёрного ящика» и пытаемся разобраться, как он это делает.

Допустим, есть текст Т1 на языке Я1. Его нужно преобразовать в эквивалентный ему по смыслу текст Т2 на языке Я2. Текст - это сигнал, передаваемое из точки А (автор) в точку Ч (читатель). Беда лишь в том, что сигнал читателем не может быть принято потому что знаковой системой Я1 он не владеет. Поэтому нужен переводчик П.

Если переводчиком является человек, то он сначала выступает в роли читателя ПЧ сообщения Т1, извлекает из сообщения информацию, а потом выступает в роли автора ПА сообщения Т2. Таким образом при посредничестве переводчика (П = ПЧ → ПА) читатель Ч получает информацию, отправленную автором А.

Если бы читатель знал язык Я1, сработала бы такая цепочка:
А →[Т1]→ Ч
При посредничестве переводчика получается:
А →[Т1]→ (ПЧ → ПА) →[Т2]→ Ч

Поскольку в данном конкретном случае рассматривается не передача каких-то предметов (например, мешков с цементом или запчастей к автомобилю ВАЗ), именно информации, то необходимо внести маленькое дополнительное уточнение. Согласно сигнал-контекстной теории информации имени меня любимого (см. здесь) информация - это всегда сочетание сигнала и контекста. При этом сигнал - это физический объект или процесс, а контекст - информация о том, как получатель сигнала должен этот сигнал интерпретировать. Взаимодействие между отправителем (автором) и получателем (читателем) сообщения необходимо предполагает наличие общего для них контекста. При этом, в общем-то, не важно, общаются люди или технические системы (например, интернет-браузер с веб-сервером). Успешно общающиеся люди обязательно сообща владеют обсуждаемой темой, и эта тема становится чрезвычайно важной частью контекста передаваемых сообщений. При общении интернет-браузера с веб-сервером важным элементом контекста является протокол HTTP.

Общее владение языком общения также является важным элементом контекста. К сожалению, с этим у А и Ч облом. Нет общего языка. Дырка в общем контексте. Непосредственное общение возможно только невербалкой, если вообще возможно. Поэтому нужно привлечь посредника. Переводчик владеет обеими языками, поэтому он может самим собой заштопать дырку в контексте общения А и Ч.

Обозначим контекст автора как КА, контекст переводчика как КП и контекст читателя как КЧ. Перепишем формулу так, чтобы в ней отдельно фигурировали сигналы (Т1 и Т2) и контексты:
А:(КА, Т1) →[Т1]→ П:(КП, Т1 → Т2) →[Т2]→ Ч:(КЧ, Т2)

Обратите внимание на то, что через каналы связи мы можем передать только сигналы Т. Информация через каналы связи не передаётся. Только сигналы. За счёт того, что изначально есть общность контекста, создаётся впечатление, что информация, имеющаяся у автора (КА + Т1) таким хитрым образом через все перипетии доходит до читателя (КЧ + Т2). Но это иллюзия. Через каналы связи ходят только сигналы, а информацией они становятся при попадании в контекст.

Заметьте, что для того, чтобы получился качественный перевод, переводчик должен обладать полноценным контекстом (КП). Только в этом случае он сможет адекватно итерпретировать сигнал Т1.

Автоматический переводчик не может иметь полноценного контекста, который позволил бы ему внутри себя превратить сигнал в информацию. Он не является существом, живущим в мире людей, и поэтому вынужден оперировать сигналом Т1 механически, не превращая его в информацию.

Допустим, есть такой текст: «В комнате было нечем дышать, нестерпимо хотелось открыть окно». Если переводчик - человек, то он знает, что такое комната, потому что он живёт в комнатах. Он знает, что такое «нечем дышать» потому что он попадал в такие ситуации. Автоматический переводчик не живёт в комнатах. И он вообще не дышит воздухом. Для него и «комната», и «дышать», и «окно» - просто последовательности символов, которые можно только механически преобразовать в другие последовательности символов. Для того, чтобы сравняться с человеком, ему нужно стать существом, живущим в комнатах, дышащим воздухом и открывающим окна не диалоговые, а обычные, наружные. В принципе, столь простую фразу более-менее приемлемо можно перевести и автоматическим переводчиком (для английского языка гуглопереводчик даёт «The room had no air to breathe, unbearably wanted to open the window»), но для получения гарантированно качественного результата переводчик должен быть существом, которе с точки зрения автора является полноценным предполагаемым читателем.

Теоретически, можно изготовить полноценного искусственного переводчика (в конце концов, все мы состоим из атомов, и вопрос лишь в том, что из них слепить). Но для того, чтобы он переводил тексты о путешествиях, он должен быть способен путешествовать. Для того, чтобы переводить тексты о любви, он должен быть способен любить. Чтобы переводить тексты о душевных метаниях, он должен быть способен к душевным метаниям. В результате получаем такое существо, которому нужно выдать паспорт, потому что оно является полноценным гражданином. А стирание такой программы с жёсткого диска приравнять к убийству. Мы готовы понести такие «накладные расходы»? Скорее всего, нет. Вопрос плавно перетекает из чисто технической плоскости в морально-этическую, цивилизационную и даже юридическую плоскость. А уже этот «уровень» вряд ли удастся пройти.

вынос мозга

Previous post Next post
Up