Машинный перевод против человека: Good Omens / Благие знамения

Jun 11, 2019 19:43

В прошлый раз я сравнила результат машинного перевода Яндекс-переводчика (лучшего бесплатного переводчика англ->ру; Гугловский отстаёт незначительно) с плохим художественным переводом профессионала-человека - фрагментов первой книги "Котов-воителей". Я считаю, мне удалось показать, что машинный перевод дорос до уровня человека, пускай нижнего, но ( Read more... )

машинный перевод, переводы

Leave a comment

z_kir June 13 2019, 12:52:41 UTC
The whole business with the fossilized dinosaur skeletons was a joke the paleontologists haven’t seen yet.
Вся история с окаменелыми скелетами динозавров была шуткой, которую палеонтологи еще не видели

Интересно, что яндекс смог правильно перевести "бизнес", который белковые переводчики предпочли просто пропустить, но провалился с шуткой.
Проверил Гугл, он буквально переводит "Весь бизнес с окаменелыми ..."

Business=история.

"Доводы" могло быть неплохо, но Филлипов провалился со структурой фразы. Доводы -- не розыгрыш, розыгрыш -- сами окаменевшие скелеты.

Все доводы насчет окаменевших скелетов динозавров -- просто розыгрыш, который еще не раскусили палеонтологи.

Reply

katemare June 13 2019, 13:41:09 UTC
Да, они теперь наоборот - иногда видят идиомы там, где их нет. Это будет в следующем посте.

Reply

o_iv June 13 2019, 18:21:20 UTC
Эх... Была в древности такая переводилка... Babelfish от Altavista (ага, отсылка к HHGTTG). Она до сих пор как-то работает, но там куда-то делся перевод на русский, вроде одно время был ( ... )

Reply

o_iv June 13 2019, 18:30:39 UTC
PPS: хохмы ради скормил яндексу фразу из HHGTTG...
"almost, but not quite, totally unlike tea"
Яндекс показал наглядно, что качество перевода вашего куска - это просто шутка RNGesus'а:
"почти, но не совсем, в отличие от чая"
Перевести "totally unlike" как "в отличие от" - это достойно худших переводчиков, с которыми доводилось работать. Даже Промт бы так не облажался!
PPPS: Гуглопереводилка облажалась ровно также... Они друг у друга баги воруют... :-(

Reply

z_kir June 14 2019, 09:41:51 UTC
Похоже, гуглояндексы в какой-то момент начали работать по принципу translation memory по базе параллельных текстов. Отсюда "перевод [яндекса] полностью совпадает с Юркан". Поэтому сравнение автоматического перевода с существующими человеческими может быть не вполне корректно. Он их знает и от них отталкивается.

Archbishop James Ussher (1580-1656) published Annales Veteris et Novi Testamenti in 1654, which suggested that the Heaven and the Earth were created in 4004 B.C.
Гугл для этой фразы дает правильный перевод.

Архиепископ Джеймс Ашер (1580-1656) опубликовал «Анналы Ветерис и Нови Тестаменти» в 1654 году, в котором предполагалось, что Небо и Земля были созданы в 4004 году до нашей эры.

Причем догадался Анналы заключит в кавычки! Что это, искусственный интеллект или база параллельных текстов?

Чтобы заменить формально-грамматически правильный "который" на "в котором", нужно иметь в наличии образец:
X published Y which suggested Z --> X опубликовал Y в котором предположил Z

Reply

katemare June 14 2019, 09:45:36 UTC
Вся технология современного машинного перевода отталкивается от того, что ИИ показывают очень много пар оригинал-перевод и заставляют учиться, так что сравнивать можно или, скорее, придётся.

Если бы машинный перевод просто выдал почти точную копию одного из переводов людей или перемешанные решения из трёх версий, то я бы не стала проводить такое сравнение. Но здесь видны многие "собственные" решения, даже если можно рассудить, что они взяты из других человеческих переводов. С другой стороны - а люди-переводчики откуда берут свои решения? Как-то так же.

P.S. Насчёт параллельных текстов... Некоторые фразы из синтаксических похожих языков (а русский и английский не настолько далеки) можно перевести "каноническим" образом, и они могут совпасть и у нескольких переводчиков-людей. Например, здесь я сравнила свой перевод "Мемуаров бывшего раба" с дореволюционным переводом, о котором на момент своего перевода не знала. И в них тоже есть один общий кусок.

Reply

z_kir June 14 2019, 14:29:54 UTC
Обучение тоже разное бывает, ПРОМТу тоже много чего показывали, а толку ноль. Учиться можно либо простой подстановке шаблонов, а можно чему-то более абстрактному.

Провел небольшой эксперимент. Проверил гугл и яндекс на фразы, которые мы здесь обсуждаем.

Гугл.

God's ways are past finding out. --> Божьи пути уже не знают.
Полный провал.

God works in mysterious ways. --> Пути господни неисповедимы.
Распознавание идиомы.

Яндекс:

God's ways are past finding out. --> Божьи пути неисследимы.
Правильно распознал рим 11:33, поэтому неисследимы (правильно).

God works in mysterious ways -->Бог действует таинственными путями.
Буквальный перевод, "идиому" не распознал. works -- действует. (правильно). Непонятно, почему ways буквально. Можно было бы Бог действует таинственными способами.

Вывод. Яндекс делали в России, он больше похож на меня. Гугл делали в америке, он больше похож на katemare :)

Reply

z_kir June 14 2019, 05:51:38 UTC
Ждём)

Reply


Leave a comment

Up