О постредактировании машинного перевода и перспективах профессии технического переводчика, часть 1/2: kapetan

kapetan_zorbas

О постредактировании машинного перевода и перспективах профессии технического переводчика, часть 1/2

May 18, 2020 18:51

В отличие от широкой публики, из года в год задающей риторический вопрос, сможет ли когда-нибудь машинный перевод потеснить позиции традиционного перевода, полностью осуществляемого человеком, профильные специалисты прекрасно осведомлены о том, что такой момент вообще-то уже наступил. Большинству из нас не по душе перспективы автоматизации многих профессий: почему в прошлое непременно должны отойти, например, «живые» продавцы в продуктовых магазинах, что могут в ненавязчивом разговоре порекомендовать тот или иной товар, или таксисты, что могут развлечь в пробке всяческими байками? Однако широкое внедрение машинного перевода, что безусловно здорово преобразит сферу лингвистических услуг и профиль переводчика будущего, выглядит совершенно неизбежным. Поясню эту мысль буквально парой цифр.

По расчётам профильных экспертов, в период с 2016 по 2017 гг., то есть всего за два года, человечеством было сгенерировано больше информационных единиц, чем за всю предыдущую его историю, а по состоянию на 2018-й год Google Translate обрабатывал 143 миллиарда слов в день. Обработать такие объёмы силами живых людей немыслимо в принципе, поскольку по самым максимальным оценкам все профессиональные переводчики в мире в состоянии совокупно обработать менее 1 миллиарда слов в день - т.е. менее одного процента от объёмов одного лишь Google Translate. Подобный информационный взрыв обусловлен, в частности, развитием соцсетей, а те из нас, кто не строчат посты или твиты, всё равно оставляют отзывы, например, о тех или иных приобретённых продуктах или забронированных отелях, вносят коррективы в страницы Википедии и т.д. и т.п. Указанный экспоненциальный рост привёл к появлению бесплатных многоязычных сервисов машинного перевода, что, согласно усреднённым оценкам, переводят около 800 миллиардов слов в день. На фоне последней цифры объёмы переводов, выполняемых людьми традиционным способом, выглядят просто статистической погрешностью. Но даже для тех объемов, которые остаются на долю традиционного перевода (где требуется не скорость ознакомления или появления финального текста, а в первую очередь качество), применяется широкий спектр вспомогательных инструментальных средств, включающих последние несколько лет и машинный перевод. Что означает, что традиционные переводческие техники и методы, по-прежнему по инерции культивируемые в вузах, с каждым годом всё меньше и меньше связаны с реальностью. Потому для успешной работы переводчикам настоящего и будущего совершенно необходимо понимать, какое влияние новые технологии оказывают на их профессию, и уметь адаптироваться к постоянным изменениям, вносимым такими технологиями.

Краткая история машинного перевода

Становление машинного перевода в середине прошлого века в первую очередь было обусловлено успехами в криптографии, достигнутыми в ходе Второй Мировой войны, а в 1954-м году случилось знаменательное событие - т.н. «Джорджтаунский эксперимент», в ходе которого был осуществлён полностью автоматизированный перевод примерно шестидесяти предложений с русского языка на английский. Успех этого первого маленького шажка, что типично для той нетерпеливой эпохи, здорово вскружил всем голову - учёные тогда посчитали, что им под силу создать полностью автоматизированную систему машинного перевода в течение ближайших трёх-пяти лет, а военные и государственные организации немедленно выделили на исследования в области МП миллионы долларов. Ну а что, запуск первого спутника, а затем и человека в космос породил уверенность, что межгалактические путешествия это вопрос лишь нескольких десятилетий, а лунные базы - вообще пары следующих лет; а тут же всего лишь какой-то перевод, в общем-то совсем плёвое дело. Впрочем, эта наивная нетерпеливость отчасти присуща и нашей, вроде бы менее склонной безудержному прожектёрству эпохе, когда, например, достаточно скромные успехи в деле продления даже не жизни, а всего лишь старости сподвигают широкую публику на непоколебимую уверенность в обретении аж целого бессмертия - вспоминать эти большие надежды в разгар нынешней пандемии особенно горько. Но вернёмся к машинному переводу: вслед за предсказуемым головокружением от первого локального успеха стало понятно, что ни о каком быстром развитии этого направления не может быть и речи. Машинный перевод в те времена основывался на кодировании ограниченного набора лингвистических правил (Rule-Based Machine Translation) в сочетании со словарём и работал по принципу переноса: система анализировала каждое исходное предложение, выделяла в нём грамматические составляющие (например, подлежащее, сказуемое, дополнение), затем просматривала переводы этих выделенных слов и словосочетаний в загруженном словаре и объединяла их в конечное предложение с учётом грамматических правил языка перевода. Такой подход с его довольно жёсткими рамками совершенно не предусматривал разнообразия, присущего «живому» языку, и классические примеры неуклюжести, а то и нелепости машинного перевода (приводимые, например, в монументальной работе Умберто Эко «Сказать почти то же самое», посвящённой ремеслу перевода), относятся именно к такому подходу. Исправить его недостатки предполагалось увеличением количества кодируемых правил, что однако породило другую серьёзную проблему - как же обеспечить согласование всевозрастающего количества лингвистических правил друг с другом и установить приоритеты их обработки.

Увеличение и удешевление вычислительных мощностей в конце 1980-х в сочетании с появлением технологии Translation Memory, которая позволила накапливать многоязычные переводческие базы огромных объемов, дало толчок развитию машинного перевода иного типа - статистического (Statistical Machine Translation). Системы статистического машинного перевода более не требовали кропотливого кодирования человеком лингвистических правил и регулярного обновления словарей; вместо этого они использовали корпус уже существующих переводов, охватывающих многочисленные языковые пары, для самостоятельного извлечения правил на основе статистической вероятности. Вкратце, такие системы самообучаются переводу посредством анализа статистических отношений между загруженными исходными и переведёнными данными. Каждое предполагаемое к переводу предложение система разбивает на более мелкие части, ищет возможные переводы в загруженной базе данных и при помощи средств статистики отбирает из набора переводов наилучший вариант. Качество перевода напрямую зависит от объёма двуязычных данных (как правило, речь идёт о сотнях миллионов слов), от качества их согласованности между собой и тематической направленности. Грубо говоря, «накормив» систему образцами плохого перевода, относящимися преимущественно к горнодобывающей сфере, глупо ожидать гладких результатов при переводе медицинских текстов.

Преимущества систем, основанных на статистических подходах, очевидны каждому, кто когда-либо пользовался Google Translate, качество переводов которого исправно растёт из года в год, в первую очередь, за счёт увеличения объёма «скармливаемых» ему двуязычных данных. Кроме того, статистический МП (в сочетании с основной переводческой технологией - ТМ) стал первым видом машинного перевода, с которым начали более-менее профессионально работать «живые» переводчики, то есть первые постредакторы появились примерно в это же время.

В последние годы на фоне активных работ в области ИИ всевозрастающую популярность снискал себе третий подход, разработчики которого обещают вывести машинный перевод на уровень, практически не отличимый от «живого» перевода. Не будем забывать, правда, что с каждым из вышеперечисленных подходов в своё время также связывали разного рода революции и «окончательное решение» проблемы различий между машинным и традиционным переводом, поэтому такие лозунги вполне могут остаться лишь рекламными трюками разработчиков. Однако этот новый подход к машинному переводу, в котором используется большая искусственная нейронная сеть, подражающая работе человеческого мозга, выглядит весьма многообещающим. И статистический, и нейронный машинный перевод работают на основе уже переведённых огромных массивов многоязычных данных, но если результат статистического машинного перевода получается путём объединения отдельно обработанных составных частей предложения, то система нейронного машинного перевода пытается зафиксировать содержание и смысл законченных исходных предложений, формируя метаязык, из которого уже предложения переводятся на требуемый конечный язык, что приводит к гораздо более плавному переводу, звучащему куда более естественно. Кроме того, особенности нейронных сетей позволяют им ещё и группировать слова со схожими значениями по различным кластерам, что позволяет устранять неоднозначность таких слов гораздо в большей степени, чем в случае статистического машинного перевода. Например, слово bank нейронная система переведёт как «банк», если другими словами в предложении будут «финансы», «транзакции», «счета» и т.д., и как «берег» при наличии соседствующего «канала», «реки» и т.д. Указанные преимущества позволяют системам нейронного машинного перевода обеспечивать очень гладкий результат даже для языков с совершенно разным грамматическим строем (что ещё будет продемонстрировано). Но любые достоинства порождают и специфические недостатки - в случае с нейронным машинным переводом гладкость и естественность нередко достигаются за счёт смысловых искажений. Исправлять которые должен человек.

Возникновение необходимости в обработке машинного перевода

Практически каждый переводчик-редактор в технической сфере периодически выслушивает от заказчиков обвинения в применении в своей работе машинного перевода. Однако в последние годы, в том числе по причине уже упомянутого экспоненциального увеличения информационных объёмов, начинает происходить нечто прежде немыслимое - когда запрос на обработку машинного перевода уже исходит от самого заказчика. Здесь, правда, необходимо оговориться, что речь идёт о применении вовсе не общеизвестного, смешного и бесплатного машинного перевода, но результатов внедренной в компании системы МП, что подразумевает регулярное обучение и настройку под профиль деятельности заказчика. Внимание крупных компаний, вкладывающихся во внедрение таких систем, к машинному переводу обусловлено не только желанием унифицировать и удешевить процесс перевода, но и соображениями конфиденциальности, ведь широко распространены ситуации, когда сотрудники компаний загружают не подлежащую разглашению информацию в Google Translate, после чего она оказывается, по сути, во всеобщем доступе. Учитывая растущее внимание в современном мире к проблеме конфиденциальности данных, имеются все основания предполагать, что громкие иски о нарушении условий конфиденциальности в связи с использованием лингвистами бесплатных онлайн-переводчиков уже не за горами.

Предлагаемые разработчиками платные модули или системы МП можно разделить на два типа: универсальные и настроенные (кастомизированные). Первые обучаются самими разработчиками на основе данных из надежных и общедоступных источников, вроде новостных лент, технических руководств, законодательных баз и т.д. и представляют собой продвинутый вариант Google Translate. Подобно переводчику «Гугла», они постоянно обновляются через регулярные промежутки времени и дают хороший результат в том случае, если предлагаемые к переводу материалы носят достаточно общий характер. Настроенные (кастомизированные ) же модули обучаются под конкретные проекты, и их обучение основывается, преимущественно, на имеющихся у заказчика базах памяти переводов (Translation Memory), т.е. корпусах уже переведённых данных, относящихся к той или иной предельно конкретной сфере. Как и в случае с универсальными модулями, качество машинного перевода, обеспечиваемого после настройки, также напрямую связано с объёмом загруженных уже переведённых данных, потому предлагаемая для обучения память перевода должна быть очень хорошего качества и пройти редакторскую проверку, гарантирующую отсутствие лексических, синтаксических, грамматических и прочих ошибок. В противном случае ошибки во введённых обучающих данных напрямую скажутся на качестве нового перевода.

Рассмотрим примеры работы разных видов модулей. Начнём со старого доброго универсального и бесплатного «Гугла» и переведём что-то весьма востребованное - например, инструкцию для Айфона.

Исходный текст с официального сайта

Перевод Google Translate

Официальный перевод на сайте

Примечание

Включение и настройка iPhone
Turn on and set up your iPhone
Turn on and set up iPhone
Практически идентично

Включите и настройте новый iPhone, подключив его к интернету. Вы также можете настроить iPhone, подключив его к компьютеру. Если у Вас есть еще одно устройство iPhone, iPad, iPod touch или устройство Android, Вы можете перенести данные с него на новый iPhone.
Turn on and set up your new iPhone by connecting it to the Internet. You can also set up your iPhone by connecting it to your computer. If you have another iPhone, iPad, iPod touch or Android device, you can transfer data from it to your new iPhone.
Turn on and set up your new iPhone over an Internet connection. You can also set up iPhone by connecting it to your computer. If you have another iPhone, iPad, iPod touch, or an Android device, you can transfer your data to your new iPhone.
Практически идентично

Примечание. Если Вы используете iPhone, который администрирует Ваша компания или другая организация, обратитесь за инструкциями по настройке к администратору. Общие сведения см. на веб-сайте Apple at Work.
Note. If you are using an iPhone that your company or other organization administers, contact your administrator for setup instructions. For general information, see the Apple at Work website.
Note: If your iPhone is deployed or managed by a company or other organization, see an administrator for setup instructions. For general information, see the Apple at Work website.
Правки присутствуют, но, например, в выделенном фрагменте вариант машинного перевода видится даже предпочтительным

Нажмите и удерживайте боковую кнопку или кнопку «Сон/Пробуждение» (в зависимости от модели iPhone), пока не появится логотип Apple.
Press and hold the side button or the Sleep / Wake button (depending on the iPhone model) until the Apple logo appears.
Press and hold the side button or Sleep/Wake button (depending on your model) until the Apple logo appears.
Практически идентично

Как видно из этого примера, машинный перевод в данном случае требует совсем минимальных корректировок. Подобная гладкость, скорее всего, обусловлена тем, что перевод схожего текста уже некогда производился и угодил в базы данных «Гугла». С примерами совершенно оригинальных текстов этот переводчик справляется много хуже. Вот перевод технических характеристик новой модели Айфона:

Исходный текст с официального сайта

Перевод Google Translate

Официальный перевод на сайте

Примечание

iPhone 11 Pro
iPhone 11 Pro
iPhone 11 Pro

Details: iPhone 11 Pro has a 5.8-inch all-screen Super Retina XDR display. The back is textured matte glass, and there's a stainless steel band around the frame. The side button is on the right side of the device. There are three 12 MP cameras on the back: Ultra Wide, Wide, and Telephoto. There's a Dual-LED True Tone flash on the back and a SIM tray on the right side that holds a "fourth form factor" (4FF) nano-SIM card. The IMEI is etched on the SIM tray.
Детали: iPhone 11 Pro оснащен 5,8-дюймовым полноэкранным дисплеем Super Retina XDR. Спинка из матового стекла, а вокруг рамы - полоса из нержавеющей стали. Боковая кнопка находится на правой стороне устройства. На задней панели расположены три камеры с разрешением 12 Мп: Сверхширокая, Широкая и Телеобъектив. На задней панели имеется двойная светодиодная вспышка True Tone и лоток для SIM-карты с правой стороны, на котором установлена нано-SIM-карта «четвертого форм-фактора» (4FF). IMEI выгравирован на лотке для SIM-карты.
Сведения: устройство iPhone 11 Pro оснащено полноэкранным дисплеем Super Retina XDR с диагональю 5,8 дюйма. На задней панели текстурированное матовое стекло, а вокруг рамки полоса из нержавеющей стали. Боковая кнопка расположена с правой стороны устройства. На задней панели корпуса находится три 12-мегапиксельные камеры: сверхширокоугольная, широкоугольная и с телеобъективом. На задней панели корпуса находится светодиодная вспышка Dual-LED True Tone, а с правой стороны - лоток SIM-карты для карт четвертого форм-фактора (4FF) nano-SIM. Номер IMEI выгравирован на лотке SIM-карты.
Здесь различий столько, что текст проще перевести заново. Отметим, однако, что большей части ошибок можно было бы избежать, настроив систему под заданную тему - тогда «спинка», «рама», виды камер и наименования моделей получили бы правильный перевод. Но отметим, что «спинка» по ходу перевода всё же переходит в «заднюю панель» - видимо, Гугл нашёл какие-то релевантные совпадения.

Из примера выше видно, что при переводе нешаблонных технических текстов универсальный МП часто оказывается бесполезным. Поэтому далее пример работы уже настроенного МП для одной из крупнейших консалтинговых компаний.

Исходный текст

Перевод после настройки

Примечание

Приехала в Россию иностранная делегация. Встречаются директора заводов - русский и японец.
Японец говорит: «Мы станки делаем».
Русский говорит: «И мы тоже».
Японец говорит: «У меня 10 цехов».
Русский говорит: «У меня тоже 10».
Японец говорит: «У меня три тысячи рабочих занято».
Русский говорит: «У меня тоже три тысячи».
Японец говорит: «У нас 6 инженеров работает».
Русский думает: «Если сказать, что у нас 200 инженеров, то неудобно будет. Скажу, что у нас 7 инженеров». Так и сделал.
На следующий день встречаются они снова, а у японца глаза красные-красные, говорит: «Всю ночь не спал. Все думал: чем у вас седьмой инженер занимается?».
A foreign delegation came to Russia. There are directors of factories - Russian and Japanese.
The Japanese says, "We make machines."
The Russian says, "And so are we."
The Japanese says, "I have 10 workshops."
The Russian says, "I've got 10, too."
The Japanese says, "I have three thousand workers."
The Russian says, "I also have three thousand."
The Japanese says, "We have six engineers working."
The Russian thinks: "If you say that we have 200 engineers, it will be inconvenient. I will say that we have 7 engineers." And so he did.
The next day they meet again, and the Japanese eyes are red and red, says: "I haven't slept all night. I kept thinking, what does the seventh engineer do?"
В этом крупном отрывке настройка на тематику «Производительность труда» допускает всего лишь три существенные ошибки. Причём последняя обусловлена тем, что исходный текст, будучи всё же анекдотом, ближе к концу превращается в живую речь, которую практически невозможно перевести средствами статистики и алгоритмов.

Сравнивали ли Вы производительность трудна на предприятиях XYZ с другими производителями строительных материалов?
Have you compared productivity at XYZ's facilities with other building materials manufacturers?
А вот пример того, как система статистического перевода способна исправить ошибки исходника: МП забраковал словосочетание «производительность трудна» как статистически маловероятное, переведя его как «производительность труда».

Современное