О постредактировании машинного перевода и перспективах профессии технического переводчика, часть 2/2

May 18, 2020 18:57

Активные пользователи систем машинного перевода давно уже заметили, что лучше всего такие системы работают в направлении «на английский», который в силу своих особенностей для целей машинного перевода выступает отчасти метаязыком. Так, если мне нужно понять, о чём идет речь в документе, допустим, на турецком или румынском, я всё равно конечным языком выбираю английский, т.к. перевод в таком случае получается куда понятнее, чем если бы я выбрал направление «на русский». А возможно ли вообще нивелировать разницу между столь отличными друг от друга языками как английский и русский? Т.е. возможно ли получить более-менее чистый перевод на русский? Далее пример работы системы нового поколения (нейронной), предлагаемой одним из мировых лидеров в области лингвистического ПО.

Исходное предложение

Результат работы системы нейронного машинного перевода

Идеальный перевод

Какая лингвистическая проблема решена (выделено курсивом)

The facility, attached to a police station, had a capacity of about 60 detainees, workers at the scene said.
По словам сотрудников, в здании, принадлежащем полицейскому участку, содержится около 60 заключенных.
По словам сотрудников, в здании, закрепленном за полицейским участком, можно содержать около 60 заключенных.
Тема/рема, порядок слов в предложении. И если первые два предложения требуют некоторой доработки, то в третьем случае система сходу даёт идеальный вариант.

Not just a learning tool, this robot loves fun!
Этот робот не просто учится, он любит веселье!
Этот робот не просто помогает учиться, он любит веселье!

Navigating the printer menu is easier than ever with the 2.7" LCD and touch panel.
С 2,7" ЖК-экраном и сенсорной панелью перемещение по меню принтера стало проще, чем когда-либо.
С 2,7" ЖК-экраном и сенсорной панелью перемещение по меню принтера стало проще, чем когда-либо.

Save 25% on inflight food and beverage purchases on American Airlines flights when you use your card.
Сэкономьте 25% на покупке продуктов питания и напитков на рейсах American Airlines при использовании вашей карты.
Сэкономьте 25% на покупке продуктов питания и напитков на рейсах American Airlines при использовании вашей карты.
Субстантивные обороты. Система сходу даёт идеальные варианты перевода словосочетаний, состоящих из одних существительных.

Its four-stage LED battery status indicator clearly shows you how much battery life is left.
Четырехступенчатый светодиодный индикатор состояния аккумулятора четко показывает, сколько времени осталось.
Четырехступенчатый светодиодный индикатор состояния аккумулятора четко показывает, сколько времени осталось.

The camera also allows you to record in RAW and JPEG formats simultaneously.
Камера также позволяет одновременно записывать в форматах RAW и JPEG.
Камера также позволяет одновременно записывать в форматах RAW и JPEG.
Расположение обстоятельств. Система сходу даёт идеальные варианты.

Find the departure time that suits you.
Найдите удобное для вас время отправления.
Найдите удобное для вас время отправления.

He is the first heavyweight boxer from either New Zealand or the Pacific Islands to win a major world championship.
Он является первым боксёром-тяжеловесом из Новой Зеландии или Тихоокеанских островов, выигравшим крупный чемпионат мира.
Он - первый боксёр-тяжеловес из Новой Зеландии или Тихоокеанских островов, выигравший крупный чемпионат мира.

The views from the master bedroom and lounge are stunning.
Из окон главной спальни и гостиной открывается потрясающий вид.
Из окон главной спальни и гостиной открывается потрясающий вид.
Согласование связанных слов, разделённых друг от друга на значительное расстояние

If the buttons on the toolbar disappear, you need to reboot the computer.
Если кнопки на панели инструментов исчезают, необходимо перезагрузить компьютер.
Если кнопки на панели инструментов исчезают, необходимо перезагрузить компьютер.
Безличные структуры, особенно характерные для технических текстов и пользовательских руководств и которые в английском языке обычно строятся через you

This convenient feature automatically powers up the printer whenever you send a photo or document to be printed.
Эта удобная функция автоматически включает принтер при отправке фотографии или документа на печать.
Эта удобная функция автоматически включает принтер при отправке фотографии или документа на печать.

These items are priced lower than in any store in the area.
Цены на эти товары ниже, чем в любом магазине в этом регионе.
Цены на эти товары ниже, чем в любом магазине в этом регионе.
Различия в построении страдательного залога.

He was told to take 8 tablets a day.
Ему сказали принимать 8 таблеток в день.
Ему сказали принимать 8 таблеток в день.

Can asthma attacks be prevented?
Можно ли предотвратить приступы астмы?
Можно ли предотвратить приступы астмы?

В приведённых примерах система выдаёт либо практически идеальный перевод, или перевод, при котором необходимые изменения вносятся буквально парой кликов. Для таких текстов уже требуются не «живые» переводчики и даже не просто редакторы, а т.н. постредакторы.

Что такое постредактирование машинного перевода и в чём заключается работа постредактора

Наиболее простым определением постредактирования (Post-Editing of Machine Translation, PEMT) будет следующее: редакторская обработка человеком текста, переведённого с помощью средств машинного перевода. Приведённые выше примеры весьма достойных результатов машинного перевода, особенно на основе нейросетей, позволяют рассматривать сочетание MT (Machine Translation) и PE (Post-Editing) как весьма перспективное направление в техническом переводе, обеспечивающее больший объём обработки текстов за тот же или меньший объём времени. Но очень важно понимать, что нейронный машинный перевод обеспечивает такую, на первый взгляд, потрясающую гладкость порой за счёт смысловых искажений и потому по-прежнему нуждается в обработке, несмотря на все старания разработчиков, которые стремятся обеспечить максимально близкое к человеческому переводу качество. Постредактирование значительным образом отличается от редактирования, поскольку заменяет собой традиционный этап перевода с нуля. Постредактирование МП предполагает исправление текста как результата работы компьютерной программы, тогда как процесс редактирования предполагает исправление текста, переведенного переводчиком, а не машиной. Основными задачами постредактора в этом случае становятся следующие: научиться использовать результат МП по максимуму, вносить изменения только тогда, когда это совершенно необходимо (стилем иногда можно пренебречь), ничего не добавлять и ничего не удалять по сравнению с исходным текстом и в целом улучшать результат МП за минимальное количество времени и с минимальными усилиями (иначе эффективность использования машинного перевода значительно снижается и возникает вопрос, а нужно ли было его использовать вообще).

При этом финальный уровень качества такой работы в каждом случае оговаривается между исполнителем и заказчиком исходя из потребностей последнего. Чаще всего заказчику нужно т.н. полное постредактирование (full post-editing), когда на выходе должен получиться текст практически такого же качества, что и при традиционном переводе. Однако к контенту, который не требует официальной публикации и традиционным способом вообще не переводится по причинам стоимости и затрат времени, может применяться и лёгкое/частичное постредактирование (light post-editing), в рамках которого результат МП обрабатывается лишь до такого уровня, на котором перевод становится попросту понятным реципиенту. Переводом такого уровня часто грешит, например, Википедия, что объяснимо - у общеобразовательного ресурса, настроенного на все языки мира, в принципе не может быть возможностей для надлежащей обработки переводов, потому многие страницы в ней вообще лишены какой-либо обработки МП (последний яркий пример, на который я наткнулся буквально вчера, блуждая по пространствам Вики: «Хитрый использует траур для расширения возможностей Рокки» (в статье про создание фильма «Рокки Бальбоа») - очевидно, что такой ошибки можно было бы избежать, всего лишь добавив в модуль МП уточнение, что применительно к любой статье о Сталлоне Sly, в первую очередь, должен переводится как Слай). В таблице ниже обозначены основные области применения лёгкого и полного постредактирования.

Достаточно лёгкого постредактирования или просто результатов МП
Требуется полное постредактирование
Требуется преимущественно традиционный перевод

Чаты
Технические инструкции, руководства пользователя, описания товаров
Реклама

Голосовые сообщения и СМС
FAQ и пользовательская поддержка, отдельные вебсайты
Маркетинг

Электронные письма
Словари, энциклопедии, например Wiki
Журналистика и PR

Блоги, соцсети, форумы
Типовые юридические документы
Художественная литература

Выгоды для заказчика при таком подходе очевидны: тексты переводятся в закрытой среде по индивидуально предоставляемому доступу, что обеспечивает повышенную конфиденциальность; кроме того, при условии правильной настройки системы МП перевод значительных объёмов текста осуществляется за меньшее количество времени и с меньшими затратами. Причём сокращение издержек не всегда является приоритетом - в сфере бизнеса нередки случаи, когда огромный объём документации должен быть переведён в весьма сжатые сроки, например, для регистрации зарубежной «дочки», реорганизации, выхода компании на IPO или ежегодного совещания крупного холдинга, и тогда задержка переводов может привести лишь к тому, что не вовремя сданные документы уже никому не нужны. Без средств автоматизации в таких ситуациях просто не обойтись.

Однако внедрение средств МП это всегда «игра с нулевой суммой», обеспечивающей выигрыш разработчикам ПО и экономию средств для заказчика, но проигрыш переводчика, на которого и ложатся все издержки этой экономии - ставки на перевод, несмотря ни на какую инфляцию, неуклонно снижаются уже в течение десятилетий. Если ещё в начале «нулевых» переводчикам платили пословно, вне зависимости от числа повторов в тексте, то уже к началу «десятых» с повсеместным использованием каждым бюро переводов т.н. памяти переводов (Translation Memory) оплачиваться стал лишь полностью новый контент - за договор, который лишь на 10% отличается от договора, что ты переводил, допустим, месяц назад, ты получишь оплату в размере 10% от общего количества слов. Теперь же всё идёт к тому, что техническому переводчику будут платить уже лишь за клики, которые необходимо сделать для улучшения качества результата МП. Здесь, правда, открываются некие возможности и для маленьких хитростей - например, переписывать гораздо больше, чем требуется, тем самым повышая статистику внесённых изменений, однако, если на стороне заказчика работу также анализируют опытные лингвисты (в случае с крупными заказчиками так оно и бывает), то подобный источник халтуры будет быстро пресечён. Таким образом, у технических переводчиков будущего попросту не остаётся иного выбора, кроме как совершенствовать новые навыки и работать в соответствии с развитием технологий, поскольку даже в условиях падающих ставок всегда найдётся кто-то, кто сделает такую работу в случае отказа того или иного исполнителя.

Рассмотрим тогда необходимые навыки для овладения профессией постредактора. Выше уже отмечались серьёзные отличия постредактирования МП в сравнении с традиционным редактированием (в частности, РЕМТ заменяет традиционный этап перевода), потому здесь присутствуют другие, «свои» типы ошибок. Постредактор должен иметь в виду, что исправление перевода, выполненного машиной, сильно отличается от редактуры традиционных текстов. Результат МП редко бывает безупречным, и постредактор должен знать о тех проблемных элементах, которые могут присутствовать в переведённом таким способом тексте, т.е. ему должны быть знакомы особенности трёх типов машинного перевода, что были перечислены выше, с точки зрения присущих им разных типов ошибок. Понимание «поведения» системы МП напрямую влияет на скорость работы постредактора, когда последний заранее знает, каких ошибок ожидать.

Обработка машинного перевода это отнюдь не работа для студентов и начинающих. Да, на выходе результаты РЕМТ хоть и должны быть приближены к лучшим образцам «живого» перевода, но все равно будут уступать им в качестве. Но это совершенно не значит, что и постредактору достаточно обладать лишь средним лингвистическим опытом. На деле такая работа требует высоких аналитических навыков, и главное тут - умение отделять важное от неважного, существенное от несущественного, использовать результат МП по максимуму, внося лишь самые необходимые коррективы, понимание, что оставить, что выкинуть, а что парой кликов поправить, обойтись минимумом усилий для максимума результата, не переписывать то, что в переписывании не нуждается, а также предоставить по итогам работы заказчику список тех ошибок МП, которые в дальнейшем можно было бы исправить путем дополнительной настройки модуля, - такие навыки и такое понимание приходят исключительно с опытом, потому при кажущейся несложности обработки машинного перевода лучше всего с РЕМТ должны справляться опытные и внимательные лингвисты. Как и любой иной навык, постредактирование оттачивается со временем, и постредакторы не будут полностью продуктивными с первого же дня работы. В среднем, на то, чтобы постредактирование обеспечило желаемую эффективность (обычно речь идёт о 50-процентном увеличении объёма обработанных текстов за прежнюю единицу времени), может потребоваться до трёх месяцев при условии совершенствования этих навыков на регулярной основе.

Однако в процессе переквалификации в постредактора немало и подводных камней. В первую очередь, поскольку РЕМТ это абсолютно новый вид деятельности, то в его отношении пока что отсутствуют какие-либо общие отраслевые инструкции, у всех заказчиков разные ожидания в части итогового результата, кроме одного: они считают, что постредактор должен обеспечить повышенную производительность при сохранении привычного уровня качества. К тому же при постоянной работе в этой области неизбежна и определённая профессиональная деформация лингвиста, привыкающего к работе исключительно с машинным переводом и потому теряющего определённые творческие навыки. В связи с этим некоторые эксперты полагают, что РЕМТ должен занимать не более 30% рабочего времени лингвиста-человека. Но если указанные подводные камни получится обойти, то овладение навыками постредактора позволит переводчикам-людям сохранить свою конкурентоспособность на рынке, а также более-менее приемлемую оплату труда даже в условиях постоянного снижения ставок.

Будущее профессии технического переводчика

Исходя из вышесказанного, попробуем обрисовать перспективы профессии технического переводчика. Они выглядят удручающими для тех, кто хочет продолжать работать по старинке, словно нескольких десятилетий развития переводческих технологий, включая МП, и не бывало. В современных условиях всевозрастающих информационных объёмов, сокращения сроков выполнения переводов, диктуемого стремительностью нашей информационной эпохи, а также удешевления человеческого труда за счёт работы машин переводчику старой формации очень непросто, да и порой невыгодно работать. Но происходит это не потому, что прежние навыки не нужны - напротив, требования к уровню владения языком в наше время, пожалуй, выше чем когда-либо. Проблема в том, что эти прежние навыки без овладения новыми с каждым годом стоят всё меньше и меньше. Ещё раз оговорюсь: всё вышесказанное не касается переводчиков художественной литературы и рекламно-маркетинговых текстов, работающих с уникальным и не имеющим аналогов контентом, в отношении которого достоинства машинного перевода с его накопленными базами данных практически не применимы (хотя некоторые образцы современной художественной литературы, очевидно, пишутся конвейерным способом с привлечением «литературных негров», потому перевод их машинным способом вполне может оказаться оправданным). Однако доля такого рода текстов в общем информационном объёме с каждым годом снижается -  мы уже видели, что сегодня она составляет менее одного процента, т.е. статистическую погрешность, потому при обсуждении перспектив профессии и методиках подготовки переводчиков будущего ориентироваться на эту отнюдь уже не типичную область выглядит не слишком разумным.

Итак, развитие машинного перевода мало чем грозит лишь переводчикам уникального контента - в остальных же сферах эта профессия, нет, не исчезнет, вопреки распространённому мнению многих прогрессистов, но определённым образом видоизменится. На смену прежним техническим переводчикам придут «постредакторы», или «постмашинные обработчики», или «постпереводчики», - те, кто будут готовы   работать в тандеме с МП. Грубо говоря, переводчики не будут заменены роботами - переводчики будут заменены теми переводчиками, которые используют роботов. Важно помнить, что машинный перевод не заменяет потребность в человеческом переводе и переводчиках-людях - он лишь позволяет переложить на машины черновую работу по поиску подходящих слов и словосочетаний. Несмотря на все достигнутые в последние годы успехи в области машинного перевода, многие специалисты считают неизбежным наличие в нём систематических ошибок. Даже с появлением нейронного машинного перевода, имитирующего работу человеческого мозга, ни одна из систем МП не в состоянии обеспечить перевод, неотличимый от работы человека, - на момент написания этой заметки на очередной конференции с участием крупнейших разработчиков систем МП эта цель было снова отложена на дежурные 10 лет.

Всегда ли люди будут переводить лучше машин? На самом деле этот вопрос не имеет большого смысла, если мы вспомним, что даже продвинутые нейронные системы машинного перевода на самом деле ничего не переводят: они ищут в своих гигантских базах фрагменты ранее выполненных человеком переводов и по-новому компилируют их (по этой причине машинный перевод и непригоден для обработки уникального контента, порой требующего создания новых слов). Потому появление систем МП вовсе не обозначает распространённую и пугающую дихотомию человек-компьютер - здесь нет никакого противопоставления, только симбиоз, поскольку на каждом этапе система МП оперирует данными, созданными и обработанными людьми. В современную эпоху ни одному человеку не под силу держать в голове и своевременно оперировать всей полнотой данных, относящихся даже к самой узкой специализации, - эти задачи закреплены за системами автоматизации, включая МП. Но только за человеком останется умение выбрать из результатов алгоритмизированного перевода наилучший и адекватно адаптировать его под нужную задачу. Машинный же перевод служит лишь эффективным инструментом для помощи человеку в повседневной работе.

Системы нейронного машинного перевода не обладают самостоятельным интеллектом и потому не понимают, что именно они анализирует. Это означает, что как бы ни был гладок полученный текст (а нейросети выдают существенно более гладкий текст, чем все системы предыдущих поколений), он весь требует сплошной вычитки на предмет фактической точности перевода, ибо фактические ошибки в нём по-прежнему присутствуют, только теперь их ещё труднее обнаружить в силу кажущейся гладкости. Из этого следует, что если вы хотите получить гарантированно точный перевод, то результат  машинного перевода в любом случае должен полностью прочитать человек, обладающий высоким уровне знаний не только в части искомой языковой пары, но и особенностей поведения систем МП.

Таким образом, профессия технического переводчика в будущем будет подразумевать сочетания следующих навыков: собственно лингвиста, а также своего рода IT-аналитика, постоянно выискивающего изъяны в системе МП с целью её улучшения, и специалиста по МП, доводящего до сведения заказчика найденные изъяны и согласующего всякий раз различные ожидания по качеству и оплате. И, пожалуй, самое главное: технические переводчики будущего будут продавать не слова, которые машина уже генерирует быстрее и в большем объёме, но достоверность этих слов, удостоверение сути того или иного документа, подтверждение того, что смысл того или иного документа передан правильно, то есть ответственность (которую МП ни при каких обстоятельствах взять на себя не может и не сможет). Одно лишь умение перевести с нуля, скажем, типовой договор с каждым днём оплачивается всё меньше и меньше, но те, кто готовы освоить возможности, предлагаемые системами автоматизации, и станут разом операторами таких систем и своего рода нотариусами-удостоверителями выдаваемых такими системами результатов, совершенно точно не останутся невостребованными [1].

[1] И даже появление гипотетически-фантастического ИИ, этого очередного Священного Грааля (в одном ряду с межгалактическими полётами, машиной времени, телепортацией и бессмертием), вряд ли в обозримом будущем кардинально изменит ситуацию на рынке лингвистических услуг. В самом деле, если ошибка всегда свойственна человеку, то почему её должен быть начисто лишен искусственный интеллект, созданный по принципу имитации работы человеческого мозга? В наши дни работа переводчика требует верификации редактором, причём даже два редактора не всегда договорятся между собой во всех аспектах текста. Потому нет никаких оснований считать, что перевод от ИИ не будет вызывать никаких нареканий со стороны редакторов и не требовать их доработки под ту или иную конкретную задачу.

Современное

Previous post Next post
Up