Локализация. Часть 3.3. Машинный перевод возвращается

Jun 17, 2008 23:01


Статистический машинный перевод (SMT) основывается на модели, в которой вычисляется вероятность появления в переводе каждого слова из имеющегося набора переведенных предложений, и выбирается вариант с наибольшими вероятностями. Для того, чтобы метод заработал, требуется наличие большой базы существующих правильных переводов, выполненных людьми: моя ( Read more... )

machine translation, локализация, localization

Leave a comment

Comments 21

bvn_mai June 18 2008, 06:15:26 UTC
Очень интересно - добавить бы еще ссылок.

Reply

white_bars June 18 2008, 14:12:43 UTC
Значительная часть этой информации - это мой личный опыт и мои проекты... :) Про Гугл и 200 миллиардов слов - информация из гугловских SMT-блогов (повторяется в Wiki). Про MapReduce - не помню откуда именно, но где-то с месяц назад я по MapReduce читал все, что смог найти, и ссылки на SMT там довольно часто встречались. Multilingual - печатное издание, ссылку не поставишь :)
Хотя, вот ссылка, которую я забыл вставить: http://www.fjoch.com/GIZA++.html
Опенсорсная SMT. Вылетело из головы :)

Reply

bvn_mai June 18 2008, 16:31:53 UTC
Спасибо, буду разбираться - это все очень-очень интересно.
А Вы продолжаете этим заниматься?

Reply

white_bars June 18 2008, 17:15:08 UTC
Прямо не знаю, что и ответить :) Я очень много чем занимаюсь, включая SMT. Раньше я участвовал в разных проектах (пилотных и реальных) с использованием машинного перевода. Копался в резальтатах, искал способы облегчить жизнь переводчикам. В ближайший год я планирую закопаться в тему чуть поглубже именно с точки зрения улучшений в технологии SMT и применимости. Пока что конкретных идей мало, но буду копать.

Reply


anonymous June 18 2008, 11:23:20 UTC
угу, реально вери интерестинг
эз южуалли -)

Reply


(The comment has been removed)

white_bars June 18 2008, 14:13:07 UTC
:)

Reply


No subject daist June 19 2008, 04:43:48 UTC
Хотел сказать, что интересно, но уже третьим быть неинтересно))

Лучше спрошу другое - Вы про фриланс говорили, это в области переводов? Если да, то интересуют языки (насколько понимаю, актуален английский), тематика, сроки с объёмами и цены за переводческую страницу (1800 знаков без пробелов).

Пы.Сы.: Интересуюсь, поскольку работаю в бюро переводов.

Reply

Re: No subject white_bars June 19 2008, 06:06:34 UTC
Я только что закончил писать обзор про community-based traslation и мозги отключились :) Поэтому спрошу: чего я писал про фриланс? :) Я - честно - не помню, о чем речь была.

Reply

Re: No subject daist June 19 2008, 08:20:00 UTC
Ну, фраза была - что-то вроде "как я рад, что я фрилансер" :)

Reply

Re: No subject white_bars June 19 2008, 15:35:07 UTC
Нет, все равно не щелкает ничего в голове про фрилансера :) Я уже давно не фрилансер, я гораздо хуже :) Но я все равно рад :))
Если про что-ттакое писал, то я, наверное, писал о радости того, что я не завязан по уши в собственно локализационной индустрии, а могу заниматься гораздо более широким кругом задач. В том числе и связанных с локализацией: тут я продолжаю считать, что локализация - это моя индустрия :)

Reply


Re: Статистический машинный перевод (SMT) основывается на mpd January 28 2011, 20:29:27 UTC
Сходил на семинар. Разговаривал на работе. Много думал...

Я хотел бы узнать, каково противостояние SMT vs "rule-based":
  1. SMT - рулит, а RBMT - никто не вкладывается? (интересно, продолжает ли разработки своего МП Абби?)
  2. SMT - удача, второй - полное фиаско?
  3. Какие плоды для смежных областей языкознания даёт SMT, а какие - второй?
  4. Был бы успешен SMT без наработок RBMT? (как в том старом анекдоте про огурец: "а хрен бы ты его поймал, если бы я его не замучил")
  5. Открытые SMT - появляются, а есть ли соответствующие RBMT?

Reply

(The comment has been removed)

Re: Статистический машинный перевод (SMT) основывается на mpd January 29 2011, 18:23:37 UTC
Спасибо за ответы на пункты 1 и 2, Лёня!

Т.е., тренд такой, что теперь не модно вкладываться в RBMT (обременительно, дорого), т.к. SMT - имеют достаточные результаты (при меньших затратах высокооплачиваемого персонала и сложности процесса, по сравнению с RBMT).
При этом оба (и SMT - более молодой, и RBMT - намного старый) - "не фонтан" (в плане качества перевода) до сих пор.

Но о фиаско (для RBMT) - речи как таковой не идёт.

(Напоминает ситуацию с монолитными ядрами супротив микроядерной архитектуры: при прочих равных, монолитные ядра доминируют.)

Ок. Ещё раз спасибо.

Reply

(The comment has been removed)


Leave a comment

Up