Синтетический голос: машины наконец-то научатся говорить человеческим голосом

Sep 12, 2016 10:22

Обычно говорят только о задачах распознавания голоса, хотя задачи синтезирования голоса не менее актуальны. Ведь при взаимодействии компьютера с человеком важно не только понимать, но и в самой удобной и приятной форме сообщать. Задача состоит в том, чтобы синтетический голос был максимально антропоморфным, т.е. похожим на человеческий. Обычно там используют скрытые марковские цепи с большой базой записанных фрагментов речи диктора или LTSM-RNN (long short-term memory recurrent neural network), в частности их исопользует Google. Но ребята из DeepMine (создатели AlphaGo, подразделение Google) переплюнули наработки своего предка практически на 20% (по метрикам качества). Синтезирование речи они сделали на сверточных нейронных сетях. Послушать результаты можно здесь, в самом конце статьи. Parametric и Concatenative - это старые подходы. WaveNet - подход DeepMind. А ниже видео - это просто сгенерированная речь без смысла. Тут они просто демонстрируют возможности, нейронка вставляет придыхания, шумы от движения губ и т.д. Скоро нейронные сети будут писать рэп))) Там же, на сайте, ниже есть и синтез музыки.

image Click to view



P.S. А вообще, лично мне очень нравится синтетический голос с этой страницы речевых технологий Яндекса (там в верхнем баннере нажмите Play).

UPD: Различные реализации WaveNet сети уже появились на github-e (TensotFlow, Keras)

ai

Previous post Next post
Up