Выделить из многоголосого хора речь одного конкретного человека - технически крайне сложная задача, о чем хорошо известно разработчикам автоматических систем распознавания речи. Наш мозг, правда, легко справляется с ней, но как ему это удается - толком неизвестно. Можно предположить, что на каком-то этапе обработки слуховой информации речь человека, к которому мы прислушиваемся, очищается от «посторонних примесей», но когда и где это происходит, опять-таки неясно.
Рис. 1. Области верхней височной извилины, отвечающие за восприятие устной речи. Первичная слуховая кора (Primary auditory cortex) получает информацию из таламуса, куда она поступает (через несколько промежуточных этапов) от органа слуха - улитки. Эта информация с самого начала структурирована - разложена по частотам. Вторичная слуховая кора (Secondary auditory cortex) делает первые шаги к осмыслению услышанного, фильтруя слуховую информацию и комбинируя ее с данными других органов чувств. Зона Вернике (Wernicke’s area), занимающая самую заднюю часть верхней височной извилины, распознаёт слова и играет ключевую роль в понимании речи. Изображение из книги D. Purves, G. J. Augustine, D. Fitzpatrick, et al. editors. Neuroscience. 2nd edition. Sunderland (MA): Sinauer Associates; 2001
Нима Месгарани (Nima Mesgarani) и Эдвард Чанг (Edward Chang) из Калифорнийского университета в Сан-Франциско исследовали работу нейронов вторичной слуховой коры (рис. 1) у трех пациентов, страдающих эпилепсией, которым в ходе подготовки к операции были вживлены микроэлектроды в верхнюю височную извилину (рис. 2).
Рис. 2. Расположение электродов на мозге испытуемых. Оттенки красного показывают, насколько различается сигнал от электрода при восприятии речи и в тишине. Изображение из обсуждаемой статьи в Nature
Ранее было показано, что нейроны вторичной слуховой коры «кодируют» (отражают) воспринимаемую человеком устную речь. Разработаны компьютерные программы, которые после специального обучения способны по данным об активности этих нейронов реконструировать тембр голоса говорящего и даже распознать произносимые слова (Formisano et al., 2008. “Who” is saying “what”? Brain-based decoding of human voice and speech; Pasley et al., 2012. Reconstructing Speech from Human Auditory Cortex). Но эти эксперименты проводились на испытуемых, которым давали слушать речь только одного говорящего. Месгарани и Чанг решили выяснить, какую информацию отразят нейроны слуховой коры, если говорящих будет двое, но испытуемого попросят слушать только одного из них.
В экспериментах использовались записи двух голосов - мужского и женского. Они произносили бессмысленные фразы из семи слов, например такие: «ready tiger go to red two now» или «ready ringo go to green five now». Первое, третье, четвертое и седьмое слова всегда были одни и те же. Второе слово - tiger или ringo - служило для испытуемого условным сигналом. На экране перед ним высвечивалось одно из этих слов, и нужно было прислушиваться к тому из двух говорящих, кто произнесет это слово. На пятом месте стояло слово, обозначающее один из трех цветов (red, blue или green), на шестом - одно из трех числительных (two, five или seven). Испытуемый должен был ответить, какое число и какой цвет назвал тот из двух говорящих, кто произнес ключевое слово. Фразы комбинировались таким образом, чтобы два голоса одновременно называли разные числа и цвета.
Авторы использовали разработанную ранее программу для реконструкции звукового сигнала по данным об активности нейронов слуховой коры. Программу предварительно «обучали», причем в ходе обучения испытуемым давали слушать голоса по одному, а не оба одновременно. Когда программа научилась хорошо реконструировать спектрограммы одиночных фраз, началась основная фаза эксперимента. Теперь испытуемые слушали одновременно два голоса, а спектрограммы, реконструированные программой по данным об активности нейронов, сравнивались с реальными спектрограммами фраз, произносимых двумя ораторами.
Оказалось, что в тех случаях, когда испытуемый успешно справился с заданием (то есть правильно назвал цвет и число, произнесенные тем голосом, который сказал ключевое слово), восстановленная по его нейронам спектрограмма отражала речь только одного из двух ораторов - того, кого надо было слушать (рис. 3). Если же испытуемый ошибался, восстановленная спектрограмма не была похожа на речь «правильного» оратора, а отражала либо неразборчивую смесь, либо коррелировала со спектрограммой второго, «отвлекающего» оратора. Как правило, в первом случае испытуемый не мог правильно воспроизвести слова ни одного из двух ораторов, а во втором он указывал число и цвет, названные «отвлекающим» голосом.
Рис. 3. Примеры осциллограмм и спектрограмм произнесенных фраз (a-d) и реконструкции спектрограмм, сделанные компьютерной программой по данным о работе нейронов слуховой коры (e-h). a, b - фразы, произнесенные двумя голосами - SP1 (мужской) и SP2 (женский) - по отдельности. c, d - фразы, произнесенные двумя голосами одновременно (на рисунке d синим и красным цветом показаны области, в которых громче звучит голос, соответственно, первого или второго оратора). e, f - спектрограммы, реконструированные компьютерной программой на основе работы нейронов слуховой коры при прослушивании двух фраз поодиночке. g, h - то же, при одновременном прослушивании обеих фраз (g - испытуемый прислушивается к первому голосу, h - ко второму). Изображение из обсуждаемой статьи в Nature
На заключительном этапе авторы использовали компьютерную программу - регуляризованный линейный классификатор (см. Linear classifier), обученную различать два голоса и произносимые слова по активности нейронов слуховой коры при прослушивании одиночных фраз. Когда этой программе предложили обработать данные по работе тех же нейронов при прослушивании двух голосов одновременно, она успешно определила и голос (мужской или женский), и слова (цвет и число), произнесенные тем из говорящих, к которому испытуемый прислушивался. В тех опытах, в которых испытуемый справился с заданием, по работе его нейронов программа успешно опознала голос в 93%, цвет - в 77,2%, число - в 80,2% случаев. В опытах, где испытуемый ошибся, программа либо выдавала случайный результат, либо опознавала «отвлекающий» голос и слова, им произнесенные.
Таким образом, исследование показало, что во вторичной слуховой коре речевая информация отражается уже в «профильтрованном» виде: работа нейронов кодирует речь того человека, к которому испытуемый прислушивается. Хотя мы по-прежнему не знаем механизмов этой фильтрации, уже можно по активности нейронов слуховой коры определить, кого из двух говорящих слушает человек и опознать услышанные слова.
http://www.nature.com/nature/journal/v485/n7397/full/nature11020.htmlhttp://elementy.ru/news/431830