Как мозг классифицирует звуки речи: wolf

wolf_kitses

Как мозг классифицирует звуки речи

Nov 28, 2024 20:38

«Команда исследователей сообщает, что мозг не реагирует на отдельные сегменты звуков, известные как фонемы (например, на звук б в слове "бой"), но вместо этого способен распознавать простейшие языковые элементы.
"Данный процесс напоминает работу зрительных детекторов для краев и форм, которые позволяют распознавать объекты, например бутылки, в независимости с какой точки зрения мы их рассматриваем", - говорит ведущий автор работы Эдвард Чанг.
Специальные зоны в речевых центрах отслеживают общие характеристики у звуков, создающиеся при перемещении губ, языка или голосовых связок, сходных по акустике и произношению, благодаря чему мы распознаём их вне зависимости от особенностей дикции говорящего.
Одни группы нейронов ("узнают") избирательно реагируют на:
- взрывные согласные (смычные) - п, т, к, б, г (губы и язык препятствуют движению воздуха, вырывающегося из лёгких),
другие - на фрикативные согласные (щелевые согласные), такие как с, з и в (они лишь частично заслоняют дыхательные пути, создавая трение воздуха).
- гласные заднего ряда
- гласные переднего ряда вместе с полугласными согласными.
"Изучив все звуки английской речи, мы обнаружили, что мозг имеет системную организацию для основных звуковых единиц. Мы преобразуем звуки в значения, фонемы в слова, а слова - в смысл, - подводит итоги Чанг (Edward F. Chang). - Это похоже на структурирование элементов периодической таблицы".

"Когда мы слышим чью-то речь [разные звуки], "загораются" различные области мозга, - комментирует один из авторов работы Нима Месгарани (Nima Mesgarani). - По сути, мы слышим поток различных элементов речи".
Мы можем узнать звуки речи независимо от того, кто и как их говорит: громко, тихо, растягивая слова или, наоборот, торопливо. «Б» мы услышим как «б», а «п» как «п» при любой дикции (разумеется, особо клинические случаи не в счёт). Отсюда можно сделать вывод, что в нашем мозге, вероятно, есть особая система, которая различает такие элементарные речевые единицы. Осталось только эту систему найти.
Например, среди согласных есть так называемые взрывные, которые характеризуются одинаковой манерой произношения и обладают рядом общих звуковых черт. Вот именно такие общие характеристики, объединяющие согласные - взрывные, фрикативные или сонорные, - и регистрировали нейроны зоны Вернике (верхней височной извилины/STG). Благодаря этому умению мозга различать систематические признаки звуков речи мы можем узнать звук «б» независимо от особенностей дикции говорящего.
Разумеется, мозг способен различать и отдельно взятые звуки, но в данном случае речь идёт о нейронных кластерах, которые сильнее реагируют именно на классовые признаки речевых звуков и не обращают внимания на индивидуальные отличия «б» от «д».
Похожая вещь есть и у обезьян, так что те, кто занимается проблемой возникновения речи, получили новую пищу для размышлений. "phoneme similarity space in STG is driven more by auditory-acoustic properties than articulatory ones"
P.S. Давно хотел сказать, что эпилептикам, участвующих в экспериментах, нужно поставить памятник за вклад в науку!
См. также по теме
А) "Получена детальная карта речевых паттернов, по разному запускающих единый нервно-мышечный аппарат звукопроизношения (язык, губы, челюсть и голосовые связки гортани)":
1. У гласных и согласных - разные группы нейронов, спасибо им за членораздельность.
2. Нейроны выделены в функциональные блоки - звуки на кончике языка (переднеязычные - [С],[З],[Ш]), с задней поверхности языка [Г], [К], [Х], губные звуки [М],[В],[Ф].
Нейронная активность для чистых гласных звуков разделилась на две части: та, которая нужна для округления губ (лабиализованные - [о],[у]), и необходимая для звуков ([а],[и], [ы], [э]), где губы округлять не нужно.
3. Мозг воспроизводит речь не фонетически (на слух), а механически (через сложную нервно-мышечную память звукообразования). То есть образец для сравнения - не звучащее слово, а набор движений языка, голосовых связок, губ и щёк [1].
Давно заметил, что длительное пребывание в новой языковой среде приводит к забыванию вокализации родного языка, что объясняет смешной акцент (американизация русского, например) по возвращению.
4. Скороговорки с похожими согласными (С и Ш, например) приводят к одновременной активации пересекающихся по общим паттернам нейронов. То есть сложность произнесения скороговорок определяется близостью групп нейронов, которые нужны для произнесения чередуемых в них звуков. Мозг ориентируется не на итоговый звук, а на работу языка.
В будущем, надеются авторы работы, эти сведения помогут в терапии речевых расстройств, от лёгких дефектов речи до немоты.
“If we can crack the neural code for speech motor control, it could open the door to neural prostheses,” Hickok says. “There are already neural implants that allow individuals with spinal-cord injuries to control a robotic arm. Maybe we could do something similar for speech?”
Источник

Б) Незаметная смерть распознавания речи.
В) Как заставить машину понимать живую речь?”
Источник ВКонтакте

P.P.S. Забавно, что системы коммуникации животных строятся тем же способом. Они базируются на системе оппозиций, задающих незначимые «атомы поведения» - модели движений (элементарные двигательные акты, ЭДА), и на устойчивых корреляциях по времени предъявления ЭДА. Последние «стягивают» их в уже значащие «молекулы поведения» - демонстрации, так что здесь наблюдается «двойное членение», присущее также и языку. Кроме случаев, о которых уже писал, см. «расшифровку» сигнальных систем маскового ткача [2] или полосатого мангуста, устроенных» именно так.

Понятно, что это изоморфизм, а не гомология, но красивый, и, главное, превосходно укладывающийся в параллелизм форм инстинктивного и выученного, который наблюдается и между разными видами животных, и между людьми и животными.

[1]Это изоморфизм с точным воспроизведением специфических форм демонстраций в скоординированных телодвижениях у животных, аналогия с фигурами танца эвристична в обоих случаях.
[2]Вокализации этого вида составлены из т.н. базовых элементов, варьирующих по продолжительности, частоте, громкости и тональности сигналов. При «производстве» сигналов они объединяются в пары с противоположными характеристиками, благодаря чему уменьшается двусмысленность каждого из них и «подчёркиваются» границы между сигналами, идущими друг за другом в последовательности, даже если они включают акустически близкие вокализации. В сущности это коммуникационный код.

биология человека, антропология, лингвистика, коммуникация животных, этология, изоморфизмы, орнитология, методология, проблемы происхождения, этограммы, физиология ВНД, язык, сигналы животных