May 28, 2023 16:18
Вышла статья*, в которой удалось показать возможность декодирования смысла человеческой речи по сигналам, генерируемым мозгом человека. Для регистрации активности мозга использовалась функциональная магнитно-резонансная томография (фМРТ). Авторы сперва записали активность мозга при прослушивании 16 часов естественной речи, а потом построили модель, предсказывающую наиболее вероятную последовательность слов, которую пациент проговорил про себя.
Проблема в том, что временнОе разрешение фМРТ около 10 секунд, а за это время в естественной английской речи говорится 20 слов. То есть, система должна была распознавать последовательности слов, а не отдельные слова. Чтобы тренировать систему, использовалась generative neural network language model - генеративная языковая на основе нейронных сетей (подобно ChatGPT) и большая база настоящих последовательностей слов, встречающихся в естественном языке. Каждый раз, когда на основе активности слуховых и языковых зон коры модель распознавала последовательность слов, она генерировала несколько вероятных продолжений, а из них потом выбиралось наиболее вероятное.
В эксперименте участвовали три человека, и для проверочной части - распознавания - зачитывался новый текст, не из того пула, по которому проводили тренировку. Для оценки точности декодирования брали несколько метрик, основанных на совпадении слов между исходным текстом и его расшифровкой по мозговой активности, а также метрику, оценивающую совпадение смыслов (BERTScore), т.к. один и тот же смысл можно передать разными словами. И вот это совпадение смыслов по BERTScore достигло 72-82%. Для эффективного декодирования участник эксперимента должен был привлекать внимание к прослушиваемому тексту, пассивного прослушивания недостаточно для успешного декодирования речи. Чтобы проверить этот результат, сделали еще и поведенческий эксперимент, в котором люди должны были восстановить исходный смысл по декодированному тексту, и в этом тесте на восстановление смысла среднее количество совпадений было 9 из 16 тестовых предложений.
Дальше протестировали способность системы распознавать внутреннюю речь. Участники эксперимента должны были пересказать "про себя" пять одноминутных историй во время записи активности мозга. Модель корректно распознавала эти истории. Таким образом, ее можно использовать для считывания внутренней речи пациентов, которые не могут говорить, например, вследствие паралича. Для распознавания внутренней речи необходимо согласие испытуемого на тренировку декодера - речь одного человека невозможно предсказать, используя декодер для другого человека. Более того, уже созданному декодеру достаточно легко "сопротивляться" - прослушиваемый текст не декодируется, если испытуемый делает в уме что-то еще, например, складывает числа или пытается вообразить животное. Получился хороший метод для общения с пациентами, которые не могут выразить себя, особенно для людей с locked in syndrome - "синдром лишения двигательных возможностей с сохранением сознания".
* Tang, J., LeBel, A., Jain, S. et al. Semantic reconstruction of continuous language from non-invasive brain recordings. Nat Neurosci 26, 858-866 (2023).