13 сентября я был в Амстердаме на Первом Симпозиуме по Обработке Социальных Сигналов (Social Signal Processing) - его организует европейское сообщество SSPnet.eu. Задача этих исследований состоит в том, чтобы научить компьютеры навыкам социального взаимодействия. Современные технологии делают невозможное: видеозаписи лекций с трансляцией слайдов можно посмотреть на странице:
http://sspnet.eu/virtual-learning-centre/
(очень приятно разворачивать на целый экран - хорошо видно слайды).
Приглашённый докладчик Jeffrey Cohn
рассказал вот про какие исследования. Два человека общаются через видеокамеры (видят на экране изображения друг друга). Но для одного из этих людей мы используем систему автоматического распознавания лица, и на экране показываем не изображение, а компьютерную модель. Вся мимика распознаётся в реальном времени и переносится на компьютерную «маску» этого человека (звук транслируется прямо - без изменений). Это изображение выглядит совершенно как натуральное (что подтверждается специальными исследованиями). Теперь мы можем вносить изменения в мимику человека, например, сокращать амплитуды движений - делая мимику как бы более зажатой (менее выразительной). Интересно, что другой человек в этой ситуации наоборот увеличивает выразительность (амплитуды в мимике), как бы компенсируя недостаточную эмоциональность первого собеседника.
Второй приглашённый докладчик Nick Campbell (мы приглашали его в прошлом году в Москву на CogSci2008 - может вы его там видели?)
рассказал про ритмы, которые образуются при передаче хода в диалоге. Когда люди общаются, то в некоторый момент один из них заканчивает говорить, а другой - начинает говорить. Такая смена говорящего в диалоге образует интересные ритмы - их видно при анализе аудиосигнала (при общении по телефону) и при обработке видеосигнала (при личном общении людей за столом), когда дополнительно к звуку мы исследуем количество движения человека с помощью автоматического анализа изображения с камеры.
Другие интересные доклады
A. Vinciarelli, S.Favre, H.Salamin & A.Dielmann
Canal 9: A Database of Political Debates for Analysis of Social Interactions - про видеокорпус теледебатов на швейцарском телевидении (на французском языке). Все эти записи (42 часа) целиком доступны на сайте
http://sspnet.eu/data/canal-9-political-debates/Правда целиком всё это занимает 9 гигабайт (но если нужно, мы можем договориться с нашим университетом всё это скачать, если кому-то интересно будет это исследовать). Доклад был посвящён описанию корпуса (а не конкретным исследованиям): если много людей работают над корпусом, то каждый из них может делать свою разметку, потом загружать её в сеть, так что разметка всех рабочих групп станет доступна - это очень ценная идея для организации совместной работы.
Вот доклад K. Bousmalis, M. Mehu & M. Pantic
Can agreement and disagreement be detected automatically? был сделан как раз на материале этого корпуса, там авторы пытались выделять сегменты (жесты), ответственные за выражение согласия или несогласия в диалоге (несогласию было уделено особое внимание). Хотя, мне кажется, классификация была разработана сравнительно поверхностно.
Мне понравился доклад M. Al Masum Shaikh, A.R.F. Rebordao, A. Nakasone, H. Prendinger & K. Hirose
An Automatic Approach to Virtual Living based on Environmental Sound Cues. Идея в том, чтобы сделать устройство, которое распознаёт окружающие человека звуки (звяканье ложки в стакане, печатанье на клавиатуре и т. п.). Для молодежи это прикольно, потому что можно автоматически апдейтить статус в твиттере (писать, чем человек занят в настоящий момент) - или чтобы анимировать двойника человека в виртуальной реальности (он там будет делать то же самое, что делает человек в реальной жизни). Для пожилых это устройство полезно, потому что может следить за ритмом жизни, и определять, здоров ли человек, всё ли у него в порядке. Конечно, эту штуку можно выключить :)
Доклад Y. Li & Y. Aloimonos -
The Action Synergies: Partitioning Human Motion Video into Action Segments - был очень необычным, потому что докладчики решили сделать спор друг с другом в духе Платона. На самом деле, они говорили о сегментации действий и движений. Если мы наблюдаем движение человека (он ходит, прыгает и т. д.) или если мы храним базу данных движений для робота - то и в том и в другом случае мы должны хранить эти действия не как единое целое, а в виде набора фрагментов, в виде некоторой грамматики, которая описывает последовательность действий. Так что они говорили, что действия нужно описывать точно так же, как описывается структура предложения (отдельные слова связаны грамматической структурой).
Мне очень-очень понравилась дискуссия по итогам конференции: Vinciarelli, Nijholt, Campbell и Cohn
обсуждали с аудиторией, что они считают самым важным в текущих исследованиях и технологиях. Нужно более подробные комментарии? Мне кажется, лингвистические технологии пока мало кто принимает во внимание; а речь - это самый важный социальный сигнал.
Другие доклады можно посмотреть тут:
http://sspnet.eu/virtual-learning-centre/ Следующий симпозиум по обработке социальных сигналов будет 4 декабря в Риме (точных данных я не знаю, но явно будет объявление на sspnet).
Чуть позже напишу про конференцию ACII2009, которая проходила 10-12 сентября (сразу перед этим симпозиумом).