Компания Nvidia представила новый продукт, построенный на глубоком обучении нейросетей - алгоритм Vid2Vid Cameo AI. Он разработан с целью упростить и усовершенствовать рабочие процессы в условиях карантина. Vid2Vid Cameo берет статичную фотографию пользователя и анимирует ее мимикой в режиме реального времени, заменяя получившимся синтетическим видео потоковую видеотрансляцию. Технология кратно сокращает нагрузку на каналы связи и упрощает подготовку к видеосовещаниям - внешний вид перестает быть важным, достаточно иметь в запасе пару презентабельных фотографий.
С пользовательской точки зрения Vid2Vid Cameo работает просто. Участник видеоконференции выбирает свою фотографию или изображение любого персонажа, загружает ее на платформу и подключается к видеоконференции. Нейросеть создает наиболее комфортные условия для удаленной работы - пользователь может общаться в пижаме с растрепанным волосами, но будет говорить от лица представительного бизнесмена в костюме, объяснили разработчики.
Алгоритмы Nvidia используют обычную веб-камеру для наблюдения за мимикой и эмоциями пользователя, а затем переносят входные данные в популярный сервис конференций, такой как Zoom или Skype. Трансляция проходит с минимальными задержками, так как передается не видеопоток, а только данные изменения мимики, которые «на лету» программно накладываются на аватар. За счет того, что обработкой изображений занимается нейросеть на облачной платформе Nvidia, пользователь может общаться с «имитацией видео» даже с плохим интернет-соединением - без лишних артефактов и помех.
«Многие люди имеют ограниченную пропускную способность интернета, но все же хотят беспрепятственно общаться по видеосвязи с друзьями и семьей. Помимо помощи им, лежащая в основе технология может также использоваться для помощи аниматорам, фоторедакторам и разработчикам игр», - объяснил соавтор разработки Минг-Ю Лю.
Vid2Vid Cameo требует всего двух элементов для создания реалистичной «говорящей головы»: один снимок внешнего вида человека и данные о том, как изображение должно быть анимировано. Модель была обучена с помощью набора данных из 180 тыс. высококачественных видео с разными пользователями. Сеть научилась определять 20 ключевых точек, которые можно использовать для моделирования движения лица - система идентифицирует любые изменения, включая движения глаз, рта, щек и носа.
Как сообщает SiliconAngle, Vid2Vid Cameo не будет самостоятельным продуктом, а войдет в комплексную платформу Nvidia Maxine. Последняя включает набор программных решений с поддержкой ИИ для модернизации удаленной работы и создания нового контента. Maxine уже поддерживает алгоритмы для общения в дополненной реальности, обработку естественного языка и ряд дополнительных функций, вроде голосовых помощников и систем для быстрой расшифровки звука в текст.