ChatGPT получил возможность синтеза речи и понимания изображений

Sep 27, 2023 20:14



OpenAI анонсировала важное обновление для ChatGPT - теперь генеративные модели GPT-3,5 и GPT-4 могут анализировать изображения и реагировать на них так же, как на текстовое общение. Вдобавок, мобильное приложение ChatGPT добавит функцию синтеза речи, которая вместе с уже имеющейся функцией распознавания речи обеспечит возможность вести полноценные устные беседы с чатботом.

OpenAI планирует предоставить все эти функции ChatGPT для пользователей подписки Plus и Enterprise «в ближайшие две недели». Синтез речи будет доступен только для устройств с iOS и Android, а распознавание изображений - в мобильных приложениях и на веб-сайтах, сообщает Ars Technica.

Функция распознавания изображений позволит пользователям загружать одно или несколько изображений в диалог с моделями GPT-3,5 или GPT-4. Как объяснили авторы промо-ролика, ее можно использовать в различных обстоятельствах, от поиска рецептов ужина через фотографию содержимого холодильника до починки сломавшейся бытовой техники. Также пользователи смогут выделять отдельные части изображений, чтобы фокусировать внимание чатбота.

Разработчики не пояснили, как работает эта многомодельная функция, но на основе информации о других многомодальных ИИ можно предположить, что модель кодирует текст и изображение в общее пространство, которое позволяет обрабатывать различные типы данных одной нейронной сетью.

Что касается голосового синтеза, которая позволяет вести устные беседы с ChatGPT, в ее основе лежит «новая модель преобразования текста в речь». Пользователь может выбрать один из вариантов голосов, которым будет говорить чатбот. Все они были созданы при участии профессиональных актеров озвучивания.

технологии

Previous post Next post
Up