
В сложных условиях люди могут понимать смысл речи лучше, чем ИИ, поскольку мы используем не только уши, но и глаза.
Например, мы видим, как двигается чей-то рот, и можем интуитивно понимать, что слышимый нами звук исходит от этого человека.
Meta AI работает над новой системой диалога с использованием искусственного интеллекта, которая должна научить искусственный интеллект распознавать тонкие взаимосвязи между тем, что он видит и слышит в разговоре.
VisualVoice обучается аналогично тому, как люди учатся осваивать новые навыки, обеспечивая аудиовизуальное разделение речи путем изучения визуальных и слуховых сигналов из немаркированных видео.
У машин это улучшает восприятие, а у людей — улучшается восприятие.
Представьте себе возможность участвовать в групповых встречах в метавселенной с коллегами со всего мира, присоединяясь к встречам небольших групп по мере их перемещения по виртуальному пространству, во время которых звуковые реверберации и тембры в сцене подстраиваются под окружающую среду.
То есть, он может получать аудио-, видео- и текстовую информацию одновременно, а также имеет более развитую модель понимания окружающей среды, позволяя пользователям получать «потрясающие» звуковые впечатления.
Время публикации: 20 июля 2022 г.