В сложных условиях люди могут понимать смысл речи лучше, чем ИИ, поскольку мы используем не только уши, но и глаза.
Например, мы видим, как шевелится чей-то рот, и можем интуитивно понять, что звук, который мы слышим, должен исходить от этого человека.
Meta AI работает над новой диалоговой системой ИИ, которая должна научить ИИ распознавать тонкие корреляции между тем, что он видит и слышит в разговоре.
VisualVoice учится аналогично тому, как люди учатся осваивать новые навыки, обеспечивая аудиовизуальное разделение речи путем изучения визуальных и слуховых сигналов из неразмеченных видео.
Для машин это улучшает восприятие, а человеческое восприятие улучшается.
Представьте себе, что вы можете участвовать в групповых собраниях в метавселенной с коллегами со всего мира, присоединяясь к собраниям небольших групп по мере их перемещения по виртуальному пространству, во время которых звуковая реверберация и тембры на сцене корректируются соответствующим образом в соответствии с окружающей средой.
То есть он может одновременно получать аудио, видео и текстовую информацию и имеет более богатую модель понимания окружающей среды, что позволяет пользователям получать «очень впечатляющие» звуковые впечатления.
Время публикации: 20 июля 2022 г.