• Герман Зубов

Технологии работы с "голосовым коктейлем"

Обновлено: авг. 21

Как известно, «голосовой коктейль» является наиболее сложным объектом для вычленения речи целевого диктора.


голосовой коктейль

В августе 2018 г. команда разработчиков Google на конференции SIGGRAPH 2018 (Ванкувер, Канада) продемонстрировала новую технологию AVSpeech, которая позволяет усилить речевой сигнал, исходящий от одного из находящихся в кадре видеофонограммы дикторов. Для получения результата пользователю необходимо лишь указать на изображение интересующего человека.

Эффект усиления речевого сигнала достигается совместным применением традиционных методов обработки звуковых сигналов (шумоочиски) и средств анализа артикуляции говорящего. Для обучения аудиовизуальной модели Ephrat разработчики использовали тысячи видео с различными ситуациями, размещенные на YouTube и других интернет-сервисах, а также синтетические «коктейльные вечеринки».

Очевидно, что данная технология может найти применение в судебной фоноскопии, для установления дословного содержания разговоров и атрибуции реплик, записанных в сложной акустической обстановке, а также при проведении ОРМ.

Существенным ограничением ее использования является то, что лица дикторов должны быть обращены в сторону ТВ-камеры.

Просмотров: 0Комментариев: 0

Недавние посты

Смотреть все