"Я не я, и голос не мой"

о возможностях фальсификации фонограмм с помощью
современных технологий синтеза устной речи

Г.Н. Зубов

Вероятно, следователям, судам, адвокатам нередко доводилось слышать вынесенное в заголовок заявление, а моим коллегам экспертам - проверять их истинность методами фоноскопической экспертизы. 
В последние годы у авторов подобных заявлений появилась надежда на то, что их не так легко будет опровергнуть даже экспертам.

 

Так, на форуме Adobe MAX 2016 всемирно известная компания продемонстрировала новый продукт, Adobe VoCo. По заявлению разработчиков VoCo способна озвучить текст голосом любого человека после анализа 20-минутной фонограммы его речи. Особо экзальтированные журналисты окрестили «новую» технологию «голосовым Photoshop» и потенциально опасным оружием в руках преступников.

Судя по реальным результатам работы VoCo (видео - ниже), распознать признаки синтеза (подделки) речи не составляет большого труда даже после первого прослушивания, т.к. используемая Adobe технология отнюдь не нова и представляет собой одну из вариаций компилятивного синтеза. 

Компилятивный аллофонный синтез или более совершенный его вариант - Hybrid Unit Selection TTS, - создает звучащую речь посредством соединения заранее записанных отдельных звуков и их сочетаний, и даже целых слов. Соответственно, Adobe VoCo присущи все недостатки подобного синтеза, а именно: скачки основного тона и резкие изменения фазы сигнала (в полосе частот речи человеческий слух чувствителен к фазовым изменениям) на стыках фрагментов. Очевидно, что если речь записана не в идеальных условиях, а на фоне даже незначительно изменяющегося шума для обнаружения границ фрагментов потребуется еще меньше усилий. Если же уровень шума на «образцах речи» будет сопоставим с уровнем речевого сигнала, то неизбежны ошибки разбиения речи на «кирпичики», из которых потом будет строиться речь. 
 

Также важно отметить следующее:

  • Adobe VoCo невозможно использовать в масштабе реального времени, например, без существенных, неестественно больших, задержек в телефонном разговоре.

  • Частотный и динамический диапазоны синтезированного сигнала не могут быть шире и больше чем у исходного, который использовался для создания «элементарных» фрагментов речи. 

Иначе говоря, если в качестве исходного материала для синтеза использовалась фонограмма телефонного разговора, то результат не будет звучать как записанный, например, в кабинете или студии ТВ.
 

По сути, фонограмма, на которой записана речь, созданная средствами компилятивного синтеза, является результатом монтажа, признаки которого на аудитивном и инструментальном уровне способен обнаружить квалифицированный эксперт.
 

Существенную проблему для судебных экспертов и органов расследования представляет собой синтез речи, который я бы назвал «непреднамеренным», или обусловленным обстоятельствами звукозаписи. В результате такого синтеза речь разных людей (например, участников одного или нескольких разговоров, записанных в одних и тех же условиях) может звучать очень похоже, а спектрально-формантные характеристики могут быть близки до неразличения при использовании типовых, традиционных, методов исследования. Возможна и иная ситуация, при которой переданная по каналу телефонной связи и записанная речь участников разговора оказывается не похожей на оригинал. 
С подобными явлениями можно столкнуться при анализе фонограмм телефонных переговоров, которые велись с использованием подвижной телефонной связи стандарта GSM в условиях плохого приема или воздействия акустических помех. Под «плохим приемом» в данном случае я понимаю ограниченную пропускную способность канала связи и пониженную информационную скорость передачи сигнала от абонента к базовой станции и обусловленную этим необходимость более сильного сжатия речевого сигнала. В общем случае, чем меньше пропускная способность канала связи и ниже информационная скорость передачи сигнала, тем меньше идентификационно значимых характеристик голоса и речи может быть передано и записано, тем с большей вероятностью переданные характеристики могут быть искажены при сжатии из-за ошибок кодирования под воздействием помех.

 

Для лучшего понимания и осознания важности проблемы приведу такой пример из собственной практики. В начале 00-х, еще во время работы в «Центре речевых технологий», к нам (сотрудникам экспертного отдела) обратились с просьбой восстановить содержание фонограммы речи. Запись речи производилась в помещении, в котором находилось несколько человек и был включен телевизор. При записи использовалось GSM-кодирование. При первом прослушивании у нас сложилось впечатление, что участники записанного разговора говорят на иностранном, незнакомом нам, языке. И только по фразам, произнесенным одним из участников разговора в короткие моменты тишины (в отсутствие сигналов от других источников), экспертам стало понятно, что разговор велся всё-таки на русском. А «иностранная» речь стала результатом некорректного кодирования сигнала в устройстве звукозаписи.

 

Почему же так произошло? Дело в том, что в начале 00-х цифровые диктофоны отличались ограниченным объемом памяти (обычно – несколько мегабайт) и для записи в течение длительного времени приходилось сжимать сигнал до информационной скорости в несколько килобит в секунду (то же самое происходит в мобильном телефоне в случае ограниченной пропускной способности канала связи с базовой станцией). Для сравнения - между АТС сигнал передается со скоростью 64 кбит/с.

Сжатие параметрическими кодеками типа GSM-AMR производится по следующему принципу: кодируется и передается (или записывается) информация только о 3-4 спектральных максимумах речевого сигнала, находящихся в полосе частот телефонного канала (примерно 300…4000 Гц.). Сигналы, которые кодек посчитает шумом, вообще не кодируются, не передаются и не записываются. Очевидно, что при автоматическом выделении шума могут возникать ошибки, в результате которых речеподобная помеха остается нетронутой кодеком, а фрагменты речи, замаскированные широкополосным шумом, теряются. Корме того, кодек не способен различить, кому из дикторов принадлежит тот или иной максимум как во временной, так и в спектральной области, он выбирает самые мощные, которые могут принадлежать и разным дикторам. Например, два нижних (по частоте) максимума - от одного диктора, два верхних – от другого, или все максимумы одного звука или последовательности звуков – от одного диктора, а следующая за ним последовательность звуков – от другого. И в данном случае точно получается «компот». Но при чем здесь синтез речи? А при том, что после обработки GSM-кодеком по каналу связи передается (или сохраняется в памяти устройства звукозаписи) не сам сигнал или результаты его оцифровки, а лишь параметры тех самых спектральных максимумов (энергия и частота в различные моменты времени), по которым он восстанавливается или синтезируется на базовой станции до формата ИКМ 16 бит , затем сразу кодируется «щадящим» кодеком до 8 бит (A- или мю-закон) и передается на АТС и к системе записи СОРМ.

Подобная технология кодирования-декодирования может использоваться и для преднамеренного искажения звучащей речи. Так, при анализе фонограмм речи одного из захватчиков судна «Арктик-Си» (https://ru.wikipedia.org/wiki/Arctic_Sea) экспертами нашей организации было установлено, что диктор использовал исказитель голоса, принцип работы которого основан на выделении и размножении (со смещением относительно оригинала) спектральных максимумов речи.

 

Несомненно, применение судебными экспертами спектрально-формантных методов исследования без учета подобных особенностей кодирования сигналов может привести к ошибкам идентификации, особенно в случаях, когда речь звучит на незнакомом эксперту языке.

Несомненно, применение судебными экспертами спектрально-формантных методов исследования без учета подобных особенностей кодирования сигналов может привести к ошибкам идентификации, особенно в случаях, когда речь звучит на незнакомом эксперту языке.

 

Но гораздо более серьезную угрозу для возможности обнаружения подделки представляют технологии синтеза, основанные на использовании искусственного интеллекта и моделей речевого тракта. Но на них остановимся  в следующий раз.