Особенности распознавания по звучащей речи лиц, 
находящихся в кабине летного экипажа

Г.Н. Зубов, П.И. Зубова.

Не является тайной, что переговоры, которые осуществляются летным экипажем воздушного судна (далее - ВС) с использованием средств голосовой связи,  а также внутрикабинные переговоры записываются находящимся на борту самолета специальным магнитофоном (Рис. 1). Источниками речевых сигналов для магнитофона являются ларингофоны или микрофоны авиагарнитур пилотов, а также микрофоны, установленные в кабине летного экипажа («открытые» микрофоны) (Рис. 3).  Записанные фонограммы переговоров в дальнейшем используются в расследовании авиационных происшествий (АП). Используемое в обиходе название, «черный ящик», обусловлено не цветом магнитофона (как можно убедиться по Рис. 1 и 2),  а невозможностью вмешательства экипажа ВС в его работу.    

Рис. 1. Слева - вскрытый контейнер с аналоговым бортовым 4-канальным магнитофоном МАРС-БМ самолета Ту-154М [1].

Справа - цифровой 4-канальный магнитофон L3 FA2100 самолета B-737-800 [9, 10].  

Необходимость в атрибуции, или установлении принадлежности звучащей в кабине пилотов речи конкретному лицу, возникает в случаях, когда управление ВС осуществляется летным экипажем, состоящим из нескольких человек, а также в случаях, когда невозможно исключить вмешательство в управление ВС или в действия пилотов лиц, не входящих в состав летного экипажа. При этом, зачастую, интуитивно используемые расследователями виды или методы распознавания дикторов* можно классифицировать следующим образом:

  • функциональная идентификация и идентификация канала связи;

  • опознание;

  • криминалистическая идентификация.

 

Функциональная идентификация, идентификация канала связи и опознание используются комплексно одними и теми же специалистами (расследователями АП). На этапе функциональной идентификации устанавливаются речевые сообщения, которые в силу своего содержания и/или используемого национального языка могут принадлежать только конкретному члену летного экипажа -  командиру, второму пилоту, штурману и др.**, например:

  • команда «…» может исходить только от лица, исполняющего обязанности (функции) командира воздушного судна, а подтверждение ее выполнения – исключительно от второго пилота;

  • языком, на котором, ведутся радиопереговоры, владеет только один из членов экипажа.

Для проведения функциональной идентификации требуются прежде всего знания специфики выполнения полетов, в т.ч., правил летной эксплуатации и функциональных обязанностей членов летного экипажа. При этом вероятность совершения ошибки, особенно по коротким фразам, является наиболее низкой (по сравнению с другими методами распознавания).  Очевидно, что необходимым условием успешности использования данного вида идентификации является разборчивость речи на уровне слов, или разборчивость  большинства слов, составляющих реплику/фразу и не оставляющих сомнений в содержании неразборчивых. 

Существенно облегчить атрибуцию речевых сигналов, передаваемых по каналам связи (радио- или внутрикабинной), может идентификация каналов. Идентификация канала связи осуществляется посредством выделения индивидуализирующих признаков, в числе которых могут быть:

  • уровень речевого сигнала, а также уровень  и спектральный состав генерируемого каналом шума;

  • характер искажений, привносимых по причине неравномерности АЧХ канала связи (Рис. 2);

  • амплитуда, длительность и форма импульсных сигналов, сопровождающих включение-выключение канала связи (начало и завершение речевого сообщения);

  • уровень и спектральный состав шума, возникающего по причине задувания диафрагмы микрофона выдыхаемым потоком воздуха.         

Рис. 2. Результат (внизу) сравнения средних спектров (вверху) шума в канале записи СПУ командира и второго пилота воздушного судна

​Сформировавшиеся у участников расследования при проведении функциональной идентификации и идентификации каналов связи слуховые образы затем используются для опознания - установления принадлежности тех фрагментов речи, к которым не могут быть применены методы функциональной идентификации. 

 

Для опознания могут также привлекаться лица, хорошо знавшие идентифицируемых членов экипажа (коллеги).    

При проведении опознания и оценке достоверности его результатов важно знать, что на надежность его результатов значительное влияние оказывают следующие факторы:

  • Продолжительность фрагментов речи, по которым производится опознание.

  • Сопоставимость вида и стилей речи установленного и опознаваемого диктора.

  • Сопоставимость характеристик речевых сигналов установленного и опознаваемого диктора: уровень и частотный диапазон сигналов; характер искажений, обусловленных нелинейностью АЧХ каналов записи и воспроизведения, недостаточным динамическим диапазоном канала записи; отношение сигнал/шум.

  • Сопоставимость частотных и временны́х характеристик шумов, маскирующих речь известного и опознаваемого диктора.

  • Сопоставимость эмоционального состояния дикторов в момент говорения, которое во время полета может меняться в широких пределах. Не только момент катастрофы, но и взлет и, особенно, посадка являются заведомо стрессовыми ситуациями для членов летного экипажа.

  • Способность самого опознающего воспринимать особенности голоса и речи опознаваемого. При этом на слух расследователя могут оказывать влияние: особенности строения слухового аппарата; натренированность слуха или его дефекты; заболевания; физическое состояние в момент прослушивания (усталость), а также технические характеристики устройств, образующих канал воспроизведения, и т.п. 

Непредсказуемое действие вышеперечисленных факторов не позволяет считать результаты опознания надежными и полагаться на них (если в этом есть необходимость) при установлении причин летного происшествия. Немаловажным является и то, что фонограммы внутрикабинных переговоров, записанных с использованием «открытых» микрофонов, как правило, отличаются низким качеством звучания и низкой разборчивостью речи по объективным причинам:

  • относительно низкий уровень речевого сигнала из-за удалённости источника речи от микрофона (Рис. 2);

  • маскировка информативного речевого сигнала другими речевыми сигналами сопоставимого уровня, а также шумами и помехами различного происхождения (Рис. 3): шумы двигателей и системы кондиционирования; звуковая (в т.ч. речевая) сигнализация;

  • потери информативного сигнала низкого уровня, искажения сигналов высокого уровня из-за недостаточного динамического диапазона канала записи; 

  • микширование (сложение) сигналов (информативных и помех) от нескольких «открытых» микрофонов*** (Рис. 3);

  • искажения, обусловленные значительной неравномерностью АЧХ канала связи и записи. 

Рис. 3. Кабина летного экипажа 
Ту-154М*** с  указанием мест расположения «открытых» микрофонов

Рис. 4. Осциллограммы (вверху) и 
динамические спектрограммы (внизу) синхронно записанных с применением авиагарнитур и «открытых» микрофонов 
речевых сигналов летного экипажа
B-737 в условиях полета

Следует также отметить, что разница между качеством звучания***** речи на фонограммах, записанных аналоговыми (на «старых» ВС, на Рис. 1 слева) и цифровыми (на современных ВС, на Рис. 1 справа) бортовыми магнитофонами, на практике оказывается несущественной. В гораздо большей степени качество зависит от характеристик микрофонов (направленность, чувствительность, АЧХ, динамический диапазон) и их расположения относительно источников сигналов     

По вышеизложенным причинам вероятность ошибки опознания может достигать нескольких десятков процентов. Так, в аналитическом обзоре «Распознавание личности по голосу»[7] приводятся следующие данные о вероятности верного распознавания диктора по пятисекундной фразе (при попарном сравнении): «53% правильного распознавания фонетистами, которым было разрешено пользоваться любыми техническими средствами, и 46% - не фонетистами. В других тестах диапазон составлял 38-76%. Вероятность ошибки идентификации в экспериментах, где требовалось определить, принадлежат ли два предложения одному и тому же диктору, в среднем по дикторам, оказалась близкой к 22%, т.е. около 78% правильной идентификации».

Несмотря на то, что авторы ссылаются на данные о надежности распознавания дикторов 17-летней давности (2000 г.), они кардинально не отличаются от результатов тестирования Human Assisted Speaker Recognition (HASR), проведенных NIST в 2010 г. (Рис. 5)[8]. Следует отметить, что в HASR использовались фонограммы низкого качества, не позволяющего применять в отношении них автоматизированные методы исследования.

Рис. 5. Результаты испытаний HASR1, проведенных NIST в 2010 г. [8].

Низкая надежность опознания пилотов или иных лиц, находящихся в кабине летного экипажа, обуславливает необходимость использования современных методов криминалистической идентификации/верификации и привлечения к расследованию судебных экспертов или иных специалистов, обладающих специальными знаниями в области судебной фоноскопии в достаточном объеме.

И если для фонограмм речи, источниками сигналов для которых были микрофоны авиагарнитур, применимы практически любые используемые в практике государственных судебно-экспертных учреждений методики идентификации по голосу и речи (ограничения могут быть связаны только с недостаточной для проведения всестороннего анализа продолжительностью фрагментов речи), то в отношении речи, записанной с «открытых» микрофонов, наряду с аудитивно-лингвистическими, могут использоваться исключительно «ручные» спектрально-формантные методы исследования, обеспечивающие полный контроль над процессом со стороны специалиста.

Но даже с помощью этих методов получить положительный результат (определенный вывод) можно лишь после предварительной обработки фонограмм, называемой «шумоочисткой». Следует отметить, что термин «шумоочистка» не совсем точно отражает суть процедуры обработки, т.к. в результате такой очистки общий уровень шума может и возрасти, а отношение сигнал/шум уменьшиться. Более того, нет однозначной зависимости между отношением сигнал/шум и степенью разборчивости записанной речи, если энергия шума распределена по спектру неравномерно. Очевидно, что сравнительно мощный шум, энергия которого сконцентрирована в полосах между 100 и 200 Гц или 4 и 5 кГц, будет в гораздо меньшей степени влиять на разборчивость речи, чем менее интенсивный по мощности шум в полосе частот первой и второй формант.

Следует также отметить, что эффективность шумоочистки в значительной степени зависит от характеристик устройств, образующих канал записи. Восстановить сигнал или его компоненты, утраченные из-за неравномерности АЧХ и несоответствующего условиям звукозаписи динамического диапазона, практически невозможно.

Ввиду важности процедуры «шумоочистки» при проведении криминалистической идентификации целесообразно, во-первых, определиться с ее содержанием, которое заключается в обработке звукового сигнала в частотной и временно́й областях с целью повышения разборчивости речи и выраженности идентификационно значимых признаков голоса и речи.

Шумоочистка в рассматриваемом случае сводится к увеличению-уменьшению амплитуды сигнала во временно́й области и усилению-ослаблению энергии составляющих сигнала в частотной области по алгоритму, обусловленному свойствами человеческого слуха или требованиями инструментального идентификационного исследования. При этом задачей шумоочистки при проведении аудитивно-лингвистического анализа является устранение эффектов частотной и временно́й маскировки и, соответственно, повышение разборчивости звучащей речи на уровне слов, слогов и звуков. А задачей шумоочистки при проведении спектрально-формантного анализа речевых сигналов - обеспечение возможности установления положения формантных максимумов в границах частотного диапазона канала записи. Шумы, при этом, следует классифицировать по их поведению в частотной и временно́й областях: широкополосный-тональный/гармонический (полигармонический); стационарный-нестационарный (в частотной и временно́й области); непрерывный-прерывающийся; импульсный; низко-средне- и высокочастотный, и по происхождению: акустический; механический.

Во-вторых, выбрать методы обработки и определиться с последовательностью их применения.

С учетом возможностей и особенностей работы современных средств и методов шумоочистки [5, 6] можно предложить следующий универсальный алгоритм обработки звукового сигнала (Рис. 6):

01. Нормализация сигнала по амплитуде.

02. Сглаживание мощных импульсных помех.

03. Сегментация фонограммы на участки, в границах каждого из которых частотно-временны́е характеристики маскирующего речь шума неизменны или меняются незначительно (Участки типа 1, или У1). Выделение участков с быстроменяющимися (в частотной и временно́й области) помехами (Участки типа 2, или У2). 

04. Ручная обработка динамических спектрограмм У2 в их графическом представлении с целью снижения мощности частотных составляющих помехи.

05. Инверсная фильтрация (эквализация среднего спектра).

06. Сглаживание сигнала по амплитуде с целью уменьшения разницы между амплитудой относительно слабых и мощных информативных речевых сигналов.

07. Фильтрация широкополосного шума (по образцу).   

08. Придание среднему спектру сигнала формы, соответствующей спектру типового речевого сигнала и свойствам слуха специалиста. Фильтрация низко- и высокочастотных составляющих сигнала, не содержащих частотных составляющих речи, используемых при идентификации.

Заключительной операцией на каждом этапе является нормализация сигнала на максимум амплитуды.

Некоторый дополнительный положительный эффект шумоочистки может быть достигнут посредством объединения двух по-разному обработанных сигналов в "композитное" стерео: например, шумоочистка сигнала левого канала проводится строго в соответствии с предложенным алгоритмом (Рис. 5),  а при обработке сигнала правого канала исключается 5-й этап.

Рис. 6. Алгоритм шумоочистки, применимый для большинства фонограмм внутрикабинных переговоров.

Важно отметить, что стремление к максимальному подавлению широкополосного шума, особенно, адаптивными методами фильтрации зачастую оборачивается искажением информативного речевого сигнала  до полной неузнаваемости диктора на аудитивном уровне восприятия. Более того, в результате модулирующего воздействия алгоритма шумоочистки обработанный шум может приобрести свойства, характерные для речи. Также важно понимать, что для настройки на помеху или на изменение ее характеристик любому адаптивному методу требуется время (время адаптации), которое может даже превышать время звучания короткого (несколько секунд) речевого сообщения или не соответствовать скорости изменения параметров помехи. Поэтому ключевые этапы обработки сигнала должны сопровождаться аудитивным и визуальным (по динамическим спектрограммам) контролем для исключения недопустимых искажений или потерь речевого сигнала. Поэтому ключевые этапы обработки сигнала должны сопровождаться аудитивным и визуальным (по динамическим спектрограммам) контролем.     

Аудитивно-лингвистический анализ фонограмм внутрикабинных переговоров также имеет ряд важных особенностей, обусловленных характером звучащей речи, другими (не связанными с негативным влиянием шума) условиями и обстоятельствами говорения и звукозаписи. Перечислим основные:

  • Объектом атрибуции чаще всего являются команды или речевые сообщения о фактах, явлениях или событиях (функционально-смысловой тип речи). При произнесении, как правило, используется официально-деловой (с жаргонизмами в критические моменты полета) стиль речи. 

  • Небольшая продолжительность атрибутируемых фраз,  зачастую состоящих из одного-двух слов.     

  • Отсутствие или крайне редкое использование пилотами вводных слов, междометий, заполненных звуками голоса пауз хезитации в "нестрессовой" обстановке. 

  • Существенные изменения уровня речевого сигнала во время говорения в соответствии с изменениями ориентации голосового источника относительно микрофона (удаленности и направления исходящего от источника прямого сигнала относительно плоскости диафрагмы микрофона).

  • Наличие искажений, обусловленных форсированием голоса в условиях шума.  

  • Одновременная запись речи пилота каналом записи переговоров осуществляемых с использованием средств голосовой связи, и каналом записи "открытого" микрофона.  В канале записи "открытого" микрофона, как уже отмечалось выше, речевой сигнал отличается существенно меньшим уровнем и маскировкой акустическими шумами, но при этом он имеет более широкий частотный диапазон, не ограниченный частотным диапазоном аппаратуры голосовой радиосвязи (обычно верхняя граница не превышает 3.5 кГц, Рис. 4). 

  • Наличие повторяющихся слов и фраз (команд и реакций на них). Невозможно полностью исключить взаимопроникновение каналов как на акустическом, так и на электронном уровне.  

  • Подверженность повторяющихся слов и фраз различным фонетическим процессам (ассимиляции, упрощению фонетического состава слов и т.п.), в результате чего другие члены экипажа и диспетчеры распознают такие фразы и слова безошибочно, а у судебного эксперта их распознавание может вызывать затруднение.

  • Использование специальных терминов, а также обиходных слов и фраз в непривычном для судебного эксперта значении. Например, в радиообмене "работайте" означает "установите связь с ...", а "контролируйте" в значении "прослушивайте (на частоте)" [11].   

  • Известное число лиц, входящих в летный экипаж и низкая, в большинстве случаев, вероятность появления посторонних лиц в кабине пилотов.

  • Повышение темпа речи, снижение словарного многообразия, сокращение длины отрезков речи, произносимых без "пауз нерешительности",  в периоды эмоциональной напряженности [12]. 

  • В процессе длительного полета - вызванное утомлением обеднение лексического состава, снижение четкости артикуляции и темпа речи [12].   

  • Наличие в составе летного экипажа лиц различной национальности, но общающихся между собой и ведущих официальные переговоры на неродном (как минимум, для одного члена экипажа) языке [9].  Различная степень владения неродным языком.  Например, переговоры внутри кабины летного экипажа самолета президента Польши [1, 2] велись на польском языке, а радиопереговоры – на английском, польском и русском языках.

Литература:

1. Окончательный отчет по расследованию авиационного происшествия (Ту-154М, б/н 101) [Электронный ресурс] / Интернет-сайт  Межгосударственного авиационного комитета. URL http://www.mak-iac.org/upload/iblock/807/ finalreport_rus.pdf - 210 с.

2. Окончательный отчет по расследованию авиационного происшествия №: 192/2010/11 самолета Ту-154M б/н 101 Электронный ресурс] / URL https://pravo.ru/store/doc/doc/FinalReportTu-154MRussian.pdf - 351 с.

3. Экспертное заключение № 10/50 сотрудников ООО «Форенэкс» [Электронный ресурс] / Интернет-сайт Межгосударственного авиационного комитета. URL http://www.mak-iac.org/upload/iblock/1e5/expert_forenex.pdf. - 25 с.

4. П.И. Зубова, С.Л.Коваль. Идентификация личности по голосу и звучащей речи на основе комплексного анализа фонограмм / Теория и практика судебной экспертизы: Научно-практический журнал. – М.: РФЦСЭ, 2007, №3 (7)2. – С. 68-76

5. М.Б. Столбов, Г.Н. Зубов. Программные средства шумоочистки записей речи / Журнал «Речевые технологии» М.: 2014, № 1-2/2014. – С. 103-113.

6. С.Л. Коваль, Г.Н. Зубов. Влияние шумоочистки на результаты последующего идентификационного исследования / Журнал «Системы безопасности» 6/2004. – М.: 2004. – С. 132.

7. В.Н. Сорокин, В.В. Вьюгин и А.А. Тананыкин. Распознавание личности по голосу: Аналитический обзор [Электронный ресурс] / Информационные процессы, Том 12, №1. URL http://www.jip.ru/2012/1-30-2012.pdf - C. 1-30

8.  Craig S. Greenberg, Alvin F. Martin, Mark A. Przybocki. Human Assisted Speaker Recognition [Электронный ресурс] / NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY, INFORMATION TECHNOLOGYLABORATORY, INFORMATION ACCESS DIVISION URL https://www.nist.gov/sites/default/files/documents/oles/8-Greenberg_Craig-Human-Assisted-Speaker-Recognition.pdf

9. Промежуточный отчет по результатам расследования авиационного происшествия. Катастрофа самолета Boeing B-737-800 компании Fludubai 19.03.2016 г. [Электронный ресурс] / Интернет-сайт  Межгосударственного авиационного комитета. URL http://mak-iac.org/upload/iblock/dc9/%D0%9F%D1%80%D0%BE%D0%BC%D0%B5%D0%B6%D1%83%D1%82%D0%BE%D1%87 %D0%BD%D1%8B%D0%B9%20%D0%BE%D1%82%D1%87%D0%B5%D1%82%20A6-FDN%20(ru).pdf - 16 с.

10. Solid-State Cockpit Voice Recorder The L-3 FA2100  [Электронный ресурс] / URL http://www.l-3ar.com/PDF_Files/MKT048_ FA2100CVR.pdf 

11. ФЕДЕРАЛЬНЫЕ АВИАЦИОННЫЕ ПРАВИЛА «Осуществление радиосвязи в воздушном пространстве Российской Федерации» [Электронный ресурс] / Интернет-сайт Авиационно-транспортного колледжа Санкт-Петербургского государственного Университета гражданской авиации.URL http://atk.spbguga.ru/wp-content/uploads/2012/10/FAP_109.pdf - 72 c. 

12. Психологические основы взаимодействия в экипаже: учебное пособие / сост. Д.А. Естигнеев, В.Х Копысов. - Ульяновск: УВАУ ГА, 2007 - 194 с.

13. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. Перевод с немецкого / под ред. Б.Г. Белкина. М.: Связь, 1971 - 255 с.  

14. Алдошина И.А. Основы психоакустики [Электронный ресурс] / Архив журнала "Звукорежиссер" 1999-2002 гг. URL http://lib100.com/book/music/osnovi_psihoakustiki/pdf/   

* В данном случае – члены летного экипажа.

** В государственной и коммерческой авиации наименования членов экипажа могут различаться.

*** В кабине летного экипажа может быть установлено от одного, как на B-737, до трех, как на Ту-154, «открытых» микрофонов.

**** [Электронный ресурс] URL http://img-fotki.yandex.ru/get/9747/174452300.4a/0_eca12_ebacc503_orig.

***** Качество звучания - комплексная характеристика, отражающая степень разборчивости речи и узнаваемости его источника, комфортности прослушивания в течение длительного времени.