• Герман Зубов

Еще раз о звукозаписи и алгоритмах сжатия

Обновлено: авг. 21

В связи с тем, что заказчики и партнеры продолжают забрасывать нас фонограммами и видеофонограммами, информационная ценность которых сведена к нулю неумелым выбором режима записи или устройства звукозаписи, еще раз напомню о следующем.


Нет сомнений в том, что современные алгоритмы сжатия звуковых сигналов, например, MPEG 1-2.5 Layer 3 или Advanced Audio Coding, обеспечивают качество звучания сопоставимое с восприятием сигнала, записанного без сжатия. Но сигнал от первоисточника далеко не всегда бывает идеальным. Одновременно с речью целевого диктора на диафрагму микрофона могут попадать сигналы помехи – шумы улицы, кондиционера, персонального компьютера и, в конце концов, речь посторонних людей. Кроме того, аналоговая часть канала записи становится объектом воздействия (наводок) электромагнитного излучения от окружающей нас электротехники (бытовой, офисной, средств беспроводной связи).

  1. Если запись информативного сигнала и помехи производится без сжатия, то в итоге сигналы просто складываются. И если результирующий сигнал не вышел за границы динамического диапазона канала записи, то к нему применима операция вычитания помехи при последующей обработке.

  2. При записи с использованием психоакустических алгоритмов кодирования (файлы форматов mp3, aac, mp4) из сигнала удаляются неслышимые человеком составляющие (эффекты частотной и временной маскировки), независимо от их информационной ценности. Соответственно, никаким способом удаленный сигнал потом не восстановить. И чем меньше информационная скорость кодирования (битрейт), тем больше потери при кодировании.

  3. Работа параметрических кодеков (файлы форматов gsm, amr) заключается в выделении из входного сигнала и последующей фиксации параметров речи одного человека. Если вблизи микрофона говорит одновременно два или более дикторов, то результирующий сигнал будет представлять собой непереваримую кашу.

Таким образом:

  • Параметрическое кодирование (gsm, amr) категорически не рекомендуется использовать.

  • Психоакустические алгоритмы MPEG 1-2.5 Layer 3 (файлы mp3) и Advanced Audio Coding (файлы aac и mp4) допустимо использовать для записи диалогов, в т.ч., телефонных разговоров.

  • Если запись производится в сложной акустической обстановке, в условиях шумов и помех или "голосового коктейля", то следует использовать ИКМ (PCM 16 и более bit) (файлы wav) или Lossless Audio Codec (ALAC) (файлы m4а).

  • Частота дискретизации сигнала при записи должна быть не менее 11.025 кГц. Лучше - 16 кГц.

Другие рекомендации по выбору диктофона и проведению звукозаписи изложены здесь.

Просмотров: 0Комментариев: 0

Недавние посты

Смотреть все