Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Редукция аудиоданных, обусловленная психоакустическими особенностями



Человек со своими органами чувств, в состоянии принимать огром­ные потоки информации. Но сознательно он способен обрабатывать лишь около 100 бит/с информации. Поэтому можно говорить о при­сущей ЗС избыточности. Значительной проблемой при цифровом пред­ставлении ЗС является сокращение имеющейся в них статистической и психофизической избыточности. Это позволяет уменьшить скорость ци­фрового потока при кодировании ЗС до предельно возможной величи­ны, при которой шумы, помехи и искажения остаются еще незаметными на слух даже для высококвалифицированных экспертов. Особенно важ­ную роль играет сокращение психофизической избыточности ЗС, осно­ванное на учете такого феномена слухового восприятия, как маскировка и ряда динамических свойств слуха. Напомним наиболее основные для дальнейшего изложения свойств слуха.

Большое значение имеет такое понятие как порог слышимости, ни­же которого акустические сигналы не воспринимаются. Величина порога слышимости не постоянна, она согласуется со звуковыми событиями и зависит, во-первых, от частоты и, во-вторых, от уровня других сигналов, на фоне которых воспринимается данный звук (см. гл. 3). Например, вследствие маскировки громкий звук может сделать неслышимым ти­хое звучание. При этом значение имеют формы спектров ЗС, их уров­ни и временная последовательность. Важно и то, идет ли речь о то­нах или звуках, имеющих широкополосные спектры. Достаточно полно исследовано, как изменяется (сдвигается) временно порог слышимости одного сигнала в присутствии другого, как тон и шум делают неслы­шимым звучание в соседних частотных полосах диапазона слышимых частот (см. кривые изменения относительного порога слышимости тона Nат в присутствии узкополосного мешающего шума Nаш. показанные на рис. 12.27,а), и как громкое звуковое событие маскирует восприятие более тихих звуков, которые, начинаются несколько раньше, т.е. опережа­ют сигнал высокого уровня на интервал времени –30¸20 мс (явление предмаскировки), или позже, т.е. запаздывают по времени на 0¸120 мс (явление послемаскировки). Если известно, какие доли (части) ЗС ухо воспринимает, а какие нет вследствие явления маскировки, то нуж­но вычленить и затем передать по каналу связи лишь те части сигнала, которые ухо способно воспринять, а неслышимые доли (части, соста­вляющие сигнала) можно отбросить.

Кроме того, сигналы можно квантовать с "возможно меньшим раз­решением так, чтобы шумы квантования, изменяясь по величине с из­менением уровня самого сигнала, еще не становились бы слышимыми. Учет всех этих свойств слуха и связанных с ним особенностей воспри­ятия позволяет сильно сократить общее число бит, требуемое для ци­фрового представления ЗС, т.е. сократить то количество информации, которое необходимо передать или запомнить, без потери качества звуча­ния. За счет устранения психофизической избыточности можно умень­шить требуемое для высококачественной передачи (записи) цифровых аудиоданных более чем в 10 раз.

Исследования, выполненные в данном направлении, позволили раз­работать два принципиально новых высокоэффективных метода цифро­вого представления ЗС: АSРЕС – Аudio Spectral Perceptual Entropics Coding (разработан фирмой АТ&Т, Тhоmsоn Вrаnd und Frаunhofer Geselschaft) и МUSICAM – Маking Раttern Universal Subband Integrated Coding And Multiplexing (разработан Институтом техники радиовещания в Мюнхене, фирмой Филипс и ССЕТТ). Метод позволит в будущем ис­пользовать для передачи высококачественных сигналов 3В узкополосные каналы (телефон, сети ISDN). Рассмотренные методы предполага­ется использовать также в системах цифрового радиовещания (Digital Audio Broadcasting – DАВ).

Кроме учета свойств слуха и связанным с этим сокращением объ­ема цифровой информации приняты во внимание также и экономические факторы. В частности, декодер должен быть максимально простым, что возможно, если алгоритм обработки сигналов при их декодировании чет­ко определен (задан). Тогда декодер будет максимально дешевым при массовом производстве. Кодирование даже при минимизации всех за­трат может оставаться сложным, а значит и дорогим, особенно, если учитывать свойства человеческого уха. Алгоритм обработки сигналов не должен быть жестким, ибо наши знания о механизмах слуха посто­янно развиваются и уточняются, меняются и характеристики звукового материала. Поэтому должна иметься возможность изменения сигналов управления при кодировании, которые формируются на стороне переда­чи и затем доводятся до декодера. Такой подход открывает возможность улучшения качества передачи. При этом пользователям не нужно будет постоянно менять свои декодирующие устройства, что важно с потреби­тельской точки зрения. В будущем изменения, по-видимому, коснутся методов кодирования на стороне передачи.

В идее МРЕG (Моving Pictures Experts Group) содержатся две психоакустические модели, которые могут альтернативно служить в качестве основы для редукции аудиоданных при их обработке с целью сокраще­ния избыточности передаваемых (консервируемых) цифровых ЗС. Воз­можная редукция аудиоданных в обоих моделях различна. Однако для декодирования этих сигналов используется один и тот же декодер.

В стандарте ISO/IEC 11172-3 (часть 3) предусмотрено несколько уровней (ступеней, слоев) компрессии цифровых аудиоданных, при этом декодеры более высокой ступени могут декодировать сигналы, подверг­нутые меньшей компрессии на стороне передачи. Возможно три ступени компрессии, каждой из которых соответствует своя скорость цифрового потока и своя рекомендуемая область применения. Перечислим основ­ные характеристики ступеней:

" Lауеr 1" (слой 1) – рекомендуется для применения в профессио­нальной области и в системах записи с достаточной емкостью памяти, перезаписью и записью со студийным качеством, очень высоким каче­ством звука, характеризуется небольшой сложностью и не слишком вы­сокой степенью редукции аудиоданных. Основные параметры: скорость цифрового потока при передаче составляет 192 кбит/с в полосе частот ЗС, равной 15 кГц; коэффициент компрессии равен 4; запаздывание (задержка) сигнала при обработке составляет 20 мс.

" Lауеr 2" (слой 2) – потребительская область, простые професси­ональные случаи применения, высококачественное радиовещание, сред­няя сложность и средняя степень компрессии аудиоданных при их ци­фровой обработке. Основные параметры: скорость цифрового потока 128 кбит/с в полосе частот ЗС, равной 15 кГц; коэффициент компрес­сии 6; запаздывание сигнала 40...50 мс.

"Lауег 3" (слой 3) – рекомендуется для передачи речи по узкополосным каналам в сети 150М в профессиональной области (в радиовеща­нии и в системах записи с малой емкостью памяти и средним качеством), отличается высокой сложностью и характеризуется следующими пара­метрами: скорость цифрового потока 64 кбит/с в полосе частот сигнала 15 кГц: время задержки сигнала более 50 мс.

Напомним, что уже в аналоговых системах для расширения дина­мического диапазона передаваемого ЗС в новейших компандерных си­стемах (" DоlЬу-А", -В, -С; dВх; " Нighom"; " Раnda") учитываются свой­ства слуха и прежде всего явление маскировки. Общим для таких систем является то, что на стороне передачи с помощью сжимателя поднимают уровни сигнала при тихих пассажах, а затем после передачи (или за­писи) при воспроизведении они обрабатываются снова в расширителе с целью компенсации ранее внесенных изменений.

Однако даже если при этом используется раздельная обработка ча­стей сигнала в полосах частот, то важным является то, что эти вы­деленные частотные диапазоны довольно широкополосные (например, "Dо1Ьу-А"), а значит имеющиеся в них помехи и шумы отличаются срав­нительно невысокими значениями порогов маскировки.

Сокращение объема цифровой информации, применяемое, напри­мер, при методе МUSICAM, предусматривает отбор по времени и спектру долей сигнала таким образом, чтобы выше порога слышимости помехи, шумы и искажения отсутствовали при слуховом восприятии. Иначе го­воря, после обработки в сигнале должны отсутствовать те частотные компоненты и те временные отрезки, которые при слуховом восприятии маскируются, частотные области без сигнала при этом должны быть свободны от информации и, следовательно, от шумов. Величина шага квантования изменяется так, что шум квантования остается неслыши­мым, т.е. маскируется полезным сигналом. Соотношение амплитуды полезного сигнала и минимального относительного порога слышимо­сти определяет в этом случае величину необходимого шага квантова­ния. Чтобы этот подход имел высокую эффективность, предварительно широкополосный ЗС разделяют фильтрами на узкополосные составля­ющие, близкие по полосе к критическим полосам слуха, где маскировка наиболее ощутима, так как обработка ЗС в слуховой системе выпол­няется именно в этих полосах.

В МUSICAM кодере спектр входного цифрового ЗС разделяется блоком полифаэных фильтров на 32 узкополосные составляющие (рис. 12.27,б). Преимуществом этих фильтров является относительно малое время задержки сигнала при одновременной компенсации искажений, возникающих за счет интерференции сигналов в местах стыковки по­лос. К тому же их реализация не очень сложна. Все п = 32 полос пропускания блока цифровых фильтров имеют постоянную ширину:

, (12.46)

где f д – частота дискретизации ЗС. После фильтрации следующие по времени друг за другом значения отсчетов каждой отдельной поло­сы собираются в один блок, после чего в нем определяется максималь­ное значение отсчета, которое определяет коэффициент масштаба. Мас­штабный коэффициент кодируется с помощью 6 бит, что обеспечивает перекрытие динамического диапазона сигнала в 120 дБ.

Параллельно этому в кодере в так называемой психоаутенической модели вычисляется относительный порог слышимости для спектраль­ных компонент выборки ЗС. Далее с учетом этого полученного значения рассчитываются величина SNR (отношение сигнал/маска) и требуемый шаг квантования. Обратим внимание (см. рис. 12.27,б), что параллель­но фильтрации для ЗС осуществляется быстрое преобразование Фурье (БПФ). Оно необходимо для расчета глобального порога маскировки и далее отношения SNR для каждой субполосы.

Параллельный анализ банком фильтров и применение БПФ обес­печивают незначительное время прохождения сигнала (менее 25 мс в кодере).

На рис. 12.28 в качестве примера показан амплитудный спектр (SPL, вертикальные линии с точками) в сравнении с относительным порогом слышимости (кривая сложной формы) и допустимыми максималь­ными по величине шумами квантования в полосах (заштрихованный диапазон) кодирования ЗС по методу МUSICAM.

Полезным сигналом является певческое исполнение сочетания зву­ков " ео" с основным тоном, равным 200 Гц, и целым рядом сопутствую­щих ему обертонов. Штриховая линия представляет собой абсолютный порог слышимости тона в тишине (кривая 1). Не все части этого сложно­го сигнала, если они существуют одновременно, могут быть восприняты слухом, несмотря на то, что каждая спектральная компонента лежит вы­ше абсолютного порога слышимости, полученного для тонального сиг­нала. Те части сигнала и шумы, которые находятся ниже относительно­го порога слышимости , неслышны. Этот порог получается из учета уровней спектральных частей (основного тона и обертонов) сигнала, по­падающих в каждую отдельную полосу частот. Для другого звука кривая порога очевидно будет выглядеть иначе. Все спектральные компо­ненты сигнала, оказавшиеся в одной полосе, обрабатываются в кодере МUSICAM совместно с одинаковым шагом квантования. В разных поло­сах величина шага квантования имеет свое значение и в соответствии с этим свой уровень шумов квантования (см. рис. 12.29, заштрихованная область). Уровень мешающего сигнала лежит всегда ниже относитель­ного порога слышимости (кривая LТ). Те спектральные компоненты, которые лежат по уровню ниже кривой LТ, передавать не требуется.

Итак, для сокращения объема цифровой информации с учетом психоакустической модели необходимы следующие шаги и вычисления:

1. Расчет спектральных компонентов с помощью БПФ из временной области в частотную.

2. Определение уровня интенсивности сигнала в каждой частич­ной полосе.

3. Определение абсолютного порога слышимости.

4. Выделение тональных (синусоподобных) и нетональных частей (шумоподобных) спектральных компонент.

5. Редуцирование спектральных компонент.

6. Вычисление индивидуальных кривых маскировки, оставшихся по­сле редуцирования спектральных компонент.

7. Вычисление (расчет) глобального порога маскировки.

8. Вычисление наименьшего значения порога маскировки для ка­ждой частотной субполосы.

9. Расчет SNR (отношения сигнал/маска) для каждой субполосы. Весь этот комплекс вычислений выполняеся в психоаутенической модели МРЕG кодера.

Последовательность операций, выполняемых в МРЕG кодере (ISO/ICE 11172-3), представлена на рис. 12.29. Блоком полифазных фильтров (с оптимизированным окном) входной сигнал разделяется на 32 части (субполосы), в каждой из которых для совместной обработ­ки используются 12 или 36 значений отсчетов, объединенных в группу. Субполосы имеют одинаковую ширину. Полосные сигналы дискретизируются с частотами, кратными 32 кГц. В слое 3 (" Layer 3") в группы объ­единяются б или 18 значений отсчетов (6х32 или 18х32). Быстрое пре­образование Фурье выполняется для 512 (" Lауеr 1") или 1024 (" Lауеr 2") значений отсчетов. Разрешение подсистемы при этом составляет f д/512 или соответственно f д/1024. В качестве частот дискретизации преду­смотрены уже известные нам значения 48, 44,1 и 32 кГц.

После того, как в кодере определены уровни сигнала в отдельных частотных субполосах, определяется абсолютный порог слышимости и анализируется, идет ли речь о тональных (синусоподобных) или нето­нальных (шумовых) частях сигнала. На основе использованной психо­акустической модели идентифицируются доли (части) сигнала, которые в значительной степени маскируются, и затем вычисляется отношение SNR, при котором шум еще маскируется полезным сигналом. Эти расче­ты в слоях 1 и 2 выполняются для каждой субполосы, а в слое 3 – для групп частотных полос. С помощью вычисленных значений SNR и уров­ней сигнала для каждой субполосы рассчитываются шаги квантования и необходимое для кодирования число бит. Общее число бит распре­деляется между субполосами так, чтобы выполнялись требования, от­носящиеся как к скорости передачи сигнала, так и к маскировке шумов в каждой субполосе. При большой компрессии неизбежные слышимые искажения стараются оформить по возможности как "приятные".

Расчеты, выполняемые для слоя 3 (" Lауеr 3"), более трудоемкие, поскольку обрабатываются несколько выборок исходного поворота ЗС одновременно. При форматировании цифровых данных объединяются информационные аудиоданные и данные управления. В слоях 1 и 2 для кодирования в каждой субполосе применяется обычная ИКМ с линей­ным квантованием, при этом в слое 2 квантованные значения могут быть объединены в группы. В случае слоя 3 применяются коды Хаффмена, длина которых переменная и тем самым адаптирована (по возможно­сти) к низким скоростям передачи битов. Наверняка многим известен код Морзе, в котором часто встречающиеся буквы имеют мало битов, а редко встречающиеся – много битов. В кодере слоя 3 (" Lауеr 3") использована и эта идея для получения большей компрессии данных.

Декодер сигналов (рис. 12.30), кодированных методом МUCICAM, проверяет входящие данные на ошибки, а также разделяет данные упра­вления процессом декодирования и сжатые информационные аудиодан­ные. Прежде всего разделенные на отдельные полосы сигналы экспандируются с помощью информации управления, в результате происхо­дит их обратное преобразование в исходную форму. В инверсном бло­ке фильтров различные спектральные части ЗС вновь объединяются в первоначальный сигнал. Результатом этого является цифровой поток аудиоданных на выходе декодера, который уже подготовлен для цифро-аналогового преобразования.

Поскольку при каждой передаче могут возникать ошибки, то для борьбы с ними (как об этом уже говорилось ранее) применяют коды с проверочными битами (см. разд. 12,7), которые служат для распознава­ния и коррекции ошибок. Затраты на эти операции должны быть как можно меньше. Поэтому есть смысл выяснить, какие погрешности пе­редачи слышимы, менее слышимы и неслышимы вообще. Эффективная защита в соответствии с этой оценкой должна реализоваться с разной силой. В нормах МРЕG ошибки по их слышимости классифицируют­ся по пяти ступеням. Сильно заметными на слух (катастрофическими) являются ошибки в битах, определяющих место (позицию) отдельных частей данных и значение коэффициента масштаба. Заметными явля­ются ошибки в трех старших битах коэффициента масштаба, менее ме­шающими – ошибки в младших низкозначимых битах коэффициента масштаба и в старших информационных битах субполосных составляю­щих ЗС, практически неслышимыми – ошибки в обоих самых младших низкозначимых информационных битах субполосных сигналах.

В настоящее время декодеры МUSICAM разработаны в виде инте­гральных микросхем, которые могут декодировать сигналы слоев 1, 2 и 3. Единый декодер, который может обрабатывать и сигнал слоев 1, 2 и 3, одновременно находится еще в стадии разработки. Не выяс­ненной пока остается также и предельно допустимая степень сжатия D сигнала, при которой искажения остаются еще незаметными на слух, особенно это относится к передаче стереофонического сигнала, где при сжатии D могут возникать и другие искажения, связанные с простран­ственным демаскированием.





Дата публикования: 2015-01-23; Прочитано: 547 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.014 с)...