Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Процесс речеобразования



В формировании речи участвуют легкие, трахеи, гортань, рот и нос. При изменении положения губ, языка, челюстей меняется конфигурация ротовой полости, которая представляет собой нелинейную акустическую систему, а, следовательно, и резонансные частоты акустической системы. При формировании звонких звуков (гласных и согласных) голосовые связки колеблются, пропуская поток воздуха в виде квазипериодической последовательности треугольной формы. Эти последовательности содержат много гармоник частоты основного тона, затухающих приблизительно по закону 12 дБ/октава. Резонансная система голосового тракта усиливает одни из этих гармоник. И подавляет другие. Говорящий управляет частотой основного тона только в определенных пределах. Так, у взрослого мужчины частота основного тона меняется в пределах от 50 до 250 Гц, у взрослой женщины от 120 до 300 Гц и до 350 Гц у детей.

В простейшем случае, при произнесении нейтральны (безударных) гласных, голосовой тракт можно представить в виде трубы длиной L, cодной стороны которой в узле колебаний расположен источник звука (голосовые связки), а другая, где находится пучность звуковых волн, открыт (раскрытые губы). Такая труба резонирует на нечетных гармониках собственной частоты: ‚ 3 , 5 . Тогда частоту можно найти как = где = 340 м/с - скорость звука. При длине голосового тракта 17 см. получаем ‚ =500 Гц и другие резонансные частоты: 1500 Гц, 2500 Гц и т.д. Эти резонансные частоты в акустике называются формантами. В процессе речи частоты формант постоянно изменяются.

Спектр звонких звуков в основном расположен в нижней полосе частот речевого сигнала и сгруппирован вокруг формант, однако скорость изменений формант такова, что спектр речи остается практически постоянным на промежутках менее 16 мс.

Глухие звуки представляют собой слабые шумоподобные колебания. При формировании глухих звуков голосовые связки не колеблются, а в голосовом тракте возникает сжатие, проходя которое поток воздуха генерирует широкий спектр частот (шум). В зависимости от того, где возникает сжатие (в передней части рта или в районе голосовых связок, воздействие голосового тракта на формируемый шум различно). Однако во всех случаях в спектре глухих звуков подчеркнуты верхние частоты.

При произнесении взрывных звуков голосовой тракт перекрыт в каком-то месте и затем, после мгновенного сжатия препятствия в нем возникает переходный акустический процесс. Если к этому добавляется вибрация голосовых связок, то формируются звонкие взрывные звуки (например, твердые согласные).

Слуховая система человека (ухо) устроена так, что воспринимает весы спектр звуковых частот набором из большого количества биологических полосовых фильтров, настроенных по всему диапазону звуковых частот. При восприятии речи проявляются эффекты маскирования отдельных тонов сигналов. Так, сильные звуки подавляют слабые, что позволяет отбрасывать их при передаче без существенного ущерба для качества звучания восстановленного сигнала. Кроме того, отдельные частоты могут маскироваться сигналами близкоотстоящих от них частот, динамический диапазон речевых сигналов для различных людей достигает 60 дБ при изменении уровня речи отдельного человека в пределах 20 - 30 дБ.

Рассмотренные кратко механизмы образования и восприятия речи позволяют сформулировать основные идеи, использованные в технике анализа-синтеза речи при ее передаче в сжатом виде по каналам связи. Речь можно синтезировать с помощью генератора периодических импульсов, следующих с частотой основного тона для воспроизведения звонких звуков. И генератора шума для воспроизведения глухих звуков. Оба исходных сигнала следует пропустить через фильтры с меняющимися во времени характеристиками, соответствующими характеристикам речевого тракта.

В вокодерах (от английского voice coder) измеряются параметры речевого аппарата человека, по которым на приемной стороне создается аналог такого же аппарата и синтезируется звук. При этом постулируется, что в течение 20..30 мс эти параметры остаются постоянными. Поэтому перед сжатием поток бит ИКМ нарезается на сегменты содержащие по 160-240 отсчетов для оценки постоянных параметров.

Разработка вокодеров основана на использовании различных моделей голосового тракта. На рисунке 6.2 показана однотрубная модель речеобразующего аппарата человека. Модель представляет собой М последовательно соединенных секций одинаковой длины, имеющих постоянную (в пределах секции) площадь сечения. Если вдувать воздух в такой свисток (подавать сигнал возбуждения), то в зависимости от конфигурации соединения и сигнала возбуждения на выходе формируется тот или иной звук. Таким образом, звук, получаемый с помощью данной модели, можно задать параметрами сигнала возбуждения и М значениями площадей секций свистка. От точности описания основного тона зависит и степень сжатия, и качество синтезированной речи.

Рисунок 6.2 Модель голосового тракта

В системе GSM первых выпусков исходный цифровой поток речевого сигнала со скоростью передачи 104 кбит/с разбивался на отдельные блоки по 160 отсчетов, которые записывались. Каждый из таких блоков занимал промежуток времени 20 мс (иначе говоря, запоминались последовательности по 160х13=2080 разрядов). Зарегистрированные последовательности подвергались анализу, в результате которого для каждой из них находились восемь коэффициентов фильтрации, определяющие соответствующие резонансы, и возбуждающий сигнал. Именно эта информация передавалась приемнику, который воспроизводил по ней исходный речевой сигнал наподобие того, как это происходит в органах речи человека (этот орган как бы настраивается с помощью восьми параметров, а затем при его возбуждении получается звук).

Однако упомянутый анализ распространяется на сравнительно короткие отрезки времени и не может выявить долгие гласные звуки, захватывающие соседние блоки. Поэтому для устранения избыточности при произнесении долгих гласных применяется долгосрочное предсказание. С этой целью в передатчике запоминаются переданные последовательности длительностью по 15 мс, с которыми сравниваются текущие последовательности. Из уже переданных выбирается последовательность, имеющая наибольшую корреляцию с текущей (т. е. больше других похожая на текущую), и передается только разность между текущей и выбранной последовательностями. Поскольку записанные в передатчике последовательности приемнику известны, нужно передать лишь указатель о том, с какой из записанных последовательностей проведено сравнение. Таким образом достигается дальнейшее сокращение объема передаваемой информации. В результате описанной обработки получается блок цифрового речевого сигнала продолжительностью 20 мс, содержащий 260 разрядов и имеющий скорость передачи всего 13 кбит/с (т. е. в восемь раз ниже исходной). Описанная процедура получила название регулярного импульсного возбуждения с долгосрочным предсказанием (английское сокращение PRE-LTR, которое расшифровывается в виде Regular Pulse Excitation - Long Term Prediction).

Наиболее эффективным методом сжатия речевого сигнала до скоростей 4—16 кбит/с считается алгоритм СЕLР (code excited linear prediction) — линейноё предсказание и многоимпульсное возбуждение от кода. Сигнал возбуждения берется из заранее созданном кодовой книги, которая содержит от 210 до 216 векторов. Содержимое кодовой книги определяется в результате анализа достаточно длинных реальных речевых сигналов (детерминированная книга). В стохастическую (алгебраическую) книгу записываются коды отсчетов нормального белого шума с нулевым средним и единичной дисперсией.

Поиск оптимального вектора возбуждения требует проведения достаточно объемных вычислений. За 5—8 мс для каждого вектора надо определить ошибки предсказания, вычислить взвешенную среднеквадратическую ошибку и в качестве оптимального выбрать вектор, обеспечивающий минимальную ошибку. Номер (индекс) такого вектора передается по каналу. Для уменьшения числа операций вводятся дополнительные упрощенные книги. В приемнике имеется точная копия кодовой книги, из которой по принятому индексу извлекается оптимальный вектор возбуждения и посылается в синтезатор, идентичный используемому в кодере.

На рисунке 6.3 представлена блок-схема преобразователя звука типа вокодер.

Рисунок 6.3 Блок-схема кодирования/декодирования человеческого голоса (Vocoder)

Исходный спектр человеческого голоса здесь делится на ряд субдиапазонов (на рисунке 6.3 их число равно16) по 200 Гц каждый. Эти субдиапазоны выделяются узкополосными фильтрами, за которыми следуют выпрямители и фильтры низких частот (20 Гц). Выходные сигналы этих фильтров мультиплексируются и преобразуются в цифровую форму. Частота стробирования этих сигналов составляет примерно 50 Гц. Разрядность АЦП в этом случае может составлять 3 бита. На принимающей стороне осуществляется цифро-аналоговое преобразование (ЦАП) и демультиплексирование. Сбалансированные амплитудные модуляторы, управляемые ЦАП и переключателем, выдают сигналы на узкополосные фильтры. Все эти сигналы смешиваются в сумматоре, а результат воспроизводится. В данном случае необходимое быстродействие передающей линии составляет 3 бита * 50 Гц * 16 каналов = 2,4 Кбит/с. Дальнейший выигрыш может быть получен за счет цифрового сжатия. Число каналов (фильтров) и ширина пропускаемой полосы частот может варьироваться, соответственно будет меняться и качество воспроизведения звука. Минимально возможная полоса пропускания передающей линии, при которой значение передаваемого текста еще воспринимается правильно, лежит ниже 1 Кбит/с. В случае необходимости передачи индивидуальных особенностей голоса, сначала должен проводиться анализ этих персональных отличий. Особенности голоса в закодированном виде передаются принимающей стороне, где эти данные используются в дальнейшем при воспроизведении закодированного текста.





Дата публикования: 2014-10-17; Прочитано: 1569 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...