Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Тенденции применения средств речевого общения

⇐ Предыдущая 23 24 25 26 272829 30 31 32 Следующая ⇒

До последнего времени большинство работ, связанных с созданием СРО, базировалось на идее формирования акустических эталонов речевых элементов разных уровней (фонем, слогов, слов). При этом распознавание было реализовано как обнаружение и идентификация в потоке речи этих акустических эталонов. В настоящее время стало очевидным, что такой подход малоперспективен из-за значительной вариативности акустических характеристик речевого сигнала, связанной как с лингвистическими (эффекты коартикуляции, редукции, ассимиляции), так и с экстралингвистическими факторами (индивидуальные особенности голосов дикторов, различия в их произносительных навыках, состояние проводящей среды и др.). Особенно большую вариантность имеют акустические характеристики фонем. Поэтому в большинстве промышленных систем распознавания речи отказались от пофонемного анализа и приняли слово в качестве минимального распознаваемого элемента. Данный подход, хотя и дал на определенном этапе речевых исследований зримые результаты, оказался неплодотворным при решении сложных задач распознавания, таких, как распознавание речи без подстройки под диктора или создание систем с большими словарями. Это заставило вернуться к идее пофонемного анализа речи на новом качественном уровне, который предполагает моделирование различных аспектов процесса переработки информации человеком при восприятии речи, использование знаний, накопленных в лингвистике, теории восприятия и психологии. При таком подходе одной из кардинальных задач распознавания речи является задача обнаружения и моделирования тех механизмов восприятия речи человеком, которые обеспечивают устойчивость и стабильность воспринимаемых речевых элементов в условиях их огромной акустической вариативности.

Все большее распространение получает подход к решению задачи распознавания речи, связанный с чтением динамических спектрограмм неизвестного речевого сигнала фонетистом-экспертом. Интерес к экспериментам по чтению спектрограммы связан, во-первых, с тем, что они демонстрируют богатство фонетической информации, заключенной в речевом сигнале, представленном в виде трехмерной (частота — время — интенсивность) спектральной картины, а во-вторых, с тем, что они позволяют воплотить знания и процедурные навыки эксперта в системах распознавания речи. Исследования по чтению спектрограммы ведутся в разных странах, и в настоящее время главным в этих исследованиях является проблема выявления и формализации знаний
и процедурных навыков экспертов. Оказалось, что это весьма сложный процесс, т. к. эксперты не всегда способны выразить принципы и правила, которыми они руководствуются в ходе акустико-фонетического декодирования речевых спектрограмм. Одной из существенных проблем является воплощение в алгоритме правил и знаний, которые кажутся эксперту очевидными (например, F 420 не может быть выше 2500 Гц) либо сложно формулируемыми (например, правило определения компактности взрыва смычных). Для преодоления этих трудностей, связанных с извлечением и записью знаний эксперта, используются экспертные системы. Экспертные системы отличаются от обычных компьютерных программ тем, что они могут решать задачи, не имеющие жестких алгоритмических решений, и осуществлять выводы, основанные на неполной или недостоверной информации. Поэтому они гораздо более приспособлены для моделирования гибкой деятельности человека, что и было использовано в речевых исследованиях. Необходимо подчеркнуть, что в этих исследованиях ЭС применяются именно как инструмент анализа для накопления базы знаний в процессе взаимодействия системы и эксперта. Использование ЭС в качестве системы распознавания неэффективно.

Вторая существенная трудность при моделировании деятельности фонетиста-эксперта заключается в том, что визуальный анализ спектрограмм, лежащий в основе декодирующих действий эксперта, не менее сложен, чем слуховая обработка речевого сигнала. При формализации чтения спектрограмм возникает сложная проблема извлечения акустических признаков, легко выделяемых зрительной системой человека. При разработке ЭС многие исследователи эту трудность просто обходят. Однако уже из самого рассмотрения возникшей ситуации логически вытекает представление о наличии некоторого промежуточного уровня кодирования речевой информации при переходе от параметрического описания спектра к его фонетической интерпретации. Более того, необходимость разработки принципов промежуточного описания речевых сигналов выделяется в качестве центральной проблемы автоматического распознавания речи. Отмечается, что только промежуточное описание позволяет перекинуть мост между непосредственно наблюдаемым непрерывным акустическим сигналом и дискретным лингвистическим описанием. Промежуточное представление описывает «поведение» акустических характеристик, которое в значительной степени является инвариантным при переходе от диктора к диктору и зависит, главным образом, от контекстного взаимодействия фонетических единиц. При этом промежуточное представление, как правило, выражается в качественном виде и описывается в терминах наличия — отсутствия определенных акустических объектов, высокого — низкого положения в спектре или сильного — слабого проявления той или иной энергетической составляющей.

Таким образом, в процессе акустико-фонетического декодирования осуществляется вначале переход от количественных изменений к качественному описанию, а затем от качественных описаний к признакам фонем. Как правило, единицы промежуточного уровня представления речевой информации называются акустическими ключами, акустическими признаками или дискрипторами.

В России работы по чтению спектрограмм фонетистами-экспертами, выработке правил их фонемной и словесной интерпретации проводятся с 1980 года. Полученные результаты позволили приступить к созданию аппаратно-программной модели анализа речи, в основу которой положены алгоритмы чтения спектрограмм.

⇐ Предыдущая 23 24 25 26 272829 30 31 32 Следующая ⇒

Дата публикования: 2014-11-03; Прочитано: 208 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...