Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Обзор промышленных систем речевого общения

⇐ Предыдущая 20 21 22 23 242526 27 28 29 Следующая ⇒

Начало промышленного выпуска СРО в разных странах относится к середине 70-х — началу 80-х годов. К настоящему времени число различных промышленных СРО достигло нескольких сотен или даже тысяч и продолжает расти. Одновременно наблюдается рост сбыта СРО.

В США и Японии выпускаются различные СРО стоимостью от 99 до 99 тыс. дол., имеющие габаритные размеры от одной БИС до стойки оборудования, потребляемую мощность от долей ватта до 1 кВт, назначение — от игрушек до телефонных справочных систем [6]. Соответственно меняются и качественные показатели: синтез речи — от машиноподобного воспроизведения нескольких десятков слов до синтезаторов речи неограниченного словаря с управляемыми характеристиками голоса; анализ речи — от распознавания 10 команд с надежностью 75—80 % до систем понимания речи со словарем в 1000 слов и надежностью 99 %. В США есть небольшие фирмы, которые занимаются исключительно системами распознавания и синтеза речи (VOTRAX, SRS, VOTAN, KAI), а также крупные компьютерные фирмы (TTI, DES, Intel, IBM), имеющие собственные подразделения по созданию СРО. Большое внимание уделяется разработке средств распознавания и синтеза речи в Японии (фирмы NES, Matsuchiba, Sanyo). В Западной Европе для проведения работ по созданию СРО сформирован специальный консорциум в составе 10 фирм (Plessay, Ferranty, GEC Marconi, Thorr-EMI, Pocal, Olivetti и др.).

Как уже отмечалось, СРО строятся на базе специализированных устройств: синтезаторов и анализаторов (распознавателей) речи. Поэтому в дальнейшем, характеризуя особенности устройств, мы будем пользоваться отдельными наборами параметров для синтезаторов и анализаторов речи.

Характеристики отечественных и зарубежных синтезаторов речи приведены в табл. 1.1. Таблица охватывает ряд отечественных и наиболее типичные зарубежные разработки синтезаторов речи на конец 1998 г.

Синтез речевых сигналов в большинстве устройств осуществляется методом линейного предиктивного кодирования либо форматным; при этом каждый из них используется как при синтезе ограниченного словаря — компилятивный метод, так и при универсальном синтезе — фонемный или дифонный метод. Объем словаря у компилятивных синтезаторов — от 100 до 1000 слов, у универсальных — неограниченный.

Входной информацией для компилятивных синтезаторов являются номера слов или фраз из заранее заданного словаря,
а для универсальных — это обычный орфографический текст сообщения, как правило, предварительно размеченный дополнительными знаками ударения и интонации. Важным параметром синтезаторов является объем входной информации, необходимый для синтеза 1 с речи. Этот параметр определяет емкость памяти, необходимую для хранения слов заданного словаря (примерно 2 слова на 1 с речи). Для компилятивных синтезаторов объем информации от 1200 до 3200 бит/с, для универсальных — 80 бит/с.

Разборчивость синтезированной речи характеризуется процентом правильно воспринятых аудиторами звуков, слогов, слов или фраз в специально подобранных текстах. В настоящее время нет единой методики определения разборчивости синтезированной речи, поэтому данные, приведенные в табл. 1.1, в значительной степени неоднородны и субъективны. Известна только одна попытка применения единой методики для измерения слоговой разборчивости речи трех различных синтезаторов: TYPE-N-TALK, PROSE-2000 и DES-talk. По этой же методике проведено измерение слоговой разборчивости отечественных синтезаторов ФОНЕМОФОН-П и ФОНЕМОФОН-5.

Важным параметром с точки зрения потребителя является возможность синтеза речи на различных языках с различными типами голосов. Сфера применения синтезаторов резко расширяется, если дополнить его телекоммуникационным интерфейсом, позволяющим абоненту получать информацию по телефонной или иной коммутируемой сети.

Характеристики отечественных устройств распознавания речи приведены в табл. 1.2.

Анализ речевых сигналов в большинстве устройств осуществляется с помощью спектрально-полосных анализаторов различных модификаций, а анализ сообщений (распознавания слов) — с помощью ДП-анализаторов. В некоторых устройствах анализ речевых сигналов осуществляется путем измерения корреляционных функций, форматных параметров, плотности нулей клиппированного сигнала. В последнее время анализируются различные фонетические характеристики речи: звонкость, шумность, гласность, взрывность и др.

Под надежностью распознавания подразумевается процент правильно распознанных слов из заданного словаря в заданных условиях работы. В настоящее время нет единой методики тестирования устройств по надежности распознавания. Поэтому данные, приведенные в табл. 1.2, в значительной степени субъективны: неизвестны степень обученности дикторов, данные о микрофоне и т. д.

Наличие телекоммуникационного интерфейса в устройстве предполагает не только введение специальных блоков сопряжения со стандартной телефонной или иной сетью, но и принятие специальных мер для эффективной обработки полученных сигналов.

Наличие синтезатора речи расширяет сферу применения устройства распознавания, позволяя использовать СРО в полном объеме.

Таблица 1.1

⇐ Предыдущая 20 21 22 23 242526 27 28 29 Следующая ⇒

Дата публикования: 2014-11-03; Прочитано: 197 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...