Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Подача голосовых команд компьютеру



Резкое увеличение популярности компьютерной телефонии, наблюдаемое в последние годы, в первую очередь связано с технической революцией в этой области - появлением гибких модульных систем на базе открытых стандартов. Компьютерная телефония - это технология, основанная на интеграции телефона и компьютера в единую телекоммуникационную среду, при этом, с одной стороны, компьютер используется для интеллектуальной коммутации телефонных вызовов, а с другой, телефон превращается в средство удаленного доступа к компьютерным ресурсам при использовании голосового интерфейса с пользователем. В этой области подача голосовых команд компьютеру становится одним из основных средств управления системой. Общая схема распознавания речи такова: поступающий по телефонным линиям голосовой сигнал сначала оцифровывается, а затем по внутренней шине передается на плату расширения для распознавания речи. Собственно распознаванием занимается специальное программное обеспечение, загруженное во внутреннюю оперативную память платы. Существуют и чисто программные средства для распознавания речи. Таковым, в частности, является программа для распознавания речи в компьютерной телефонии VRSoft, представленная компанией Voice Control Systems (VCS). Работа с такой программой позволяет избежать расходов на приобретение дополнительного оборудования и существенно повышает требования к используемому компьютеру и уменьшает число каналов одновременного распознавания. Помимо простых плат для распознавания речи, Dialogic выпускает и куда более мощное аппаратное обеспечение - семейство плат Antares, специально предназначенных для разработки продвинутых голосовых приложений. Antares представляет собой четырехпроцессорную плату расширения с большим объемом оперативной памяти. Важным свойством Antares является наличие открытой платформы для разработки загружаемого программного обеспечения, что позволяет программисту выйти за рамки разработки собственно приложений и писать программы непосредственно для DSP-платы.

Преобразование текст-речь -обратная операция по отношению к распознаванию речи. Так называется технология, позволяющая генерировать речь по тексту. Основная область применения - различные автоматические системы, предусматривающие голосовую передачу информации: справочные системы или программы автоматического чтения по телефону.

Простейшая разновидность преобразования текст-речь - "сборка" сообщений из отдельных речевых фрагментов.

В качестве аппаратной базы для реализации подобных систем можно применять любую компьютерную аппаратуру для воспроизведения оцифрованной речи. В частности, для этого подойдет и Sound Blaster. Для телефонных же приложений применяются голосовые платы, способные воспроизводить оцифрованную речь по телефонным линиям. Сама генерация сообщений осуществляется в рамках прикладной программы, голосовая же плата используется просто для воспроизведения речи.

Техника сборки из готовых речевых фрагментов позволяет реализовать подавляющее большинство приложений, где требуется синтезировать голосовое сообщение по текстовой информации.

В настоящее время существуют два принципиально различных способа смоделировать человеческую речь. Первый из них предполагает моделирование собственно голосового сигнала. В этом случае, как и при распознавании речи, речь разбивается на элементы, из которых впоследствии "собираются" отдельные слова и текст в целом. Второй подход - моделирование голосового аппарата человека. Известно, каким образом изменяется положение губ, языка и зубов при произнесении того или иного звука. Зная это, можно синтезировать соответствующий звук.

Однако все это очень сложно. Во-первых, надо добиться, чтобы сами синтезируемые звуки были естественными. Во-вторых, надо "снабдить" искусственную речь естественными интонациями и ударениями в словах. Все это привело к тому, что прямое преобразование текст-речь применяется, не слишком широко, а сама синтезированная речь звучит достаточно неестественно.

Используется преобразование текст-речь и в приложениях компьютерной телефонии - на нем основаны различные информационные системы, где воспроизведение информации не сводится к озвучиванию числительных.





Дата публикования: 2015-02-03; Прочитано: 474 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...