Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Языковые модели



В настоящее время основным подходом к построению языковых моделей для систем распознавания речи является использование аппарата статистических методов. При этом модель в таком понимании – просто распределение вероятности на множестве всех предложений языка. Естественно, что хранить модель в таком виде невозможно, поэтому используют более компактные способы задания. Рассмотрим вкратце, какие модели используются сегодня в коммерческих и экспериментальных системах распознавания речи с неограниченными словарями.

16.2.1. n -граммы

Языковые модели, основанные на n -граммах, используют явное предположение о том, что вероятность появления очередного слова в предложении зависит только от предыдущих n -1 слов. На практике используются модели со значениями n = 1, 2, 3 и 4. Наиболее удачной моделью из этого класса для английского языка оказывается триграммная модель. Все новые модели практически всегда оцениваются по отношению к триграммной модели. На сегодняшний день практически все коммерческие системы распознавания речи используют n -граммную модель в той или иной форме. При этом вероятность всего предложения вычисляется как произведение вероятности входящих в него n -грамм.

Основным достоинством данного класса моделей оказывается возможность построения модели по обучающему корпусу достаточно большого размера и высокая скорость работы. Основные недостатки – заведомо неверное предположение о независимости вероятности очередного слова от более длинной истории, что затрудняет работу и не позволяет моделировать более глубокие связи в языке и колоссальные, но всё-таки недостаточные для получения достоверных оценок объёмы обучающих данных. В самом деле, если словарь содержит N слов, то число возможных пар слов будет N 2. Даже если только 0,1% от них реально встречаются в языке, то минимально необходимый объём корпуса для получения статистически достоверных оценок будет иметь порядок 125 млрд. слов или около 1 терабайта при специально подобранном корпусе. Для триграмм минимальные корпуса будут достигать размеров в сотни и тысячи терабайт.

Для преодоления этого недостатка используется развитый аппарат техник сглаживания, которые позволяют производить оценку параметров модели в условиях недостаточных или вовсе отсутствующих данных. Другим подходом к решению той же проблемы является кластеризация словаря, позволяющая сократить модель.





Дата публикования: 2015-09-17; Прочитано: 404 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...