Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Вероятностные источники сообщений



В этих моделях источник открытого текста рассматривается как источник случайных последовательностей. Считается, что источник генерирует конечную или бесконечную последовательность случайных символов х(1),х(2),…,х(n) из алфавита I. Вероятность случайного сообщения «i(1),i(2),…, i(n)» определяется как вероятность совместного события

Р(i(1),i(2),…, i(n))=Р(х(1)=i(1),х(2)=i(2),…,х(n)=i(n))).

При этом, естественно, требуют выполнения условий:

1) для любого случайного сообщения «i(1),i(2),…, i(n)»

Р(i(1),i(2),…, i(n))³0;

2) =1;

3) для любого случайного сообщения «i(1),i(2),…, i(n)»

Р(i(1),i(2),…, i(n))= , s³n+1.

Смысл последнего условия состоит в том, что вероятность всякого случайного сообщения длины n есть сумма вероятностей всех «продолжений» этого сообщения до длины s>n (некоторый вариант аксиомы Колмогорова). Текст, порождаемый таким источником, является вероятностным аналогом языка. Он обладает одинаковыми с языком частотными характеристиками k-грамм. Задавая конкретное вероятностное распределение на множестве открытых текстов, мы задаем соответствующую модель источника сообщений. Рассмотрим некоторые частные случаи этой общей модели.

Стационарный источник независимых символов алфавита. В этой модели предполагается, что вероятности сообщений полностью определяются вероятностями отдельных символов алфавита:

Р(i(1),i(2),…, i(n))= и Р(х(j)=i)>0, .

Под открытым текстом понимается реализация последовательности независимых испытаний в полиномиальной вероятностной схеме с числом исходов |I|=m. Исходу взаимно однозначно соответствует символ алфавита I. Эта модель позволяет разделить буквы алфавита на классы высокой, средней и низкой частот использования. Ниже приводятся буквы высокой частоты использования для некоторых европейских языков (частота указана в процентах).

ЯЗЫК   Буквы алфавитов и частоты их использования в текстах
Английский Е 12,86 T 9,72 A 7,96 I 7,77 N 7,51 R 7,03
Испанский Е 14,15 A 12,9 O 8,84 S 7,64 I 7,01 R 6,95
Итальянский I 12,04 Е 11,б A 11,1 O 8,92 N 7,68 T 7,07
Немецкий E 19,18 N 10,2 I 8,21 S 7,07 R 7,01 T 5,86
Французский E 17,76 S 8,23 A 7,68 N 7,61 T 7,30 I 7,23
Русский O 11,0 И 8,9 Е 8,3 А 7,9 Н 6,9 Т 6,0

Для сравнения частот редких букв и букв, приведенных в таблице, укажем, что, например, в английском языке редкими буквами являются буквы J,Q,Z, а их частоты в процентах оцениваются величинами 0,13, 0,12, 0,08, соответственно. Из этой таблицы видно, что не случайно итальянский и испанский языки считаются певучими: на долю гласных приходится около половины всех букв. Самыми частыми биграммами в русском языке являются (в процентах) СТ (1,74), НО (1,29), ЕН (1,23), ТО (1,21), НА (1,20), ОВ (1,16), НИ (1,15), РА (1,14), ВО (1,08), КО (1,07). Наиболее частые триграммы: СТО, ЕНО, НОВ, ТОВ, ОВО, НАЛ, РАЛ, НИС.

Рассматриваемая модель открытого текста весьма просто строится для любого источника открытых сообщений с использованием относительно небольшого количества материала и удобна для практического применения. В то же время, некоторые свойства модели противоречат свойствам языков. В частности, согласно этой модели любая k-грамма, k>1, имеет ненулевую вероятность появления в сообщении.





Дата публикования: 2015-02-22; Прочитано: 718 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2025 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...