Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Содержательных сообщений



В этой модели открытые (содержательные) сообщения AL= представляются отрезками реализаций стационарной эргодической случайной последовательности. Случайная последовательность называется стационарной, если распределение вероятностей отрезка этой последовательности не зависит от i при любом конечном значении k. Если на открытые сообщения не накладывается никаких регламентирующих ограничений, то с большой уверенностью можно считать, что указанное свойство будет для них выполняться. Эргодичность случайной последовательности, представляющей осмысленное сообщение, означает, что для любых двух отрезков текста осмысленного содержания в потоке осмысленных сообщений найдется сообщение, которое содержит в себе оба этих отрезка. Это свойство также не противоречит нашим представлениям о характере взаимосвязей в последовательности знаков осмысленных сообщений.

Зададим распределение вероятностей P(AL) на последовательностях AL= для всех L>0 с учетом заданных условных вероятностей

P(a/AL-1)= P(AL-1a)/P(AL-1).

В соответствии с формулами (1) и (2) (см. параграф 4.1) можно ввести в рассмотрение энтропию объединенной схемы A(L)=

H()= ,

которую называют энтропией отрезка последовательности длины L.

Из рассмотренных ранее свойств энтропии имеем

0£ H()£log2nL=Llog2n.

Отношение H()/L называют средней энтропией, приходящейся на одну букву набора . При этом всегда 0£ H()/L£log2n

ДОКАЖЕМ теперь, что существует предел

= H().

Рассмотрим условную энтропию

H(A/ )= .

Можно показать, что для любого L

H(A/ )£H(A/ ).

Далее, легко убедиться, что

H()=H()+H(A/ )£H()+H(A/ )

и

H()=H()+H(A/A1)+H(A/A1A2)+...+H(A/ )³ LH(A/ ).

Отсюда следует, что

H()£H()+ H()= H()

и

H( H().

Таким образом, последовательность H() при является невозрастающей последовательностью, ограниченной снизу нулем. Следовательно, существует предел = H().

ОПРЕДЕЛЕНИЕ.Предел

= H().

называется энтропией эргодического источника сообщений на одну букву илиэнтропией, приходящейся на одну букву в бесконечных наборах (с учетом стационарной эргодичности их получения).

Свойство «равнораспределенности» для эргодических источников. Это свойство формулируется следующим образом.

Для любого e>0

при .

Иными словами, утверждается, что при больших L все множество последовательностей AL, также, как и в независимом случае, можно разбить на два непересекающихся подмножества (AL)* и (AL)**, которые обладают следующими свойствами:

– для любой ALÎ(AL)* вероятность P(AL)»2-L ,

– cуммарная вероятность P((AL)**) при .

Таким образом, распределение P(AL) оказывается фактически сосредоточенным лишь на множестве (AL)*, причем входящие в (AL)* последовательности почти равновероятны, а их число почти равно 2L .

Отдельно стоит вопрос об оценке величины . В некоторых учебных курсах теории информации доказывается, что для стационарных случайных последовательностей предел совпадает с условной энтропией знака последовательности, при условии, что известна вся предыдущая последовательность, то есть с «неопределенностью» очередной буквы последовательности. Формально, последняя неопределенность записывается как

lim H(аL12,…,аL-1) при L®µ.

Все вышеизложенное (в частности, формулы) для абстрактной стационарной последовательности используется для последовательности букв открытых (содержательных) текстов. При этом не учитываются нестационарности в их началах и концах. Из вероятностных свойств открытых текстов следует, что непосредственный расчет значений H() и H(аL12,…,аL-1) возможен для небольших значений L. Для больших значений L известны лишь косвенные методы их оценок. Например, К. Шеннон предлагал метод оценки H(аL12,…,аL-1) основанный на задании случайно выбранных L-значных отрезков открытого текста и отгадывании L+1 буквы. При этом замечено, что с увеличением L до 20–30 величина H(аL12,…,аL-1) заметно убывает. Другой метод оценки предельной энтропии связан с некоторой характеристикой языка, называемой его избыточностью. Этот термин возник в связи с тем, что каждая буква сообщения, при условии что буквы появляются в нем случайно, равновероятно, независимо могла бы нести информацию, равную Нmax=log2n, где n – число букв в алфавите. В это же время средняя энтропия Н буквы в обычном открытом тексте, как показывают экспериментальные расчеты, значительно меньше, и, следовательно, величина Нmax – Н характеризует неиспользованные возможности в «сжатии» информации, содержащейся в открытом тексте. Величину

D=

называют избыточностью языка, а величину Н/Нmaxкоэффициентом сжатия.

Избыточность языка показывает, какую часть букв открытого текста можно вычеркнуть до наступления нечитаемости сообщения. На основе таких экспериментов и оценивают избыточность D открытых текстов, откуда получают оценку Н

Н=(1-D)Нmax=(1– D)log2n,

n – мощность алфавита открытых текстов.

Представление о величине энтропии и избыточности различной информации на русском (Нmax=log232=5) и французском (Нmax=log226=4,7) языках дает следующая таблица.

  Н бит/буква Русский язык Н бит/буква Французский язык D в процентах Русский язык D в процентах Французский язык
Язык в целом 1,37 1,40 72,6 70,6
Разговорная речь 1,40 1,50 72,0 68,4
Литературные тексты 1,19 1,38 76,2 71,0
Деловые тексты 0,83 1,22 83,4 74,4

Принято считать, что для литературного текста Н=1 дв.ед, для деловой переписки Н=0.5–0.7 дв.ед. В заключение отметим, что основное свойство равнораспределенности осмысленных сообщений будет ниже использовано для решения ряда задач.


Глава 12.





Дата публикования: 2015-02-22; Прочитано: 314 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2025 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.04 с)...