![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
В этой модели открытые (содержательные) сообщения AL= представляются отрезками реализаций стационарной эргодической случайной последовательности. Случайная последовательность называется стационарной, если распределение вероятностей отрезка этой последовательности
не зависит от i при любом конечном значении k. Если на открытые сообщения не накладывается никаких регламентирующих ограничений, то с большой уверенностью можно считать, что указанное свойство будет для них выполняться. Эргодичность случайной последовательности, представляющей осмысленное сообщение, означает, что для любых двух отрезков текста осмысленного содержания в потоке осмысленных сообщений найдется сообщение, которое содержит в себе оба этих отрезка. Это свойство также не противоречит нашим представлениям о характере взаимосвязей в последовательности знаков осмысленных сообщений.
Зададим распределение вероятностей P(AL) на последовательностях AL= для всех L>0 с учетом заданных условных вероятностей
P(a/AL-1)= P(AL-1a)/P(AL-1).
В соответствии с формулами (1) и (2) (см. параграф 4.1) можно ввести в рассмотрение энтропию объединенной схемы A(L)=
H()=
,
которую называют энтропией отрезка последовательности длины L.
Из рассмотренных ранее свойств энтропии имеем
0£ H()£log2nL=Llog2n.
Отношение H()/L называют средней энтропией, приходящейся на одну букву набора
. При этом всегда 0£ H(
)/L£log2n
ДОКАЖЕМ теперь, что существует предел
=
H(
).
Рассмотрим условную энтропию
H(A/ )=
.
Можно показать, что для любого L
H(A/ )£H(A/
).
Далее, легко убедиться, что
H()=H(
)+H(A/
)£H(
)+H(A/
)
и
H()=H(
)+H(A/A1)+H(A/A1A2)+...+H(A/
)³ LH(A/
).
Отсюда следует, что
H()£H(
)+
H(
)=
H(
)
и
H(
)£
H(
).
Таким образом, последовательность H(
) при
является невозрастающей последовательностью, ограниченной снизу нулем. Следовательно, существует предел
=
H(
).
ОПРЕДЕЛЕНИЕ.Предел
=
H(
).
называется энтропией эргодического источника сообщений на одну букву илиэнтропией, приходящейся на одну букву в бесконечных наборах (с учетом стационарной эргодичности их получения).
Свойство «равнораспределенности» для эргодических источников. Это свойство формулируется следующим образом.
Для любого e>0
при
.
Иными словами, утверждается, что при больших L все множество последовательностей AL, также, как и в независимом случае, можно разбить на два непересекающихся подмножества (AL)* и (AL)**, которые обладают следующими свойствами:
– для любой ALÎ(AL)* вероятность P(AL)»2-L ,
– cуммарная вероятность P((AL)**) при
.
Таким образом, распределение P(AL) оказывается фактически сосредоточенным лишь на множестве (AL)*, причем входящие в (AL)* последовательности почти равновероятны, а их число почти равно 2L .
Отдельно стоит вопрос об оценке величины . В некоторых учебных курсах теории информации доказывается, что для стационарных случайных последовательностей предел
совпадает с условной энтропией знака последовательности, при условии, что известна вся предыдущая последовательность, то есть с «неопределенностью» очередной буквы последовательности. Формально, последняя неопределенность записывается как
lim H(аL/а1,а2,…,аL-1) при L®µ.
Все вышеизложенное (в частности, формулы) для абстрактной стационарной последовательности используется для последовательности букв открытых (содержательных) текстов. При этом не учитываются нестационарности в их началах и концах. Из вероятностных свойств открытых текстов следует, что непосредственный расчет значений H() и H(аL/а1,а2,…,аL-1) возможен для небольших значений L. Для больших значений L известны лишь косвенные методы их оценок. Например, К. Шеннон предлагал метод оценки H(аL/а1,а2,…,аL-1) основанный на задании случайно выбранных L-значных отрезков открытого текста и отгадывании L+1 буквы. При этом замечено, что с увеличением L до 20–30 величина H(аL/а1,а2,…,аL-1) заметно убывает. Другой метод оценки предельной энтропии связан с некоторой характеристикой языка, называемой его избыточностью. Этот термин возник в связи с тем, что каждая буква сообщения, при условии что буквы появляются в нем случайно, равновероятно, независимо могла бы нести информацию, равную Нmax=log2n, где n – число букв в алфавите. В это же время средняя энтропия Н буквы в обычном открытом тексте, как показывают экспериментальные расчеты, значительно меньше, и, следовательно, величина Нmax – Н характеризует неиспользованные возможности в «сжатии» информации, содержащейся в открытом тексте. Величину
D=
называют избыточностью языка, а величину Н/Нmax – коэффициентом сжатия.
Избыточность языка показывает, какую часть букв открытого текста можно вычеркнуть до наступления нечитаемости сообщения. На основе таких экспериментов и оценивают избыточность D открытых текстов, откуда получают оценку Н
Н=(1-D)Нmax=(1– D)log2n,
n – мощность алфавита открытых текстов.
Представление о величине энтропии и избыточности различной информации на русском (Нmax=log232=5) и французском (Нmax=log226=4,7) языках дает следующая таблица.
Н бит/буква Русский язык | Н бит/буква Французский язык | D в процентах Русский язык | D в процентах Французский язык | |
Язык в целом | 1,37 | 1,40 | 72,6 | 70,6 |
Разговорная речь | 1,40 | 1,50 | 72,0 | 68,4 |
Литературные тексты | 1,19 | 1,38 | 76,2 | 71,0 |
Деловые тексты | 0,83 | 1,22 | 83,4 | 74,4 |
Принято считать, что для литературного текста Н=1 дв.ед, для деловой переписки Н=0.5–0.7 дв.ед. В заключение отметим, что основное свойство равнораспределенности осмысленных сообщений будет ниже использовано для решения ряда задач.
Глава 12.
Дата публикования: 2015-02-22; Прочитано: 314 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!