Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Ниже используется следующий алфавит русского текста



Считается, что точка в тексте записана бкувами «тчк», запятая - буквами «зпт». Приведем сначала вариационный ряд вероятностей букв содержательных текстов

Далее приводятся таблицы частот биграмм в содержательных текстах, которые получены маркировкой 200000 пересекающихся биграмм с учетом упомянутых особенностей текстов.


Глава 10.

Основные понятия и теоремы математической теории информации

Возникновение современной математической теории информации связано с работами К. Шеннона. В основу этой теории положено количественное определение информации через вероятностные характеристики процесса образования данного вида информации. Наиболее важные практические приложения теории информации заложены в определении пропускной способности канала связи с шумом. Понимая под шифрованием передачу открытого сообщения по некоторому каналу связи с шумом, можно использовать ряд общих результатов теории информации (относящихся к вычислению пропускной способности канала связи) в оценке возможности восстановления этого сообщения по шифрованному тексту.

Ограничимся случаем дискретной информации, где сообщение, подлежащее передаче через канал связи, состоит из последовательности дискретных символов, каждый из которых выбран из некоторого конечного множества (алфавита) букв сообщения.

Энтропия конечной вероятностной схемы. Пусть задана конечная вероятностная схема

А= ,

1, 2,..., a,..., n – исходы (буквы, сообщения) вероятностной схемы из множества (алфавита) А = {1, 2,..., a,..., n}, p(1), p(2),..., p(a),..., p(n) – вероятности этих сообщений, .

Основоположником теории численной оценки меры неопределенности вероятностных схем является американский инженер и математик Клод Шеннон. Ниже приводятся его основные идеи в решении данной задачи.

Если имеется такая мера (обозначим ее через Н=Н(А)=Н(p(1),p(2),...,p(a),...,p(n)), то разумно аксиоматически потребовать, чтобы она обладала следующими свойствами:

1) Н должна быть непрерывной относительно р(а), аÎ А;

2) Н должна быть симметрична относительно своих аргументов (т. е. Н(p(1),p(2),..., p(n))= Н(p(i1),p(i2),..., p(in)) для любой перестановки индексов);

3) если выбор распадается на два последовательных выбора, то первоначальная Н должна быть взвешенной суммой индивидуальных значений Н, т. е. при р(1)+р(2)>0 справедливо тождество:

Н(p(1),p(2),...,p(n))=Н(p(1)+p(2),p(3),...,p(n))+

+((p(1)+p(2)) H().

Смысл третьего свойства иллюстрируется на следующем рисунке:

1/3 2/3

­ ­

·® 1/6 · ® 1/2 ·®1/3

¯ ¯

1/2 1/2

Слева имеются три возможности р(1)=1/3, p(2)=1/6, p(3)=1/2. Справа проводится выбор сначала между двумя возможностями, причем каждая имеет вероятность 1/2, и в случае осуществления первой возможности производится еще один выбор между двумя возможностями с вероятностями 2/3 и 1/3. Окончательные результаты имеют те же самые вероятности: р(1)=1/2´2/3=1/3, p(2)=1/2´1/3=1/6, p(3)=1/2, как и прежде. В этом конкретном случае по свойству 3 требуют, чтобы

Н(1/3,1/6,1/2)=Н(1/2,1/2) + Н(2/3,1/3).

Весовой множитель 1/2=(р(1)+р(2)) введен из-за того, что второй выбор осуществляется в половине случаев. Оказывается, что приведенные три условия с точностью до постоянного коэффициента «с» определяют функцию Н(p(1),p(2),..., p(n)):

Н(p(1),p(2),..., p(n))= -с ,

где с=const>0. Выбор константы равносилен выбору основания d логарифма, а ее значение и значение основания можно трактовать как определение масштаба единицы количества неопределенности. Таким образом, окончательное выражение для Н имеет вид

Н(p(1),p(2),..., p(n))= - ,

при оговоренном основании логарифма.

ОПРЕДЕЛЕНИЕ. Количеством информации (неопределенности) в сообщении A называется число h(a), определяемое соотношением

h(a)= – log p(a).

ОПРЕДЕЛЕНИЕ.Среднее значение количества информации

H(A)= (1)

называется энтропией конечной вероятностной схемы.

Термин количество информации Н применяют исходя из предположения, что произошла реализация (некоторый исход) в вероятностной схеме, в результате чего мы получаем информацию об исходе реализации вероятностной схемы, мера неопределенности Н употребляется в связи с измерением неопределенности возможных не реализованных исходов вероятностной схемы. Не придавая житейского смысла этой величине, а имея в виду математическую формализацию Н, говорят об энтропии вероятностной схемы.

Отметим, что при использовании десятичных логарифмов, что обеспечивает удобство расчетов с помощью таблиц, в качестве единицы количества информации (неопределенности) принимают энтропию равновероятной схемы с 10 исходами (р(а)=1/10, аÎ ), так как

Н= =1.

Чаще за единицу неопределенности принимают неопределенность, содержащуюся в альтернативном ответе «да-нет», соответствующему вероятностной схеме (р(1)=1/2, p(2)=1/2). В этом случае основание логарифма должно быть равно двум:

Н= – ( log2 + log2 )=1.

Эту единицу называют «битом», она в 3,32=log210 раза меньше десятичной единицы измерения информации.

Из определения энтропии конечной вероятностной схемы следует, что она всегда неотрицательна: Н(p(1),p(2),..., p(n))³0. Важное свойство энтропии конечной вероятностной схемы (p(1),p(2),..., p(n)) заключается в том, что она максимальна и равна logn при р(а)=1/n, аÎ . Минимального значения энтропия достигает на вероятностной схеме, где имеется сообщение с вероятностью, равной единице.

Неравенство 0£H(A)£logn позволяет качественно толковать понятие энтропия как меру неопределенности в эксперименте с возникновением того или иного случайного
сообщения.

Использование численной меры неопределенности Н(p(1),p(2),..., p(n)) вероятностной схемы оказалось очень удобным для весьма многих целей. Отметим, однако, что эта мера не претендует на полный учет всех факторов, определяющих «неопределенность опыта» в любом практическом смысле, так как приведенная мера неопределенности зависит лишь от значений вероятностей p(1),p(2),..., p(n) различных исходов, но вовсе не зависит от того, каковы сами эти исходы – являются ли они в некотором смысле «близкими» один к другому или очень «далекими», насколько различны или одинаковы последствия этих исходов. Ранее мы отмечали, что основание, по которому берется логарифм в определении энтропии, влияет на единицу измерения количества информации.

Всюду ниже, если не оговорено противное, будут использоваться двоичные логарифмы.

Объединенная энтропия двух конечных схем. Условная энтропия. Рассмотрим наряду со схемой

А= ,

схему

B= ,

Схемы А и В могут быть зависимы между собой в том смысле, что для вероятности p(a,b) одновременного выполнения событий а, b выполняется неравенство: p(a,b)¹p(a)q(b). Рассмотрим объединенную схему С=АВ вида

C= ; p(a)= , q(b)= .

ОПРЕДЕЛЕНИЕ.В соответствии с (1), энтропия

H(АB)=

называется энтропией объединенной схемы AB.

Обозначая через p(b/a)=p(ab)/p(a), bÎ B условные вероятности сообщений схемы B при условии сообщения a, можно рассмотреть ряд «условных» вероятностных схем

B/a= .

Для каждой из этих схем согласно (1) можно определить энтропию

H(B/a)= .

ОПРЕДЕЛЕНИЕ. Среднее значение

H(B/A)= = – (2)

называется условной энтропией схемы В при условии схемы А.

Взаимная информация между вероятностными схемами. Исходя из установленного выше понятия энтропии как меры неопределенности случайного сообщения, введем меру количества информации о сообщении «a», содержащемся в сообщении «b», как разность между количеством неопределенности (априорной) в сообщении «a» и количеством неопределенности в сообщении «a» при известном сообщении «b».

ОПРЕДЕЛЕНИЕ.Количеством информации о сообщении «a», содержащемся в сообщении «b», называется величина

i(ab)=h(a)-h(a/b)=log2p(a/b)/p(a).

ОПРЕДЕЛЕНИЕ.Среднее значение

I(AB)= = .

называется взаимной информацией между A и B.

Введем в рассмотрение вероятностную схему B с вероятностями исходов

q(b)= .

Тогда величину I(AB) можно выразить через энтропийные характеристики следующим образом:

I(AB)=H(A)-H(A/B)=H(B)-H(B/A).

Свойства энтропии.

1. H(B/A)= H(AB) – H(A). (3)

Действительно,

H(B/A)= = +

+ =H(AB) – H(A).

2. H(B/A)£H(B), (4)

Нетрудно показать, что выполняется неравенство lnx-x+1£0. Действительно, для функции f(x)=lnx-x первая производная обращается в 0 в точке x=1, причем f(1)=0, а для всех x>0. Следовательно, f(x) имеет единственную точку максимума при x=1. Для двоичного логарифма имеем:

log2x=lnx/ln2=(x-1)log2e.

Тогда

H(B/A) – H(B)= + = + =

= £

3. Пусть на алфавите A вероятностной схемы A задано отображение j(.) в множество C. Это отображение определяет вероятностную схему C с алфавитом С, для которой p(с)= . Тогда выполняется неравенство H(C)£H(A), и знак равенства имеет место в том случае, когда отображение j(.) обратимо.

Легко видеть, что условное распределение p(c/a)=1, если j(a)=c и p(c/a)=0 в противном случае. Следовательно, H(C/A)=0. Далее, нетрудно проверить, что

H(C)–H(C/A)=H(A)–H(A/C)

и, следовательно,

H(C)+H(A/C)=H(A)+H(C/A).

Тогда,

H(C)£ H(C)+H(A/C)=H(A)+H(C/A)= H(A)

и равенство имеет место в том случае, когда отображение j(.) обратимо и H(A/C)=0, H(C)=H(A).

4. H(AB)£H(A)+H(B), причем равенство достигается в том и только в том случае, когда A и B независимы. Это свойство непосредственно следует из свойств 2 и 3.

5. Энтропии трех вероятностных схем A, B и W.

Энтропия вероятностных схем A и B при W:

H(A,B/W)= – p(a,b,w)log2p(a,b/w)

Энтропия A, B, и W:

H(A,B,W)= - p(a,b,w)log2p(a,b,w)

Ниже представлен список информационных тождеств и отношений,

H(A, B, W) = H(A/B, W) + H(B, W)= H(A, B/W) + H(W)

H (A/B, W) +H(B/W) =H(B/A, W) +H(A/W)

6. Если мы имеем A(L)= – m независимых объединений схемы А, то

H()=

= LH(A)

и в этом случае

.

Смысл введенного понятия энтропии становится ясен из следующих двух теорем Шеннона, относящихся к созданию сообщений с помощью независимых испытаний из конечной вероятностной схемы А.

Теоремы Шеннона. Обозначим через AL последовательность , полученную с помощью независимых испытаний из конечной вероятностной схемы

А= ,

P(AL)= – вероятность последовательности AL. Оказывается, что при больших L все последовательности (за исключением сколь угодно малой их доли) имеют приблизительно одинаковую вероятность, величина которой зависит от энтропии H(A). Качественное объяснение этого факта достаточно простое. Так как символы в последовательности AL независимы, то энтропия на символ текста равна H(A)= – . Предположим, что рассматривается длинное сообщение, то есть L велико. Тогда последовательность AL будет, так сказать, «с большой вероятностью содержать р(а)L раз» символ аÎ . Вероятность конкретной последовательности AL есть

,

где na – частота буквы «a» в последовательности AL. Заменяя na на р(а)L, получаем «приближенное равенство»

Р(AL)@ ,

а log2 Р(AL) @L =-LH(A), откуда

Н(A)@ .

Это приближенное равенство остается верным и для любого стационарного источника (стационарной последовательности). Распространение указанного утверждения на цепь Маркова осуществил Хинчин А.Я., а на произвольный стационарный источник – Макмиллан. Пусть, как и прежде, А={1,2,…a,…n} – конечное множество исходов, соответствующее вероятностной схеме

А=

Первая теорема Шеннона. Для любых существует L0 такое, что при любом множество АL всех последовательностей длины L алфавита А разбиваются на группы (AL)* и (AL)** такие, что

1) для любой ALÎ(AL)*

;

2) .

ДОКАЗАТЕЛЬСТВО.Нетрудно видеть, что

,

где na – частота буквы «a» в последовательности AL. Отнесем к первой группе (AL)* те и только те последовательности AL, в которых

для некоторой d>0. Ко второй группе отнесем все остальные последовательности.

Покажем, что при достаточно большом L0 это разбиение удовлетворяет обоим условиям теоремы. Действительно, для

.

Отсюда нетрудно показать, что

.

Следовательно,

.

Полагая

,

получаем первое утверждение теоремы.

Рассмотрим вторую группу (AL)**. Нетрудно видеть, что вероятность

По неравенству Чебышева

откуда следует, что

Полагая L0=n/d2e, получаем второе утверждение теоремы.

СЛЕДСТВИЕ.Если L³L0, то для любой ALÎ(AL)* выполняется неравенство

.

Таким образом, при достаточно больших L вероятность каждой последовательности из (AL)* (за исключением последовательностей весьма маловероятного класса) заключена между 2-L(H+h) и 2-L(H-h).

Важно бывает знать мощности обоих групп последовательностей (см. первую теорему Шеннона). В частности, возникает вопрос о числе «наиболее вероятных» последовательностей, вероятности которых приблизительно равны .

Занумеруем все последовательности AL в порядке убывания их вероятностей:

.

Выберем l, 0<l<1. Пусть NL(l) – число последовательностей, определяемых из неравенства

.

В это число войдет некоторое число последовательностей АL второй группы, у которых Р(АL)>2L(Н(А)-h), но в основном оно определяется последовательностями первой группы.

Вторая теорема Шеннона. Для любого фиксированного значения l, 0<l<1 справедливо соотношение

.

ИМЕННО В ЭТОМ СМЫСЛЕ ПИШУТ, что NL(l)=2LН(А). Как следует из формулы, этот предел не зависит от l и поэтому можно полагать l сколь угодно близким к 1, l=1-D и тогда nL– NL(1–D) есть число последовательностей, вероятность появления которых в результате реализации нашего случайного процесса получения последовательностей пренебрежимо мала, то есть практически невозможных последовательностей.

Доказательства приведенных теорем обычно даются в курсе математической теории информации.

Таким образом, в первой и второй теоремах Шеннона устанавливается замечательное свойство «равнораспределенности» длинных сообщений, порождаемых независимыми испытаниями схемы А.

Это свойство устанавливает, грубо говоря, тот факт, что всего таких сообщений

NL»2LH(A) и все они приблизительно равновероятны.

Можно ли установить похожее свойство для осмысленных сообщений, которые, очевидно, не порождаются независимыми испытаниями?

Для этого необходимо, во-первых, ввести математическую модель осмысленных сообщений, а во-вторых, определить, в соответствии с (1), энтропию на одну букву осмысленного сообщения. В качестве математической модели осмысленных сообщений обычно рассматривают последовательности, получаемые с помощью так называемых марковских процессов. Среди таких процессов имеется важная группа процессов называемая стационарными эргодическими процессами. В таких процессах каждая создаваемая процессом последовательность имеет одни и те же статистические свойства. Поэтому относительные частоты различных комбинаций исходов (букв, биграмм и т. п.), полученные из частных последовательностей будут стремиться с увеличением длин последовательностей к определенным пределам, не зависящим от этих частных последовательностей. Таким образом, для эргодического процесса возможно отождествление средних значений различных комбинаций исходов вдоль некоторой последовательности со средними значениями по ансамблю возможных последовательностей (причем вероятность расхождения равна нулю).


Глава 11.





Дата публикования: 2015-02-22; Прочитано: 483 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2025 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...