Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Символьный подход к определению количества информации



Объемная характеристика информации представляет собой количество символов, содержащихся в конкретном сообщении.

Например, одно и тоже число можно записать разными способами: 1-й способ – 20; 2-й способ – “двадцать”; 3-й способ – ХХ; 4-й способ – 011 000.

Любой из этих способов чувствителен к форме представления (записи) числа.

Символьный подход не связывает количество информации в сообщении с его содержанием.

Алфавит – все множество символов данного языка, включая цифры, знаки препинания и даже пробел.

Полное количество символов – мощность алфавита N. В русском языке N=54. При этом (принимаем, что появление символов равновероятно)

I = log254 = 5,755.

Если количество символов в тексте равно М, то текст несет объем информации I54*М или 5,755 М (при любом содержании!)

Значит, количество информации – функция от мощности алфавита и объема текста.

Книга толще – при прочих равных условиях – объем информации больше (если язык один и тот же!).

Одна страница текста на разных языках – разные объемы информации. Мощность алфавита может быть любой.

Достаточный алфавит содержит 256 символов – русский и латинский алфавиты, цифры, знаки препинания и др. символы, включая элементы псевдографики.

Бит слишком мелкая единица измерения. На практике чаще применяется более крупная единица – байт, равная восьми битам.

Именно восемь бит требуется для того, чтобы закодировать любой из 256 символов. Считая появление различных символов равновероятным, находим, что энтропия достаточного алфавита составляет

I256 = log2 256 = 8 бит = 1 байт.

Значит, любая книга, набранная на компьютере, имеет объем информации 8S байт, где S – число символов. При 40 строках по 60 символов 1 страница содержит 2400 байт информации.

При строгом подходе для определения объема информации на одной странице надо брать формулу Шеннона.

В русском алфавите на 34 символа (все буквы + пробел) при написании русского текста вероятности появления различных символов составляют:

Pа =0,062 Pе=0,072 Pф=0,002 Pо=0,010 Pп=0,032.

Самые высокие вероятности – у О, Е (0,072), самые низкие – у Э(0,003) и Ф(0,002) – для букв. Самый частый – пробел. При равновероятном появлении символов вероятность составила бы

1/34=0,029411764.

При этом на один символ пришлась бы энтропия I=1,2 бит. В немецком алфавите одному символу соответствует энтропия I=1,6 бит.

Широко используются также еще более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 210 байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт,

1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

Скорость передачи информации измеряется в Кбайт/с, бит/с, байт/с.

В силу безусловного приоритета двоичной системы счисления при внутреннем представлении информации в компьютере кодирование «внешних» символов основывается на сопоставлении каждому из них определенной группы двоичных знаков. При этом из технических соображений и из соображений удобства кодирования-декодирования следует пользоваться равномерными кодами, т.е. двоичными группами равной длины.

Попробуем подсчитать наиболее короткую длину такой комбинации с точки зрения человека, заинтересованного в использовании лишь одного естественного алфавита - скажем, английского: 26 букв следует умножить на 2 (прописные и строчные) - итого 52; 10 цифр, будем считать, 10 знаков препинания; 10 разделительных знаков (три вида скобок, пробел и др.), знаки привычных математических действий, несколько специальных символов (типа #, $, & и др.) - итого - 100. Точный подсчет здесь не нужен, поскольку нам предстоит решить простейшую задачу: имея, скажем, равномерный код из групп по N двоичных знаков, сколько можно образовать разных кодовых комбинаций. Ответ очевиден:. Итак, при N=6 К = 64 -явно мало, при N = 7 К = 128 -вполне достаточно.

Однако, для кодирования нескольких (хотя бы двух) естественных алфавитов (плюс все отмеченные выше знаки) и этого недостаточно. Минимально достаточное значение N в этом случае 8; имея 256 комбинаций двоичных символов, вполне можно решить указанную задачу. Поскольку 8 двоичных символов составляют 1 байт, то говорят о системах «байтового» кодирования.

Выводы, касающиеся статистической меры количества информации Шеннона После получения сообщения получатель приобретает такое количество информации, которое равно энтропии полученного сообщения. Если известно, что данное событие наверняка произойдет или не произойдет, его энтропия минимальна и равна 0.

Энтропия максимальна, если ожидаемые события могут произойти с равной вероятностью.

Количество информации, получаемое при приеме равновероятных сообщений, максимально и равно количеству информации по Хартли.

Энтропия сложного события, состоящего из нескольких независимых событий, равна сумме энтропий этих событий.

Энтропия сложного события, состоящего из нескольких зависимых событий, равна не сумме энтропий этих событий и может быть найдена с использованием матрицы взаимных вероятностей получения всевозможных комбинаций этих сообщений.





Дата публикования: 2015-01-23; Прочитано: 375 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...