Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Энтропия и избыточность языка

⇐ Предыдущая 9 10 11 12 131415 16 17 18 Следующая ⇒

Свойства текстов изучаются методами теории информации, разработанной К. Шенноном. Ключевое понятие – энтропия, определяемая функцией от вероятностного определения и характеризующая количество неопределенности или информации в случайном эксперименте. Неопределенность и информация измеряются одной и той же мерой. Применительно к независимым испытаниям случайной величины x с распределением вероятностей

энтропия H (x) определяется формулой

Единицей количества информации считается 1 бит. При p_i = 1/ n при всех , то

Мерой среднего количества информации, приходящейся на одну букву открытого текста языка L (рассматриваемого как источник случайных текстов), служит величина H _L, называемая энтропией языка L. вычисляется последовательными приближениями позначных моделей текста: H ₁, H ₂, … H_r.

Для каждого языка значение H _L стремится к определенному пределу (после r = 30 предел уже устанавливается):

при этом формула

определяет избыточность языка R _L. Разговорные языки имеют весьма большую избыточность. Избыточность текста в 75% означает, что при оптимальном кодировании текста (например использование кодов Хаффмена, Фано или других) его можно сжать до четверти без потери информации.

Энтропию можно определить и по другому. Для n -буквенного алфавита число текстов длины L, удовлетворяющих статистическим ограничениям, равно (при достаточно больших L) не как это было бы, если бы мы имели право брать любые наборы из L букв, а всего лишь

По сути это приближенное число осмысленных текстов длины L для данного языка L. Исходя из этого можно определить энтропию языка формулой

⇐ Предыдущая 9 10 11 12 131415 16 17 18 Следующая ⇒

Дата публикования: 2014-11-02; Прочитано: 1415 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2025 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.241 с)...