Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Кодирование символьных (текстовых и числовых) данных

⇐ Предыдущая 1 2 345 6 7 8 Следующая ⇒

С помощью двоичного кода кодируется символьная, т. е. текстовая и числовая информация, для чего используются специальные кодировочные таблицы.

Для латинской раскладки клавиатуры применяется единая кодировочная таблица во всех странах, поэтому текст, набранный с использованием латинской раскладки, будет адекватно отображаться на любом компьютере.

Эта кодировочная носит название ASCII.

Код ASCII - American Standard Code for Information Interchange - ( стандартный код информационного обмена США (произносится как "эски"),разработан ANSI - American National Standard Institute).

Он имеет базовую и расширенную таблицы кодирования:

- базовая - от 0 до 127;

- расширенная - от 128 до 255,

т. е. всего - 256 или 2⁸значений.

Таким образом, в этой кодировочной таблице использовано восемь бит или 1 байт.

Первые 32 значения (от 0 до 31) отданы для кодирования символов аппаратных средств (компьютеров и принтеров).

Значения от 32 до 127 - коды символов английского алфавита, знаки препинания, цифр, арифметических действий и некоторых вспомогательных символов.

В России расширенная символьная кодировка (от 128 до 255-го значения), включающая коды кириллицы, имеет три действующих стандарта:

- Windows 1251 - стандарт в российском секторе Word Wide Web;

- КОИ-8 (восьмизначный код обмена информацией) - стандарт в сообщениях электронной почты и телеконференций;

- международный стандарт ISO (International Standard Organization - международный институт стандартизации), который на практике используется редко.

Однако, используя 8-битную кодировочную таблицу невозможно адекватно увидеть на мониторе документы, созданные на тех языках, где используются символы, отличающиеся от латинских и кирилличных, например, умляуты в немецком языке или иероглифы.

Универсальная система кодирования текстовых данных основана не на 8-, а на 16- разрядном (или 2-х байтном) кодировании называется Юникод (UNICODE). На основании такой таблицы может быть закодировано N=2¹⁶=65 536 символов.

Она позволяет кодировать не только русский и латинский алфавиты, но практически все современные письменности, в том числе: китайскую, корейскую, японскую, арабскую, иврит, армянскую, бенгальскую и т. п.).

Однако при этом все текстовые документы автоматически имеют вдвое больший объем.

Поэтому сейчас на практике больше распространено представление Юникода UTF-8 (Unicode Transformation Format).

Кодировка в UTF-8 обеспечивает наилучшую совместимость с системами, использующими 8-битные символы.

Текст, состоящий только из символов с номером меньше 128-го при записи в UTF-8 превращается в обычную кодировку ASCII или Windows 1251.

Русифицированная часть стандарта Windows 1251 представлена в следующей таблице:

⇐ Предыдущая 1 2 345 6 7 8 Следующая ⇒

Дата публикования: 2014-11-29; Прочитано: 804 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...