Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Таблицы кодировок

⇐ Предыдущая 12 13 14 15 16 17 18 19 2021

В человеческом мире информация представляется последовательностями символов. Каждый символ имеет каноническое изображение, которое позволяет однозначно идентифицировать данный символ. Варианты начертания символов задают разные шрифты.

В вычислительных машинах для представления информации используются цепочки байтов. Поэтому для перевода информации из машинного представления в человеческий, необходимы таблицы кодировки символов - таблицы соответствия между символами определенного языка и кодами символов. Их еще называют кодовыми страницами или применяют английский термин character set (который иногда сокращают до charset).

Самой известной таблицей кодировки является код ASCII (Американский стандартный код для обмена информацией). Первоначально он был разработан для передачи текстов по телеграфу, причем в то время он был 7-битовым, то есть для кодирования символов английского языка, служебных и управляющих символов использовались только 128 7-битовых комбинаций. При этом первые 32 комбинации (кода) служили для кодирования управляющих сигналов (начало текста, конец строки, перевод каретки, звонок, конец текста и т.д.). При разработке первых компьютеров фирмы IBM этот код был использован для представления символов в компьютере. Поскольку в исходном коде ASCII было всего 128 символов, для их кодирования хватило значений байта, у которых 8-ой бит равен 0. Значения байта с 8-ым битом, равным 1, стали использовать для представления символов псевдографики, математических знаков и некоторых символов из языков, отличных от английского (греческого, немецких умляутов, французских диакритических знаков и т.п.).

Когда стали приспосабливать компьютеры для других стран и языков, места для новых символов уже не стало хватать. Для того, чтобы полноценно поддерживать помимо английского и другие языки, фирма IBM ввела в употребление несколько кодовых таблиц, ориентированных на конкретные страны. Так для скандинавских стран была предложена таблица 865 (Nordic), для арабских стран - таблица 864 (Arabic), для Израиля - таблица 862 (Israel) и так далее. В этих таблицах часть кодов из второй половины кодовой таблицы использовалась для представления символов национальных алфавитов (за счет исключения некоторых символов псевдографики).

С русским языком ситуация развивалась особым образом. Очевидно, что замену символов во второй половине кодовой таблицы можно произвести разными способами. Вот и появились для русского языка несколько разных таблиц кодировки символов кириллицы: KOI8-R, IBM-866, CP-1251, ISO-8551-5. Все они одинаково изображают символы первой половины таблицы (от 0 до 127) и различаются представлением символов русского алфавита и псевдографики.

Для таких же языков, как китайский или японский, вообще 256 символов недостаточно. Кроме того, всегда существует проблема вывода или сохранения в одном файле одновременно текстов на разных языках (например, при цитировании). Поэтому была разработана универсальная кодовая таблица UNICODE, содержащая символы, применяемые в языках всех народов мира, а также различные служебные и вспомогательные символы (знаки препинания, математические и технические символы, стрелки, диакритические знаки и т.д.). Очевидно, что одного байта недостаточно для кодирования такого большого множества символов. Поэтому в UNICODE используются 16-битовые (2-байтовые) коды, что позволяет представить 65 536 символов. К настоящему времени задействовано около 49 000 кодов (последнее значительное изменение - введение символа валюты EURO в сентябре 1998 г.).

Для совместимости с предыдущими кодировками первые 256 кодов совпадают со стандартом ASCII.

В стандарте UNICODE кроме определенного двоичного кода (эти коды принято обозначать буквой U, после которой следуют знак + и собственно код в шестнадцатеричном представлении) каждому символу присвоено определенное имя.

Еще одним компонентом стандарта UNICODE являются алгоритмы для взаимно-однозначного преобразования кодов UNICODE в последовательности байтов переменной длины. Необходимость таких алгоритмов обусловлена тем, что не все приложения умеют работать с UNICODE. Некоторые приложения понимают только 7-битовые ASCII-коды, другие приложения - 8-битовые ASCII-коды. Такие приложения используют для представления символов, не поместившихся, соответственно, в 128-символьный или 256-символьный набор, так называемые расширенные ASCII-коды, когда символы кодируются цепочками байтов переменной длины. Алгоритм UTF-7 служит для обратимого преобразования кодов UNICODE в расширенные 7-битовые ASCII-коды, а UTF-8 - для обратимого преобразования кодов UNICODE в расширенные 8-битовые ASCII-коды.

Отметим, что и ASCII и UNICODE и другие стандарты кодировки символов не определяют изображения символов, а только состав набора символов и способ его представления в компьютере. Кроме того (что, может быть, не сразу очевидно), очень важен порядок перечисления символов в наборе, так как он влияет самым существенным образом на алгоритмы сортировки. Именно таблицу соответствия символов из какого-то определенного набора (скажем, символов, применяемых для представления информации на английском языке, или на разных языках, как в случае с UNICODE) и обозначают термином таблица кодировки символов или charset. Каждая стандартная кодировка имеет имя, например, KOI8-R, ISO_8859-1, ASCII. К сожалению, стандарта на имена кодировок не существует.

Заключение

Для современного периода характерно новое соотношение двух сторон информационного общества - информационных ресурсов и информационных потребностей. На основе анализа этих сторон показана динамика и возможные сценарии дальнейшего развития общества в период информационного взрыва.

Сделан вывод, что инерционное саморазвитие информационных ресурсов должно быть уравновешенно научно-обоснованной информатизацией образования, направляющей информационное общество на стабильный путь.

Рост количества информации и повышение ее значения во всех сторонах жизнедеятельности человека привел к вложению огромных средств и сил в развитие возможностей информационно-компьютерных инфраструктур в обществе.

Научный поиск дал стимул техническому перевооружению этой сферы и привел к столь стремительному возрастанию информационно-компьютерных возможностей и к новому витку роста количества информации, что подавляющее большинство из них остается не востребованным.

Множество информационных структур, пронизывая систему образования составляет единую информационно-компьютерную и научную инфраструктуру системы образования, которая в настоящее время активно развивается.

Интенсивный рост возможностей компьютерной техники и явное запаздывание ее теоретического осмысления в педагогике привели к тому, что преобладание бытового понимания и использования информационно-компьютерных систем в настоящее время вызвало стихийный перекос основ информационного общества, опасную однобокость и извращение самой идеи информатизации. Выравнивание сложившейся ситуации должно осуществляться на прочном научно-обоснованном фундаменте информационно-компьютерной подготовки современного человека.

Используемая литература

1. Кирилова Г.И. Информационные технологии и компьютерные средства в образовании // Educational technology & Society., 2001

2. Львовский М.Б. Методическое пособие BOOK по информатике для 7-11 классов., Москва. 2008

3. Каплунова Н.В., Шарыхин В.В., Хмельницкий С.В. Концепция развития информационных ресурсов. // Под ред. С.В.Хмельницкого. - СПб.: Европейский университет в Санкт-Петербурге, 2001.

4. Кайлин В.А. Информатика. Учебник. - М.: ИНФА-М.,2003-285с.

5. Смирнов Алексей, Марциновский Иван. Состояние и ближайшие перспективы компьютерного рынка. Магнитные и магнитооптические накопители / Компьютер Price, 2003 - 3,10-13с.

6. Шафрин Ю.А. "Основы компьютерной технологии". М., 1998

7. http://ru.wikipedia.org

Размещено на Allbest.ru

⇐ Предыдущая 12 13 14 15 16 17 18 19 2021

Дата публикования: 2015-01-10; Прочитано: 685 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...