Кодирование текстовых данных

Любой текст состоит из последовательности символов. Символами могут быть буквы, цифры, знаки препинания, знаки математических действий, круглые и квадратные скобки и т.д.

Текстовая информация хранится в компьютере в двоичном коде. Для этого каждому символу ставится в соответствие некоторое неотрицательное число (например, порядковый номер), называемое кодом символа. И это число записывается в память ЭВМ в двоичном виде. Конкретное соответствие между символами и их кодами называется системой кодировки. Восьми двоичных разрядов достаточно для кодирования 256 различных символов, используемых на практике. При такой кодировке для кода символа достаточно выделить в памяти 1 байт. Так и делают: каждый символ представляют своим кодом, который записывается в 1 байт памяти.

Например, при нажатии клавиши «А» в ком посылается двоичное число 01000001 (десятичное число 65). Для машины это число служит номером «литеры» с изображением А, которая хранится в памяти машины. Специальные электронные схемы по этому номеру находят «литеру» и «печатают» ее на экране. Послав в машину комбинацию 01000010 (66), увидим на экране латинскую В. В современных ЭВМ используются 8 разрядные коды символов (16 разрядные в Windows 95, 98, NT).

В персональных ПК обычно используется система кодировки ASCII (American Standard Code for Information Interchange – американский стандартный код для информационного обмена). Которая кодирует ровно половину возможных символов от 0 до 127 (первые 32 кода базовой таблицы, начиная с 0, отданы производителям аппаратных средств компьютера и печатающих устройств) В этой области размещены управляющие коды, которым не соответствуют ни какие символы языков, и, соответственно эти коды не выводятся ни на экран, ни на устройство печати. Начиная с кода 32 по 127 размещены коды символов английского алфавита, знаков препинания, цифр, арифметических действий. Вторая половина кодовой таблицы (с кодами от 128 до 255) не определена американскими стандартами и предназначена для размещения символов национальных алфавитов (в частности, кириллицы), псевдографических символов, некоторых математических знаков. В разных странах, на разных моделях ПК могут использоваться и разные варианты второй половины кодовой таблицы (их называют расширениями ASCII). Подавляющее большинство наших компьютеров используют альтернативную таблицу, которая считается неофициальным российским стандартом для MS-DOS. В целом альтернативную таблицу называют кодовой страницей 866. В среде Windows используются десятки таких же кодовых таблиц – для разных стран и алфавитов. Например, для русского языка применяется страница 1251, в которой символы кириллицы размещены иначе, чем на странице 866. Особо следует подчеркнуть, что в графической технологии для одной и той же страницы используются сотни шрифтов (а не один единственный, как в текстовом режиме MS-DOS). Поэтому в одной и той же кодовой странице в зависимости от шрифта один и тот же десятичный код может соответствовать разным по начертанию символам.

В СССР были разработаны аналогичные системы кодирования текстовых данных КОИ – 7(код обмена информацией, семизначный). Поддержка производителей оборудования и программ вывела американский код ASCII на уровень международного и национальным системам пришлось отступить. КОИ – 8 имеет широкое распространение в ком сетях на территории России и российском секторе Интернета.

Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, носит название кодировки ISO (International Standard Organization – Международный институт стандартизации). На практике данная кодировка используется редко.