Вероятностный подход

Вероятностный подход используется в теории информации.

Пусть имеется какое-либо событие или процесс, это может быть опыт с бросанием игральной кости, вытаскивание шара определенного цвета из коробки, получение определенной оценки и т.п. Введем обозначения:

P – вероятностьнекоторогособытия

n – общее число возможных исходов данного события

k – количество событий из всех возможных, когда происходит событие

I – количество информациио событии

Тогда вероятность этого события равна P=k/n

А количество информации о нем выражается формулой:

(вспомним, что логарифм определяет степень, в которую нужно возвести основание логарифма, чтобы получить аргумент)

Пример: испытание – подбрасывание игральной кости (кубика), событие – выпадение чётного количества очков. Тогда n=6, k=3, P=3/6=1/2,

=log₂(2)=1

При рассмотрении вопроса о количестве информации I, вводят понятие неопределенности состоянии системы – энтропии системы (H). Получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы.

Энтропия системы, имеющей n возможных состояний, когда различные исходы опыта неравновероятны (например, получение положительной оценки на экзамене – вероятность получения 3, 4 или 5 разная) вычисляется по формуле:

, где P_i – вероятность i-го исхода.

Это выражение называется формулой Шеннона.

Частный случай формулы Шеннона это формула Хартли, когда события равновероятны:

То есть нужно решить показательное уравнение относительно неизвестной I: .

Важным при введении какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Из формулы Хартли следует, что H=I=1 при N=2 (2¹=2). Иными словами, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты, при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется - бит. Сообщение, уменьшающее неопределенность знаний человека в два раза, несет для него 1 бит информации.

Рассмотрим примеры на подсчет количества информации.

Пример 1. В барабане для розыгрыша лотереи находится 32 шара. Сколько информации содержит сообщение о первом выпавшем номере (например, выпал номер 15)? Поскольку вытаскивание любого из 32 шаров равновероятно, то количество информации об одном выпавшем номере находится из уравнения:

Решение. По формуле Хартли I=log₂32, следовательно, количество информации I равняется числу, в которое нужно возвести 2, чтоб получить 32 – это 5, так как 2⁵=32.

Ответ. I=5 бит.

Пример 2. В коробке имеется 50 шаров. Из них 40 белых и 10 черных. Определить количество информации в сообщении о выпадании белого шара и черного шара.

Решение. Обозначим p_ч – вероятность вытаскивания черного шара, p_б - вероятность вытаскивания белого шара. Тогда

p_ч= 10/50 = 0,2; p_б= 40/50 = 0,8.

Теперь, зная вероятности событий, можно определить количество информации в сообщении о каждом из них, используя формулу I=log₂(1/p):

Iч = log₂(1/0,2) = log₂5 = 2,321928;

Iб = log₂(1/0,8) = log₂(1,25) = 0,321928.

Объемный подход

Объемный является самым простым способом измерения информации. Соответствующую количественную оценку информации естественно назвать объемом информации.

Объем информации в сообщении – это количество символов в сообщении. Поскольку в вычислительной технике используется двоичная система счисления, то минимальная единица информации – бит.

Алфавит, используемый для представления текстов в компьютере, включает 256 символов, информационный вес каждого из которых равен 8 бит (2⁸=256), т.е. для записи 1 символа из алфавита мощностью 256 требуется 8 двоичных разрядов. Отсюда соотношение 1 байт=8 бит.

Такое соотношение было принято не сразу: для различных вычислительных машин длина байта была различной. Но в конце 60-х годов понятие байта стало универсальным и машинно-независимым.

Более крупные единицы измерения объема данных:

1 Кбайт (килобайт) = 1024 байт = 2¹⁰ байт

1 Мбайт (мегабайт) = 1024 Кбайт = 2²⁰ байт

1 Гбайт (гигабайт) = 1024 Мбайт = 2³⁰ байт

1 Терабайт (Тбайт) = 1024 Гбайт = 2⁴⁰ байт,

1 Петабайт (Пбайт) = 1024 Тбайт = 2⁵⁰ байт.

Информационный объем сообщения (информационная емкость сообщения) – количество информации в сообщении, измеренное в битах, байтах или производных единицах (Кбайтах, Мбайтах и т. д.).

Пример. Книга, набранная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Каков объем информации в книге?

Решение. Мощность компьютерного алфавита равна 256. Один символ несет 1 байт информации. Значит, страница содержит 40 х 60 = 2400 байт информации. Объем всей информации в книге (в разных единицах):

2400 х 150 == 360 000 байт

360000/1024 = 351,5625 Кбайт

351,5625/1024 = 0,34332275 Мбайт.

Системы счисления

Информация в ЭВМ кодируется в двоичной системе счисления.

Система счисления – это способ записи чисел с помощью заданного набора специальных знаков (цифр).

Существуют позиционные и непозиционные системы счисления.

В непозиционных системах счисления цифры не меняют своего количественного значения при изменении их расположения в числе. Римская система счисления является непозиционной. Значение цифры X в числе XXI остается неизменным при вариации ее положения в числе (значение в любой позиции равно десяти).

В позиционных системах счисления количественное значение каждой цифры зависит от ее места (позиции) в числе. Десятичная система счисления является позиционной. Например, в числе 757,7 первая семерка означает 7 сотен, вторая – 7 единиц, а третья – 7 десятых долей единицы.

Сама же запись числа 757,7 означает сокращенную запись выражения

700+50+7+0,7 = 7*10² + 5*10¹ +7*10⁰ + 7*10^-1

Здесь 10 служит основой системы исчисления, а показатель степени - это номер позиции цифры в записи числа (нумерация ведется слева на право, начиная с нуля).

Любая позиционная система счисления характеризуется своим основанием.

Основание позиционной системы счисления – это количество различных знаков или символов, используемых для изображения цифр в данной системе.

В десятичной систем счисления используется десять цифр: 0, 1, 2,..., 9; в двоичной — две: 0 и 1; восьмеричной — восемь: 0, 1,2,..., 7. В общем случае, в системе счисления с основанием q используются цифры от 0 до (q – 1).

За основание можно принять любое натуральное число – два, три, четыре и т.д. Следовательно, возможно бесчисленное множество позиционных систем: двоичная, троичная, четверичная и т.д. Запись чисел в каждой из систем счисления с основанием q означает сокращенную запись выражения

a_n-1q^n-1 + a_n-2q^n-2 + ... + a₁q¹+ a₀q⁰ +a_-1q^-1 + ... + a_-_mq^-^m,

где a_i – цифры системы счисления; n и m – число целых и дробных разрядов соответственно.

Например:

1011,1₂= 1*2³+ 0*2²+ 1*2¹ + 1*2⁰ +1*2^-1

276,52₈ = 2*8²+ 7*8¹+ 6*8⁰+ 5*8^-1 + 2*8 ^-2

В ВТ применяют позиционные системы счисления с недесятичным основанием: двоичную, восьмеричную, шестнадцатеричную системы и др. Для обозначения используемой системы счисления числа заключают в скобки и индексом указывают основание:

(15)₁₀;(1011)₂;(735)₈;(1ЕА9F)₁₆.

Иногда скобки опускают и оставляют только индекс:

15₁₀;1011₂;735₈;1ЕА9F₁₆.

В ЭВМ используют двоичную систему потому, что она имеет ряд преимуществ перед другими системами:

* для ее реализации нужны технические элементы с двумя возможными состояниями (есть ток - нет тока, намагничен - ненамагничен и т.п.), а не с десятью, например, как в десятичной - и это намного проще;

* представление информации посредством только двух состояний надежно и помехоустойчиво;

* возможно применение аппарата алгебры логики для выполнения логических преобразований информации;

* двоичная арифметика намного проще десятичной (двоичные таблицы сложения и умножения предельно просты):

Таблица 1

Двоичная таблица сложения Двоичная таблица умножения

0+0=0 1+0=1 0*0=0 1*0=0

0+1=1 1+1=10 0*1=0 1*1=1

0111 7

+ 0110 + 6

1101 13

Недостаток двоичной системы – быстрый рост числа разрядов, необходимых для записи числа.

Для сокращения записиадресов и содержимого оперативной памяти компьютера используют шестнадцатеричную и восьмеричную системы исчисления: поскольку 2³=8, а 2⁴=16, то каждые три двоичных разряда (триада) числа образуют один восьмеричный, а каждых четыре двоичных разряда (тетрада) - один шестнадцатеричный.

Ниже, в таблице 2 приведены первые 16 натуральных чисел записанных в десятичной, двоичной, восьмеричной и шестнадцатеричной системах исчисления.