Редакторы, создающие текст с элементами разметки (Word, StarWriter, LyX, Netscape Composer).


Сжатие данных

Сжатие данных необходимо для удешевления хранения информации.

Характерной особенностью большинства данных является избыточность. Под этим термином часто понимают разные понятия. Так в теории лингвистики под избыточностью понимается количество слов, которые можно убрать из текста без потери его смысла. Такая избыточность обусловлена стилем автора. В теории информации под избыточностью понимают количество случайным образом удаленных букв при которых возможно однозначное восстановление текста. Наиболее простым примером избыточности является стенография, в основе которой лежит сжатие информации за счет условного отказа от гласных букв. Например, если из слова ИЗБЫТОЧНОСТЬ выбросить все гласные буквы, то по фрагменту ЗБТЧНСТ можно попытаться восстановить исходное слово. Избыточность зависит: а) от национальных особенностей языка, например избыточность русского языка на 20-30% больше английского; б) от типа данных, т.е. видеозапись имеет большую избыточность, чем у графических данных, а у графических данных избыточность выше, чем у текстовых. Избыточность данных может иметь как отрицательные, так и положительные последствия. Например, учебный материал принято подавать со значительной избыточностью, т.к. такое повторение способствует лучшему запоминанию и пониманию.

Избавление от избыточности данных носит название сжатия данных, а применительно к документам может называться архивацией. Программные средства, используемые для архивации, называются архиваторами.

Сжатию могут подвергаться файлы, папки и даже диски. Уплотнение файлов необходимо для уменьшения их размеров с целью удешевления при их передаче по сетям или для их транспортировки на внешнем носителе малой емкости. Уплотнение папок применяют как средство архивации при длительном хранении, в частности при резервном копировании. Уплотнение диска служит целям повышения эффективности использования их рабочего пространства.

Существует три способа уменьшения избыточности данных. Это изменение содержания данных, изменение структуры данных, либо то и другое вместе. Если при сжатии данных происходит изменение их содержания, то при восстановлении данных не происходит их полного восстановления. Такой метод сжатия применяется для данных, при которых формальная утрата части информации не приводит к значительному снижению потребительских свойств. Этот прием сжатия применим к видеозаписям, музыкальным записям, аудиозаписям и рисункам. Методы сжатия с частичной потерей информации не применимы к текстовым данным.

Характерными форматами сжатия с частичной потерей информации являются форматы: .JPG для графических данных, .MPG для видеоданных, .МР3 для звуковых данных.

Если при сжатии данных происходит только изменение структуры, то метод сжатия полностью обратим. Обратимые методы применяются для сжатия любого типа данных. Характерные форматы сжатия без потери информации это GIF, .TIF, .PCX для графических данных, .AVI для видеоданных, .ZIP, .ARJ, .RAR, .LZH, .LH, .CAB для любых типов данных.

Данные различного типа имеют свои оптимальные алгоритмы сжатия.

Алгоритм RLE применим для сжатия графических данных, его эффективность не зависит от объема данных. Для текстовых данных его эффективность не велика. В некоторых случаях он используется для сжатия таблиц, имеющих фиксированную длину полей.

В основу метода положен принцип выявления повторяющихся последовательностей данных и замены их простой структурой, в которой указывается код данных и коэффициент повтора.

Например, для последовательности 1,1,1,123,123,1,33,33,33,33 (всего 10 байт) можно сопоставить таблицу

 

Значение Коэффициент повтора

 

При записи в строку данные имеют вид

1,3,123,2,1,1,33,4 (8 байт)

В данном примере коэффициент сжатия составляет 8/10 (80%).

Программная реализация этого метода является простой и обеспечивает недостаточное сжатие. Наилучшее применение данный алгоритм находит для графических данных, в которых большие одноцветные участки изображения кодируются одинаково.

Алгоритм KWE применяется для сжатия текстовых данных. В данном алгоритме сжатые данные помещаются в таблицу имеющую вид словаря. На кодировку слова используется двухбайтовая единица. Алгоритм эффективен для англоязычных текстов и файлов баз данных. Для русского языка, имеющего большое количество приставок, суффиксов окончаний и большую длину слова эффективность метода невысока.

Алгоритм Хаффмана применяется для любого типа данных. В основе метода лежит кодировка битовыми группами. Перед началом сжатия проводится частотный анализ кода документа и выявляется частота повтора каждого символа. Чем чаще встречается тот или иной символ, тем меньшим количеством битов он кодируется.

Рассмотренные алгоритмы в чистом виде на практике не используются, т.к. эффективность каждого из них сильно зависит от начальных условий. Современные средства архивации используют комбинации данных алгоритмов.

Для сжатия данных в операционной системе MS DOS используется программные средства PKZIP, RAR, ARJ, для Windows это WinZIP, WinARJ, WinRAR, 7-Zip, ZipItFast!.

Эти программные средства кроме простого сжатия файлов способны извлекать файлы из архивов, создавать новые архивы, добавлять файлы в имеющийся архив, создавать самораспаковывающиеся архивы, тестировать целостность структуры архива, полностью или частично восстанавливать поврежденные архивы, защищать архивы от просмотра и несанкционированной модификации, создание так называемого распределенных архивов, просматривать архивный файл без извлечения их из архива, защищать паролем архивный файл, выбирать и настраивать коэффициент сжатия информации.

Самораспаковывающиеся архивы. При передаче архивированного файла потребителю предполагается наличие у него программного средства необходимого для извлечения исходных данных из архива. Если таких средств у него нет, создается самораспаковывающийся архив. Он создается на базе обычного архива путем присоединения к нему небольшого программного модуля. Сам архив получает расширение .EXE, характерное для исполняемых файлов. После создания такого архива его необходимо проверить, т.е. выполнить запуск файла путем щелчка мыши, после чего распаковка на его компьютере произойдет автоматически.

Распределенные архивы. Бывают случаи, что файл в архивированном виде имеет размер больший, чем емкость дискеты. В этом случае, возможно его распределение в виде фрагментов на нескольких носителях.

Некоторые программные средства архивации, например WinZIP сразу выполняет разбиение на дискету, другие WinARJ, WinRAR выполняют предварительное разбиение архива на фрагменты заданного размера на жестком диске. Затем их можно скопировать на внешние носители.

Известно, что дискета является достаточно ненадежным носителем, поэтому лучше хранить копию архива в двух экземплярах.

Защита архивов осуществляется путем создания пароля. Так как программные средства, используемые для восстановления утраченного пароля или взлома защиты информации, используют методы прямого перебора, надо стремиться максимально увеличить число символов в пароле, использовать знаки препинания и символы русского алфавита.

Просмотр архивного файла без его распаковки необходим для обеспечения безопасности при работе с незнакомыми файлами либо файлами, поступившими через Интернет.

Уплотнение носителей происходит за счет сжатия данных путем изменения их структуры. При уплотнении носителей никакого физического увеличения емкости не происходит. Пользователь практически не замечает разницы в работе с обычным и уплотненным носителем. Степень сжатия данных во многом определяется типом данных и поэтому наблюдаемое приращение емкости носителя не является величиной постоянной и непрерывно меняется в зависимости от того, какой тип данных добавляется на носитель.

Уплотнению может подвергаться как винчестер, так и дискета. При этом не обязательно уплотнять все дисковое пространство. Соотношением между уплотненным и неуплотненным пространством можно управлять.

При уплотнении дисков на физическом диске создается скрытый файл, предназначенный для записи сжатых данных. Данный файл называется файлом сжатого тома, а физический диск, на котором он размещен, называют несущим диском. Если файл сжатого тома занимает часть несущего диска, то несущий диск делается скрытым, а файл сжатого тома операционной системой распознается как уплотненный диск. Весь обмен информации с уплотненным диском происходит под управлением специальной программы –драйвера сжатого тома.

Уплотнение носителей имеет и негативную сторону. Заметно снижается надежность хранения сжатых данных в случае повреждения аппаратного или программного обеспечения.

 



Дата добавления: 2016-06-22; просмотров: 1643;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.083 сек.