Мультимедиа-технологии
3.1.1. Понятие мультимедиа
Термин «мультимедиа» с английского можно перевести как «многие среды» (от multi – много и media – среда).
В настоящее время мультимедиа-технологии являются бурно развивающейся областью информационных технологий. В этом направлении активно работает значительное число крупных и мелких фирм, технических университетов и студий. Области применения чрезвычайно многообразны: интерактивные обучающие и информационные системы, САПР и др.
Основными характерными особенностями этих технологий являются:
• объединение многокомпонентной информационной среды (текст, звук, графика, фото, видео) в однородном цифровом представлении;
• обеспечение надежного (отсутствие искажений при копировании) и долговечного хранения (гарантийный срок хранения – десятки лет) больших объемов информации;
• простота переработки информации.
Достигнутый технологический базис основан на использовании нового стандарта оптического носителя DVD (Digital Versalite/Video Disk), имеющего емкость порядка единиц и десятков гигабайт и заменяющего все предыдущие: CD-ROM, Video-CD, CD-audio. Использование DVD позволило реализовать концепцию однородности цифровой информации и повысить качество звука и изображения. Одно устройство заменяет аудиоплейер, видеомагнитофон, CD-ROM, дисковод, слайдер и др.
3.1.2. Классификация мультимедиа
Мультимедиа может быть классифицирована на две основные группы:
• Линейная. Аналогом линейного способа представления является кино. Человек, просматривающий данный документ, никаким образом не может повлиять на его вывод.
• Нелинейная. Нелинейный способ представления информации позволяет человеку участвовать в выводе информации, взаимодействуя каким-либо образом со средством отображения мультимедийных данных. Участие человека в данном процессе также называется интерактивностью. Нелинейный способ представления мультимедийных данных иногда называется термином «гипермедиа».
В качестве примера линейного и нелинейного мультимедийных продуктов можно рассматривать проведение компьютерных презентаций. Компьютерная презентация представляет собой последовательность слайдов, содержащих мультимедийные объекты. Переход между слайдами осуществляется с помощью управляющих объектов (кнопок) или гиперссылок. В некоторых случаях презентацию запускают в автоматическом режиме, и она повествует о чем-то без участия человека (например, проведение различных выставок). Этот способ донесения информации может быть назван линейным. В случае же живой презентации аудитория имеет возможность взаимодействовать с докладчиком (например, задавать ему вопросы), что позволяет ему отходить от темы презентации, поясняя некоторые термины или более подробно освещая спорные части доклада. Таким образом, живая презентация может быть представлена, как нелинейный (интерактивный) способ подачи информации.
3.1.3. Структурные компоненты мультимедиа
Текст – это упорядоченный набор предложений, связанных по смыслу. В смысловой цельности текста отражаются те связи и зависимости, которые имеются в самой действительности (общественные события, явления природы, человек, его внешний облик и внутренний мир, предметы неживой природы и т. д.).
Восприятие текста изучается в рамках таких дисциплин, как лингвистика текста и психолингвистика.
Текстовый файл – обычная форма представления текста на компьютере. Каждый символ из используемого набора символов кодируется в виде одного байта, а иногда в виде последовательности подряд идущих двух, трех и более байтов.
Особой разновидностью текстовых данных следует считать такназываемый гипертекст. Термин «гипертекст» был введен Тедом Нельсоном в 1965 г. для обозначения «текста, ветвящегося или выполняющего действия по запросу». Обычно гипертекст представляется набором текстов, содержащих узлы перехода от одного текста к какому-либо другому, позволяющие избирать читаемые сведения или последовательность чтения. Общеизвестным и притом ярко выраженным примером гипертекста служат веб-страницы – документы на HTML (гипертекстовом языке разметки), размещенные в интернете. Существуют стилистические, жанровые и тематические классификации текста.
Аудио (от лат. audio – «слышу»). Это общий термин, относящийся к звуковым технологиям. Как правило, под термином «аудио» понимают звук, записанный на звуковом носителе, а также запись и воспроизведение звука, звукозаписывающая и звуковоспроизводящая аппаратура.
Таким образом, аудиальный компонент мультимедийного продукта предназначен для передачи звуковых данных. Как физическое явление звук изучается в рамках акустики, но при этом акустика является междисциплинарной наукой, использующей для решения своих проблем широкий круг дисциплин: математику, физику, психологию, архитектуру, электронику, биологию, теорию музыки и др. Непосредственное отношение к вопросам мультимедиа-технологий имеют такие направления современной акустики, как музыкальная акустика, электроакустика, акустика речи, цифровая акустика.
Аудиоряд мультимедиа-среды может включать речь, музыку и звуковые эффекты (звуки типа грома, шума, скрипа и т. д.).
Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека; чем больше частота сигнала, тем выше тон.
Музыкальный звук обладает следующими характеристиками:
• определенной высотой (обычно от 16 до 4500 Гц);
• тембром, который определяется присутствием в звуке обертонов и зависит от источника звука;
• громкостью, которая не может превышать болевого порога;
• длительностью.
Речевой звук образуется произносительным аппаратом человека с целью языкового общения. Звуки речи подразделяются на шумы и тоны. Тоны в речи возникают в результате колебания голосовых связок; шумы образуются вследствие непериодических колебаний выходящей из легких струи воздуха. Период основного тона разных людей (мужчин, женщин, детей) находится в диапазоне 50 – 250 Гц.
Среди звуковых носителей информации выделяют аналоговые и цифровые носители. Примером аналогового хранения звуковой информации является виниловая пластинка, а дискретного – аудиокомпакт-диск. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц). Таким образом, непрерывная зависимость амплитуды сигнала от времени А(t) заменяется на дискретную последовательность уровней громкости, т. е. производится временная дискретизация. На графике это выглядит как замена гладкой кривой на последовательность «ступенек» (рис. 3.1).
Каждой «ступеньке» присваивается значение уровня громкости звука, его код (1, 2, 3 и так далее). Уровни громкости звука можно рассматривать как набор возможных состояний, соответственно чем большее количество уровней громкости будет выделено в процессе кодирования, тем большее количество информации будет нести значение каждого уровня и тем более качественным будет звучание.
Рис. 3.1. Перевод непрерывной информации в дискретную: а – исходный сигнал;
б – дискретизированный сигнал
Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле
N = = = 65536,
где I — глубина звука.
Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.
Качество двоичного кодирования звука определяется глубиной кодирования и частотой дискретизации.
Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-СD. Следует также учитывать, что возможны как моно-, так и стерео-режимы.
Можно оценить информационный объем стереоаудиофайла длительностью звучания 1 секунда при высоком качестве звука (16 битов, 48 кГц). Для этого количество битов, приходящихся на одну выборку, необходимо умножить на количество выборок в 1 секунду и умножить на 2 (стерео): 16 бит • 48 000 • 2 = 1 536 000 бит = 192 000 байт = 187,5 Кбайт. Для записи одной минуты WAV-звука высшего качества необходима память порядка 10 Мбайт (187,5 Кбайт 60 = 10 Мбайт), поэтому стандартный объем CD (до 640 Мбайт) позволяет записать не более часа (10 Мбайт 60=600 Мбайт) WAV.
В классификации форматов аудио-файлов выделяют форматы без потерь и форматы с потерями. Аудиоформаты без потерь предназначены для точного (с точности до частоты дискретизации) представления звука. В свою очередь они делятся на несжатые и сжатые форматы.
Примеры несжатых форматов:
• RAW – сырые замеры без какого-либо заголовка или синхронизации.
• WAV (Waveform audio format) – распространенный формат представления звуковых данных небольшой продолжительности, разработан Microsoft совместно с IBM,.
• CDDA – стандарт для аудио-CD. Первая редакция стандарта издана в июне 1980 г. компаниями Philips и Sony, затем была доработана организацией Digital Audio Disc Committee.
Примеры сжатых форматов:
• WMA (Windows Media Audio 9 Lossless) – лицензируемый формат аудио-файлов, разработанный компанией Microsoft для хранения и трансляции. В рамках формата есть возможность кодирования звука как с потерей, так и без потери качества.
• FLAC (Free Audio Lossles Audio Codec) – популярный формат для сжатия аудиоданных. Поддерживается многими аудио-приложениями, а также устройствами воспроизведения звука.
Аудиоформаты с потерями ориентированы в первую очередь на компактное хранение звуковых данных: при этом идеально точное воспроизведение записанного звука не гарантируется. Примеры таких форматов:
• MP3 – лицензируемый формат файла для хранения аудиоинформации, разработанный рабочей группой института Фраунхофера MPEG в 1994 г. На данный момент MP3 является самым известным и популярным из распространенных форматов цифрового кодирования звуковой информации с потерями. Он широко используется в файлообменных сетях для передачи музыкальных произведений. Формат может проигрываться в любой современной операционной системе и на практически любом портативном аудио-плеере, а также поддерживается всеми современными моделями музыкальных центров и DVD-плееров.
• Vorbis – свободный формат сжатия звука с потерями, появившийся летом 2002 г. Психоакустическая модель, используемая в Vorbis, по принципам действия близка к MP3. По всевозможным оценкам этот формат является вторым по популярности после MP3 форматом компрессии звука с потерями. Широко используется в компьютерных играх и в файлообменных сетях для передачи музыкальных произведений.
• AAC (Advanced Audio Coding) – формат аудио-файла с меньшей потерей качества при кодировании, чем MP3 при одинаковых размерах. Изначально создавался как преемник MP3 с улучшенным качеством кодирования, но в настоящий момент распространен существенно меньше, чем MP3.
Видео (от лат. video – «смотрю», «вижу»). Под этим термином понимают широкий спектр технологий записи, обработки, передачи, хранения и воспроизведения визуального и аудиовизуального материала на мониторах.
Видеоряд по сравнению с аудиорядом характеризуется большим числом элементов. Выделяют статический и динамический видеоряды.
Статический видеоряд включает компьютерную графику (рисунки, интерьеры, поверхности, символы в графическом режиме) и фото (фотографии и сканированные изображения).
Динамический видеоряд представляет собой последовательность статических элементов (кадров). Можно выделить три типовых группы:
• квазивидео – разреженная последовательность фотографий (6–12 кадров в секунду);
• обычное видео (life video) – последовательность фотографий (около 24 кадров в секунду);
• анимация – последовательность рисованных изображений.
Пространственная дискретизация
В процессе кодирования изображения производится его пространственная дискретизация. Изображение разбивается на отдельные маленькие фрагменты (точки), причем каждому фрагменту присваивается значение его цвета, т. е. код цвета (рис. 3.2).
Рис. 3.2. Пространственная дискретизация изображения
Наиболее важные характеристики видеосигнала – это количество кадров в секунду, развертка, разрешение, соотношение сторон, цветовое разрешение, ширина видеопотока, качество. Рассмотрим эти характеристики по отдельности.
Количество кадров в секунду (частота) – это число неподвижных изображений, сменяющих друг друга при показе 1 секунды видеоматериала и создающих эффект движения на экране. Чем больше частота кадров, тем более плавным и естественным будет казаться движение. Минимальный показатель, при котором движение будет восприниматься однородным, примерно 10 кадров в секунду (это значение индивидуально для каждого человека). Компьютерные оцифрованные видеоматериалы хорошего качества, как правило, используют частоту 30 кадров в секунду.
Развертка видеоматериала может быть прогрессивной (построчной) или чересстрочной (интерлейсинг). При прогрессивной развертке все горизонтальные линии (строки) изображения отображаются одновременно, при чересстрочной – показываются попеременно четные и нечетные строки. Чересстрочная развертка была изобретена для показа изображения на кинескопах и используется сейчас для передачи видео по «узким» каналам, не позволяющим передавать изображение во всем качестве.
Разрешающая способность экрана и глубина цвета. Любой видеосигнал характеризуется вертикальным и горизонтальным разрешением, измеряемым в пикселях. Обычное аналоговое телевизионное разрешение составляет 720×576 пикселей. Новый стандарт высокоотчетливого цифрового телевидения HDTV предполагает разрешения до 1920 (количество точек в каждой строке)×1080 (количество строк) с прогрессивной разверткой.
Рассмотрим пример формирования на экране монитора растрового изображения, состоящего из 600 строк по 800 точек в каждой строке (всего 480 000 точек). В простейшем случае (черно-белое изображение без градаций серого цвета) каждая точка экрана может иметь одно из двух состояний – «черная» или «белая», т. е. для хранения ее состояния необходим 1 бит (N = 2 = , I = 1 бит, где I – глубина цвета, N – количество цветов).
Цветные изображения формируются в соответствии с двоичным кодом цвета каждой точки, хранящимся в видеопамяти. Цветные изображения могут иметь различную глубину цвета, которая задается количеством битов, используемым для кодирования цвета точки. Наиболее распространенными значениями глубины цвета являются I = 8, 16, 24 или 32 бита. Формирование цветов при глубине цвета 24 бита, представлено в табл. 3.1.
Качество двоичного кодирования изображения определяется разрешающей способностью экрана и глубиной цвета.
Количество цветов и цветовое разрешение видеосигнала описывается цветовыми моделями. В компьютерной технике применяется в основном RGB и HSV.
Цветовая модель называется RGB-моделью по первым буквам английских названий цветов (Red, Green, Вluе). Цветное изображение на экране монитора формируется за счет смешивания трех базовых цветов: красного, зеленого и синего.
Таблица 3.1
Название цвета | Интенсивность | ||
Красный | Зеленый | Синий | |
Черный | |||
Красный | |||
Зеленый | |||
Синий ь | |||
Голубой | |||
Желтый | |||
Белый | 11111111 | |
Для того чтобы на экране монитора формировалось изображение, информация о каждой его точке (код цвета точки) должна храниться в видеопамяти компьютера. Рассчитаем необходимый объем видеопамяти для одного из графических режимов, например, с разрешением 800 х 600 точек и глубиной цвета 24 бита на точку.
Всего точек на экране: 800 • 600 = 480 000.
Необходимый объем видеопамяти:
24 бит • 480 000 = 11 520 000 бит = 1 440 000 байт = 1406,25 Кбайт = 1,37 Мбайт.
Соотношение ширины и высоты кадра – важнейший параметр в любом видеоматериале. Старому стандарту, который предписывает соотношение сторон как 4:3, появившемуся еще в 1910 г., на смену приходит более соответствующий естественному полю зрения человека стандарт 16:9, на который сейчас ориентируется цифровое телевидение.
Ширина видеопотока или битрейт (от англ. bit rate – частота битов) – это количество обрабатываемых бит видеоинформации за секунду времени. Чем выше ширина видеопотока, тем в общем лучше качество видео. Например, для формата VideoCD битрейт составляет всего примерно 1 Мбит/с, для DVD – около 5 Мбит/с, а для формата HDTV – около 10 Мбит/с.
Качество видео измеряется с помощью формальных метрик таких, как PSNR или SSIM, или с использованием субъективного сравнения с привлечением экспертов.
Из современных стандартов цифрового кодирования и сжатия видеоматериалов можно выделить следующие:
• MPEG-2 – группа стандартов цифрового кодирования видео- и аудио-сигналов. MPEG-2 в основном используется для кодирования видео и аудио при вещании, включая спутниковое вещание и кабельное телевидение. С некоторыми модификациями этот формат также используется как стандарт для сжатия DVD.
• MPEG-4 – новый международный стандарт сжатия цифрового видео и аудио, появившийся в 1998 г. Используется для вещания (потоковое видео), записи дисков с фильмами, видеотелефонии и широковещания. Включает в себя многие функции MPEG-2 и других стандартов, добавляя такие функции, как поддержка языка виртуальной разметки VRML для показа 3D-объектов, объектно-ориентированные файлы, поддержка управления правами и разные типы интерактивного медиа.
• Ogg Theora – видеокодек, разработанный фондом Xiph.Org как часть их проекта «Ogg» (целью этого пректа является интеграция видеокодека On2 VP3, аудиокодека Ogg Vorbis и мультимедиа-контейнера Ogg в одно мультимедийное решение, наподобие MPEG-4). Полностью открытый, свободный в лицензионном отношении мультимедиа-формат.
Компьютерная графика. Данное направление мультимедийных технологий предназначено для передачи пользователю визуальных изображений. Первые вычислительные машины не имели отдельных средств работы с графикой, однако уже использовались для получения и обработки изображений. Существенный прогресс компьютерная графика испытала с появлением возможности запоминать изображения и выводить их на компьютерном дисплее.
Для передачи и хранения цвета в компьютерной графике используются различные формы его представления. В общем случае цвет представляет собой набор чисел, координат в некоторой цветовой системе. Известны, например, следующие модели цветопередачи:
• RGB (аббревиатура английских слов Red, Green, Blue – красный, зеленый, синий) – аддитивная цветовая модель: цветное изображение на экране монитора формируется за счет смешивания трех базовых цветов: красного, зеленого и синего. Иначе говоря, если цвет экрана, освещенного цветным прожектором, обозначается как (r1, g1, b1), а цвет того же экрана, освещенного другим прожектором, – (r2, g2, b2), то при освещении двумя этими прожекторами цвет экрана будет обозначаться как (r1+r2, g1+g2, b1+b2). Выбор основных цветов обусловлен особенностями физиологии восприятия цвета сетчаткой человеческого глаза. Цветовая модель RGB нашла широкое применение в технике. В телевизорах и мониторах применяются три электронные пушки (либо три вида светодиодов, светофильтров и др.) для красного, зеленого и синего каналов.
Рис. 3.3. Система цветопередачи RGB
Рис. 3.4. Система цветопередачи CMYK
• CMYK (от англ. Cyan, Magenta, Yellow, black – голубой, пурпурный, желтый, черный) – субтрактивная схема формирования цвета, используемая обычно в полиграфии для стандартной триадной печати.
• HSV (от англ. Hue, Saturation, Value – тон, насыщенность, значение) – цветовая модель, в которой координатами являются цветовой тон, насыщенность (называемая также чистотой цвета) и значением (яркостью) цвета. Данная модель является нелинейным преобразованием модели RGB.
По способам построения изображений компьютерную графику можно разделить на двумерную и трехмерную графику. Двумерная компьютерная графика (2D) классифицируется по типу представления графической информации и следующими из него алгоритмами обработки изображений. Известны следующие виды двумерной графики: растровая, векторная и фрактальная.
Растровая графика всегда оперирует двумерным массивом (матрицей) пикселей. Пиксель (или пиксел) – мельчайшая единица растрового изображения, представляющая собой неделимый объект прямоугольной (обычно квадратной) формы, обладающий определенным цветом. Без особых потерь визуального качества растровые изображения можно только уменьшать; увеличение же растровых изображений приводит к увеличению дискретности изображения (рис. 3.5). В растровом виде представимо любое изображение, однако этот способ хранения характеризуется большим объемом памяти, необходимым для работы с изображениями, и потерями при редактировании.
Рис. 3.5. Результат увеличения растрового изображения
Векторная графика представляет изображение как набор примитивов, в качестве которых обычно выбираются точки, прямые, окружности, прямоугольники, а также сплайны некоторого порядка. Объектам присваиваются некоторые атрибуты (толщина линий, цвет заполнения и т. д.). Рисунок хранится как набор координат, векторов и других численных значений, характеризующих набор примитивов. Изображение в векторном формате дает простор для редактирования, поскольку может без потерь (в отличие от растрового изображения) масштабироваться, поворачиваться, деформироваться. Вместе с тем, не всякое изображение может быть представлено в виде набора примитивов. Такой способ представления хорош для схем, используется для масштабируемых шрифтов, деловой графики, очень широко применяется для создания мультфильмов и просто роликов разного содержания.
Рис. 3.6. Векторные изображения для мебели и матирования стекол в формате CDR(CorelDRAW)
Фрактальная графика. Фракталом в общем смысле называется объект, отдельные элементы которого наследуют свойства родительских структур. Поскольку более детальное описание элементов меньшего масштаба происходит по простому алгоритму, описать такой объект можно всего лишь несколькими математическими уравнениями.
Фракталы широко применяются в компьютерной графике для построения изображений природных объектов, таких, как деревья, кусты (рис. 3.7), горные ландшафты, поверхности морей и т. д.
Трехмерная компьютерная графика (3D) оперирует с объектами в трехмерном пространстве. Обычно результаты визуализации трехмерной графики представляют собой плоскую картинку, проекцию. В трехмерной графике все объекты обычно представляются как набор поверхностей или частиц. Минимальную поверхность называют полигоном. В качестве полигона чаще всего выбирают треугольники.
Компьютерная графика представляет собой одно из наиболее мощных современных направлений развития компьютерных технологий.
Рис. 3.7. Фрактальные деревья
3.1.4. Применение мультимедиа-технологий
Мультимедиа-технологии нашли широкое применение в таких сферах человеческой деятельности, как искусство, образование, индустрия развлечений, медицина, бизнес, научные исследования и др. В настоящее время мультимедийный способ передачи информация стал неотъемлемым элементом современных компьютерных систем.
Основные направления использования мультимедиа-технологий:
• электронные издания для целей образования и др.;
• в телекоммуникациях со спектром возможных применений от просмотра заказной телепередачи и выбора нужной книги до участия в мультимедиа-конференциях. Такие разработки получили название Information Highway;
• мультимедийные информационные системы («мультимедиа-киоски»), выдающие по запросу пользователя наглядную информацию.
С точки зрения технических средств на рынке представлены как полностью укомплектованные мультимедиа-компьютеры, так и отдельные комплектующие и подсистемы (Multimedia Upgrade Kit), включающие в себя звуковые карты, приводы компакт-дисков, джойстики, микрофоны, акустические системы.
Для персональных компьютеров класса IBM PC утвержден специальный стандарт МРС, определяющий минимальную конфигурацию аппаратных средств для воспроизведения мультимедиа-продуктов. Для оптических дисков CD-ROM разработан международный стандарт (ISO 9660).
Контрольные вопросы
1. Каковы основные компоненты мультимедиа-среды?
2. Какие стандарты используются при создании мультимедиа-продуктов?
3. Что является достоинствами и недостатками растровой и векторной графики?
4. С какой целью используется чересстрочная развертка и почему в настоящее время она вытесняется прогрессивной?
Дата добавления: 2020-10-25; просмотров: 547;