Стандарт кодирования MPEG-2

Основной целью видеокомпрессии является более компактное представление изображений с информационной точки зрения.

Вопросами сжатия информации и выпуска соответствующих стандартов и рекомендаций занимается MPEG (Motion Picture Experts Group) - созданная в 1988 г. организация, объединяющая представителей фирм и научных институтов разных стран. MPEG представляет собой подкомитет двух международных организаций - ISO (Международная организация по стандартизации) и IEC (Международная электротехническая комиссия). Одна из основных задач MPEG состояла в изучении проблемы и разработке стандарта на компрессию спектра цифрового видеосигнала, что позволило предложить способы записи и передачи изображения и звука посредством возможно меньшего числа данных с возможно лучшим качеством.

В рамках стандартизации методов цифровой компрессии и мультиплексирования сигналов телевидения, звукового сопровождения и дополнительной информации в настоящее время разработаны три международных стандарта сжатия видеоданных подвижных изображений: MPEG-1, MPEG-2 и MPEG-4. Их параметры оптимизированы.

Стандарт MPEG-2 (также известный как ISO/IEC-13818) был специально разработан для кодирования телевизионных сигналов вещательного телевидения. Он позволяет получить полную четкость декодированного телевизионного изображения, соответствующую Рекомендации МСЭ-Р ВТ.601-5. (При скорости передачи видеоданных 14 Мбит/с качество телевизионного изображения соответствует студийному, а для вещания с профессиональным качеством одной телевизионной программы необходимо передавать цифровой поток со скоростью 5...8 Мбит/с).

Пакет стандартов MPEG предусматривает возможность перехода к ТВЧ. Среди 10 составных частей стандарта MPEG-2 можно выделить три основных: 13818-1 - системную, 13818-2 - видео и 13818-3 - звуковую.

В стандарте 13818-2 определено, что стандарт MPEG-2 - это целое семейство взаимно согласованных совместимых цифровых стандартов информационного сжатия телевизионных сигналов с различной степенью сложности используемых алгоритмов. Поэтому в рамках стандарта MPEG-2 была разработана система профилей и уровней. Профиль - это подмножество стандарта для специализированного применения, задающее алгоритмы и средства компрессии. Уровни внутри каждого профиля связаны с параметрами компрессируемого изображения.

Градации качества телевизионного изображения для вещательных систем в стандарте ISO/I ЕС 13818-2 устанавливаются введением четырех уровней для формата разложения строк телевизионного изображения и пяти профилей для форматов кодирования сигналов яркости и цветности. Общая идеология построения стандарта MPEG-2 поясняется табл. 6.3 [15].

Расположенный в нижней части таблицы уровень называется «низким уровнем» и ему соответствует новый класс качества телевизионного изображения, которое вводится в стандарте MPEG-2 -телевидение ограниченной четкости. В этом случае в кадре телевизионного изображения содержится 288 активных строк (в 2 раза меньше, чем в вещательном телевидении) и каждая строка дискретизируется на 352 отсчета.

Таблица 6.3. Уровни, профили и согласованные точки стандарта MPEG-2

Уровень	Скорости передачи видеоданных, Мбит/с
Простой профиль без В кадров, формат 4:2:2	Основной профиль без В кадров, формат 4:2:0	Профиль с масштаби-руемым отно-шением C-Ш, В кадры, формат 4:2:0	Специальный масштабируемый профиль В кадры формат 4:2:0	Высший профиль, В кадры, формат 4:2:0 или 4:2:2
Высокий 1920 отсчётов 1152 строки (активных)
Высокий 1440 отсчетов 1152 строки (активных)
Основной 720 отсчетов 576 строк (активных)
Низкий 352 отсчета 288 строк (активных)

Кодирование сигналов телевидения вещательного стандарта выполняется в соответствии с основным уровнем, т.е. с форматом разложения на 576 активных строк в кадре, которые кодируются с использованием 720 отсчетов на строку.

Высокий уровень - 1440 поддерживает телевизионные изображения высокой четкости с разрешением 1440x1152 элементов.

Высокий уровень - 1920 поддерживает телевизионные изображения высокой четкости широкого формата с разрешением 1920x1152 (HDTV-plus). В обоих «высоких» уровнях кадр телевизионного изображения содержит 1152 активные строки (вдвое больше, чем в вещательном телевидении). Эти строки дискретизируются соответственно на 1440 или 1920 отсчетов.

В стандарте используются 5 профилей, которым соответствуют 5 наборов функциональных операций по обработке (компрессии) видеоданных.

Профиль, в котором используется наименьшее число функциональных операций по компрессии видеоданных, назван простым. В нем при компрессии видеоданных используется компенсация движения изображения и гибридное дискретно-косинусное преобразование (ДКП).

Следующий профиль назван основным. Он содержит все функциональные операции простого профиля и одну новую: предсказание по двум направлениям. Эта новая операция, естественно, повышает качество телевизионного изображения.

Следующий за основным назван профилем с масштабируемым отношением сигнал-шум. Термин «масштабирование», в данном случае, означает возможность обмена основных показателей системы, способность воспроизведения телевизионных изображений из части полного потока видеоданных. Этот профиль к функциональным операциям основного профиля добавляет новую - масштабирование. Основная идея - повышение устойчивости цифрового телевидения и сохранение работоспособности при неблагоприятных условиях приема. Операция масштабирования позволит в рассматриваемом случае повысить устойчивость системы за счет некоторого снижения требований к допустимому уровню отношения сигнал-шум в воспроизводимом телевизионном изображении.

При масштабировании потоки видеоданных разделяют на две части. Одна из них несет наиболее значимую часть информации - ее называют основным сигналом. Вторую часть, несущую менее значимую информацию, называют дополнительным сигналом. Декодирование только одного основного сигнала позволяет получить телевизионное изображение с пониженным отношением сигнал-шум относительно исходного значения.

И все же, что можно извлечь из идеи деления потока данных на более и менее значимые части? А все дело в защите системы от ошибок. Помехоустойчивое кодирование требует введения дополнительных бит, что повышает общий поток информации. Задача упрощается, когда более мощная защита применяется только к части информации и тем самым соблюдается разумный баланс между уровнем потока видеоданных и степенью их защиты. При неблагоприятных условиях приема (например, при низкой напряженности радиополя, при приеме на комнатную антенну и т.п.) сохраняется возможность устойчивого декодирования более защищенного основного сигнала, а неустойчиво воспринимаемый дополнительный сигнал просто отключается. Это ведет к росту уровня шума, зато система остается работоспособной.

Бывают ситуации, когда сигналы приходится передавать по каналам с ограниченной пропускной способностью. Деление потока видеоданных на два позволяет использовать и «плохие» каналы, ограничивая передачу основным сигналом.

Следующий, четвертый, профиль назван специально масштабируемым профилем. Здесь, естественно, сохранены все операции предшествующего профиля и добавлена новая - разделение потока видеоданных по критерию четкости телевизионного изображения. Этот профиль обеспечивает переходы между ныне действующими вещательными системами и ТВЧ. С этой целью видеоданные сигнала ТВЧ разделяются на три потока. Первый - это основной (значимый) поток видеоданных, например, по стандарту разложения на 625 строк. Второй поток несет дополнительную информацию об изображении с числом строк до 1250. Одновременное декодирование первого и второго потоков видеоданных позволяет получить телевизионное изображение высокой четкости, но с пониженным отношением сигнал-шум. В третьем потоке сосредоточена менее значимая информация, его декодирование позволяет повысить отношение сиг-нал-шум в видеоканале до уровня, принятого в ТВЧ. Обычно первый поток видеоданных, представляющих сигнал 625-строчного телевидения, - это 6 Мбит/с, дополняющий его до ТВЧ - 6 Мбит/с, а повышающий отношение сигнал-шум до уровня, когда шумы визуально незаметны -12 Мбит/с.

В рассмотренных четырех профилях при кодировании сигналов яркости и цветности используется формат представления видеоданных 4:2:0, в котором число отсчетов сигналов цветности по сравнению с сигналом яркости уменьшается в два раза не только по горизонтальным, но и по вертикальным направлениям. Следующий, пятый профиль называется высшим, и он включает в себя все функциональные операции специального профиля 4:2:2, при котором число отсчетов сигналов цветности в вертикальных направлениях остается тем же, что и у сигнала яркости. В этом случае коэффициент компрессии минимален, а качество изображения наивысшее.

Приведенные в табл. 6.3 пять профилей и четыре уровня образуют 20 возможных комбинаций видеосигнала, из которых, вероятнее всего, только 11 будут необходимыми. Для этих комбинаций (согласованные точки) в таблице указаны максимальные значения скорости передачи видеоданных в Мбит/с.

Для всех стандартизованных точек указаны максимальные потоки видеоданных, которые позволяют получить телевизионное изображение, свободное от каких-либо дефектов. В иных случаях они могут проявиться в процессе кодирования/декодирования видеосигнала. Используемые в конкретных кодерах потоки видеоданных могут быть меньше (в несколько раз) указанных значений. Выбор уровня компрессии и, в конечном итоге, уровня потока зависит от допустимой степени искажений телевизионного изображения.

Таким образом, стандарт MPEG-2 позволяет гибко менять скорость передачи видеоданных в очень широких пределах. Надо заметить, что системы кодирования стандарта MPEG-2 могут работать как с чересстрочной, так и с прогрессивной развертками, при частоте полей 50 или 60 Гц. Для каждой стандартизованной точки в таблице оговорено число отсчетов сигнала яркости на активной части строки. Рассмотренные комбинации параметров информационного кодирования пригодны для работы с различными цифровыми трактами.

Стандарт MPEG-2 принципиально нацелен в будущее. Большинство выпускаемых в настоящее время декодеров в интегральном исполнении относится к основному профилю и основному уровню (MP@ML), рассчитанных на телевизионное изображение с чересстрочным разложением в качестве 625 строк. Эта система принята в первого поколения цифровых телевизоров для непосредственного телевизионного вещания (НТВ) со спутников, работающих в диапазоне 11 /12 ГГц, и кабельной сети распределения.

Однако ряд особенностей основного профиля и основного уровня стандарта MPEG-2, например, низкое вертикальное разрешение в цветоразностных каналах, ограничивают его применение в условиях телевизионных студий, в видеопроизводстве. Для достижения высоких качественных показателей в случае многократного кодирования-декодирования важно кодировать видеосигналы стандарта 4:2:2. Использование видеосигналов, кодированных в стандарте 4:2:0, совместно с основным профилем и основным уровнем MP@ML означает, что вертикальное разрешение в цветоразностных каналах уменьшается вдвое. Взаимное преобразование видеосигналов стандартов 4:2:2 и 4:2:0, необходимое для обеспечения совместимости в телевизионном тракте в соответствии с Рекомендацией МСЭ-Р ВТ.601-5, требует в каждой точке преобразования вертикальные фильтры нижних частот. Хорошо известно, что каскадное включение таких фильтров быстро приведет к «смягчению», т.е. к размытию цветовых границ. Для сохранения цветового вертикального разрешения лучше осуществлять компрессию видеоданных, кодированных по стандарту 4:2:2. Поэтому в рамках группы MPEG-2 был разработан дополнительный стандарт 422 Profile @ Main Level (422 P@ML).

Стандарт 422 P@ML является подмножеством основного профиля и основного уровня MP@ML в том смысле, что все значения параметров первого либо равны, либо превышают соответствующие значения второго. Принцип обратной совместимости, заложенный в MPEG-2, гарантирует, что декодеры 422 P@ML способны декодировать цифровые потоки MP@ML.

Основные возможности стандарта 422 P@ML, превосходящие соответствующие свойства основного профиля и основного уровня MP@ML, заключаются в следующем:

- допускается кодирование сигнала по стандарту 4:2:2, в то время как MP@ML ограничен кодированием сигналов способом 4:2:0;

- цифровой поток кодированных видеоданных может принимать любое значение до 50 Мбит/с, а в MP@ML - только 15 Мбит/с;

- вертикальное разрешение ограничено значением 512 твл в случае 525-строчных систем и 608 твл в случае 625-строчных систем, а в MP@ML - значениями 480 и 576 телевизионных линий соответственно;

- в 625-строчных системах кроме 576 активных строк стандарт 422 P@ML обеспечивает возможность кодирования еще 32 строк в кадре как составной части видеосигнала. Это позволяет пропускать напрямую через систему цифрового сжатия важные строки полевого интервала гашения. Поэтому стандарт 422 P@ML гарантирует пропускание такой информации, как полевой временной код и сигналы испытательных строк, не требуя отдельной обработки этих строк.

После того как была сформулирована профессиональная версия MPEG-2 422 P@ML, используемая для студийного производства, он получил статус полноценного международного стандарта, который иногда называют 422 Studio Profile/ML. В результате появилась реальная возможность применения стандарта сжатия MPEG-2 на всех участках технологической цепочки создания телевизионных программ: от съемки до телезрителя, включая доставку новостийных сюжетов на телецентр, студийную компоновку программ, их распространение и передачу в эфир. Стандарт предоставляет возможности эффективной работы во всех этих звеньях. Профили MPEG-2 определяют набор способов и технических приемов по сжатию видеоданных, а уровни - такие параметры, как размер изображения, или скорость цифрового потока при выбранном способе кодирования. Профиль 422 характеризуется высокой скоростью цифрового потока и относительно короткими группами изображений, что позволяет монтировать телевизионную программу с достаточно высоким качеством.

В настоящее время активно разрабатывается стандарт MPEG-2 4:2:2 P@HL (профиль 4:2:2 на высоком уровне), нацеленный на использование в системах ТВЧ.

Для кодирования звуковых сигналов с целью их компрессии в MPEG-2 используется стандарт информационного сжатия звуковых данных MUSICAM (Masked Pattern for Adapted Universal Coding and Multiplexing), обозначаемый также как MPEG Layer II. Стандарт MUSICAM позволяет передавать моно, стерео, многоязыковый и surround (пространственный) звук.

MU3ICAM позволяет снизить скорость потока данных, необходимую для воспроизведения звуковых сигналов, адекватного качеству, получаемому при воспроизведении компакт-дисков, до 128 кбит/с на каждый моноканал звукового сопровождения. Таким образом, для самого низкого уровня - двухканального стереофонического звукового сопровождения - потребуется скорость передачи цифровых данных, равная 128 кбит/с х 2 = 256 кбит/с. В основе стандарта лежат два психоакустических эффекта. Дело в том, что человеческое ухо не способно различать звуки с громкостью ниже определенного минимума, так называемого «порога тишины». Кроме того, более тихие звуки «маскируются» более громкими. Соответственно, алгоритм MUSICAM обеспечивает передачу только тех звуков, которые реально различаются человеком.

В случае воспроизведения пространственного (surround) звука для передачи шести сигналов звукового сопровождения в отсутствие компрессии потребуется пропускная способность канала, достигаемая 5,18 Мбит/с (48 ООО х 18 х 6 = 5,18 Мбит/с, где 18 кГц - частота дискретизации звуковых сигналов, 18 бит - разрядность квантования). По протоколу для передачи звукового сопровождения предусмотрен канал с пропускной способностью 384 кбит/с. В данном случае требуемый коэффициент сжатия, равный 13, сможет обеспечить цифровая система компрессирования Dolby АС-3, основанная на спектральном анализе звуковых сигналов и удалении' частотных компонент, не слышимых человеком.