вторник, 29 июля 2008 г.

О формате DVD-Video

О формате DVD-Video - *NIX в заметках - Путь к пониманию

2008-01-09 от ashep

Об этой статье

В этой статье рассматриваются базовые понятия и принципы, используемые при создании дисков DVD Video. Весь материал взят из разнообразных источников, расположенных в Сети. Там, где это возможно, я сохранил ссылки на источники информации. Если я вдруг кого-то забыл, не обижайтесь, пожалуйста, и дайте мне знать об этом.



Формат DVD

Физически, DVD формат похож на CD с тем отличием, что для работы с DVD дисками используется лазерный луч с меньшей длиной волны. За счет этого достигается большая плотность записи. Также, существуют DVD диски с дополнительным слоем для хранения данных, что увеличивает объем хранимых данных на одной стороне вдвое. Однослойный DVD диск предоставляет возможность записи до 4,7 Гбайт на одну сторону, а двухслойный - до 8,5 Гбайт.

Существует несколько разновидностей DVD носителей. Изначально DVD Forum определил три типа: DVD-R, DVD-RW и DVD-RAM. DVD-RAM является физически перезаписываемым форматом, однако он не совместим со стандартным форматом DVD Video.

Логическая организация DVD Video

В отличие от CD, который состоит из треков, список которых хранится в TOC (Table Of Contents), DVD имеет файловую систему UDF.

DVD Video логически разбит на следующие части:

  • First-Play Section. Проигрывается первой сразу после того, как диск вставляется в устройство
  • VMGI (Video Manager Information). Информация видео-менеджера
  • VMGM (Video Manager Menus). Меню видео-менеджера
  • VTS (Video Title-Sets). Комплекты видео-приложений

Каждый комплект видео приложений (VTS) логически разбит на

  • VTSI (Video Title Set Information). Информация видео-приложения, содержащая в себе управляющие данные.
  • VOB (Video Objects). Меню
  • VOB (Video Objects). Данные
  • Резервная копия VTSI

Каждый VOB (базовая файловая единица диска) включает видео, аудио, субтитры и навигационные данные. Когда проигрывается VOB, плеер не только последовательно проигрывает видео, но также следует навигационным командам для отображения меню, принятия команд от пользователя и т. д. Каждый VOB включает в себя отдельные ячейки (cells), связанные вместе при помощи Программных Цепочек (Program Chains - PGC), которые обеспечивают требуемую интерактивность, используя простой язык программирования, разработанный для DVD-Видео. PGC используются для регулирования проигрывания видео, аудио и субтитров в VOB'ах, отображения меню, и ввода и исполнения команд пользователя. Существует три типа PGC: последовательного проигрывания (sequential play), произвольного проигрывания (random play) и смешанного (shuffle play) проигрывания. Отдельные ячейки могут использоваться более чем одной PGC, которая может определять различные последовательности проигрыша видеоматериала, например для обеспечения бесшовного ветвления (seamless branching). PGC подчиняются набору команд для элементарного программирования, включающему математические и логические операторы, условные переходы, обратный отсчет времени и т. д. Имеется 16 обычных регистров для более сложного программирования, и 16 системных регистров.

Файловая организация DVD-Video

VOB'ы и другие данные располагаются в каталоге VIDEO_TS. Таблица внизу показывает пример диска с одним комплектом видео приложений.

Имя файла Описание
VIDEO_TS.IFO Файл VMGI (Информация Видео Менеджера)
VIDEO_TS.VOB Файл VMGM (Меню Видео Менеджера)
VIDEO_TS.BUP Резервный файл VMGI
VTS_01_0.IFO Файл VTSI
VTS_01_0.VOB Набор видео объектов для меню VTS
VTS_01_0.BUP Резервный файл VTSI
VTS_01_1.VOB Первый видео объект из первого комплекта видео объектов
VTS_01_2.VOB Второй видео объект из первого комплекта видео объектов

Аудио, видео и субтитры могут содержатся не более чем в 9 VOB файлах, относящихся к данному видео приложению, каждый из которых по размеру не превышает 1 Гб. Таким образом, на DVD-5 будет не более 5 VOB файлов, относящихся к видео приложению, для DVD-9 могут потребоваться все 9. Файлы VTS*.* могут повторяться для каждого комплекта видео приложений (VTS) и будут соответственно называться VTS_02*.*, VTS_03*.* и т. д. На каждый VTS будет приходиться один .IFO и .BUP файлы, плюс один или больше .VOB файлов.

Требования к потоку

Одним из обязательных требований стандарта DVD Video к видеопотоку - он должен быть кодирован в MPEG-1 или MPEG-2. Таким образом, для кодирования подготавливаемого к записи видео необходим MPEG-1 или MPEG-2 кодек. MPEG-2 использовать более предпочтительно, поскольку он является более продвинутым и современным, однако, если вам необходимо получить на выходе видео-поток с битрейтом ниже 1 Мбит/сек (около 10 часов видео на стандартный однослойный DVD носитель), то в этом случае лучше воспользоваться кодеком MPEG-1.

Вопроизводимый в странах бывшего СНГ цифровой видео-поток должен соответствовать одним из требований, перечисленных ниже, ввиду того, что стандартные DVD проигрыватели могут просто отказаться от проигрывания видео-объекта, если формат видео-потока в нем не будет соответствовать указанным требованиям.

Видео кодек Аудио кодек Кадров в секунду Ширина кадра Высота кадра Соотношение сторон
MPEG-1
  • Linear Pulse Code Modulation (LPCM): 48 kHz или 96 kHz; 16- or 24-bit;
    до 6 каналов
  • MPEG Layer 2 (MP2): 48 kHz, до 5.1 каналов
  • Dolby Digital (DD, также известен как AC-3): 48 kHz, 32–448 kbit/s, до 5.1
    каналов
  • Digital Theater Systems (DTS): 754 kbit/s или 1510 kbit/s
25 352 288 4:3
MPEG-2 352 288 4:3
352 576 4:3
704 576 4:3
720 576 4:3
720 576 16:9

В процессе MPEG кодирования устраняются избыточные видео-данные в серии рядом расположенных кадров. Два соседних кадра обычно содержат много одинаковых элементов изображения. Информация в них отличается на малую часть от всей информации содержащейся в кадре. Производится сжатие видео, при котором используются не все данные каждого видео-кадра, а динамика изменений кадров, так как в большинстве последовательных кадров одного видео-сюжета фон почти не изменяется, а хорошо заметные изменения происходят на переднем плане. Например, происходит плавное перемещение небольшого объекта на фоне неизменного заднего плана. В этом случае полная информация о изображении сохраняется только для опорных изображений. Для остальных кадров оцифровывается только разностная информация: о положении объекта, направлении и величине его смещения, о новых элементах фона, открывающихся за объектом по мере его движения. Причем эта разностная информация вычисляется не только по сравнению с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается ранее скрытая часть фона). Опорные кадры в MPEG видео-потоке должны быть вставлены каждые 15 или 18 кадров, ввиду того, что именно опорные или, как их еще называют, I-кадры используются просмотрщиками видео при перемотке видео вперед или назад.

Для соответствия формату DVD Video, битрейт мультиплексированного потока не должен быть выше 9,8 Мбит/сек и не менее 300 Кбит/сек. Этот параметр обязательно нужно учитывать при получении конечного MPEG потока.

Основные понятия и определения

DVD видео. Для воспроизведения DVD с видео необходим DVD-привод и декодер MPEG-2 (то есть либо бытовой DVD-проигрыватель с аппаратным декодером, либо компьютерный DVD-привод и программный проигрыватель с установленым декодером). Фильмы на DVD сжаты с использованием алгоритма MPEG-2 для видео и различных (часто многоканальных) форматов для звука. Битрейт сжатого видео варьируется от 2000 до 9800 Кбит/с, часто бывает переменным (VBR − англ. variable bitrate). Стандартный размер видео кадра стандарта PAL равен 720×576 точек, стандарта NTSC - 720×480 точек. Аудиоданные в DVD-фильме могут быть в формате PCM, DTS, MPEG или Dolby Digital (AC-3). В странах, использующих стандарт NTSC, все фильмы на DVD должны содержать звуковую дорожку в формате PCM или AC-3, а все NTSC-плееры должны эти форматы поддерживать. Таким образом, любой стандартный диск может быть воспроизведён на любом стандартном оборудовании. В странах, использующих стандарт PAL (большая часть Европы, Россия в том числе), поначалу хотели ввести в качестве стандарта звука для DVD форматы PCM и MPEG-2, но под влиянием общественного давления и идя вразрез с пожеланиями Philips, DVD-Forum включил Dolby AC-3 в список опциональных форматов звука на дисках и обязательных форматов в плеерах.

PAL (Phase-Alternating Line). Система аналогового цветного телевидения, разработана инженером немецкой компании «Telefunken» Вальтером Брухом и представленная как стандарт телевизионного вещания в 1967 году.

NTSC (National Television Standards Committee). Национальный комитет по телевизионным стандартам. Cистема аналогового цветного телевидения, разработанная в США. 18 декабря 1953 года впервые в мире было начато цветное телевизионное вещание с применением именно этой системы. NTSC принята в качестве стандартной системы цветного телевидения также в Канаде, Японии и ряде стран американского континента.

MPEG (Moving Picture Experts Group). Экспертная группа по вопросам движущегося изображения. Группа специалистов в подчинении ISO, собирающаяся для выработки стандартов сжатия цифрового видео и аудио.

MPEG-1. Группа стандартов на цифровое сжатие аудио и видео, принятую MPEG. MPEG-1 видео используется, например, в формате Video CD. Качество видео на видео-CD (VCD) приблизительно близко к качеству VHS видеокассет

MPEG-2. Группа стандартов цифрового кодирования видео и аудио сигналов, одобренных ISO — Международной Организацией по стандартизации/IEC Moving Picture Experts Group (MPEG). Стандарт MPEG-2 в основном используется для кодирования видео и аудио при вещании, включая спутниковое вещание и кабельное телевидение. MPEG-2 с некоторыми модификациями также активно используется как стандарт для сжатия DVD.

Количество (частота) кадров в секунду. Число неподвижных изображений, сменяющих друг друга при показе 1 секунды видеоматериала и создающих эффект движения объектов на экране. Чем больше частота кадров в секунду, тем более плавным и естественным будет казаться движение. Минимальный показатель, при котором движение будет восприниматься однородным — примерно 10 кадров в секунду (это значение индивидуально для каждого человека). В традиционном пленочном кинематографе используется частота 24 кадра в секунду. Системы телевидения PAL и SÉCAM используют 25 кадров в секунду (англ. 25 fps или 25 Герц), а система NTSC использует 29,97 кадров в секунду. Компьютерные оцифрованные видеоматериалы хорошего качества, как правило, используют частоту 30 кадров в секунду. Верхняя пороговая частота мелькания, воспринимаемая человеческим мозгом, в среднем составляет 39—42 Герца и индивидуальна для каждого человека. Некоторые современные профессиональные камеры могут снимать с частотой до 120 кадров в секунду. А специальные камеры для сверхбыстрой съемки снимают с частотой до 1000 кадров в секунду и выше, что необходимо, например, для детального изучения траектории полета пули или структуры взрыва.

Чересстрочная развертка. Развертка видеоматериала может быть прогрессивной (построчной) или чересстрочной. При прогрессивной развертке все горизонтальные линии (строки) изображения отображаются одновременно. А вот при чересстрочной развертке показываются попеременно четные и нечетные строки (называемые также полями кадра). Чересстрочную развёртку часто называют на английский манер интерлейс (англ. interlace) или интерлейсинг. Чересстрочная развёртка была изобретена для показа изображения на кинескопах и используется сейчас для передачи видео по «узким» каналам, не позволяющим передавать изображение во всём качестве. Системы PAL, SÉCAM и NTSC — это всё системы с чересстрочной развёрткой. Новые цифровые стандарты телевидения, например, HDTV предусматривают прогрессивную развёртку. Хотя появились технологии, позволяющие имитировать прогрессивную развёртку при показе материала с интерлейсом. Чересстрочную развёртку обычно обозначают символом «i» после указания вертикального разрешения, например 720×576i×50 для видео в формате PAL. Для подавления неприятных эффектов, возникающих при просмотре чересстрочного видео на построчном экране, применяются специальные математические методы, именуемые деинтерлейсингом.

Прогрессивная развертка. В отличие от чересстрочной развертки, где за каждый кадр формируется только половина изображения (либо четные, либо нечетные строки), при прогрессивной развертке формируется изображение целиком, т.е. все строки. В настоящее время чересстрочная развертка используется только в дешевых ЭЛТ-телевизорах.

Деинтерлейсинг Процесс создания одного кадра из двух полукадров чересстрочного формата для дальнейшего вывода на экран с прогрессивной развёрткой, такой как компьютерный монитор. Применяется в компьютерных системах обработки видео, плоскопанельных телевизорах и т. д.

Разрешение. По аналогии с разрешением компьютерных мониторов, любой видеосигнал также имеет разрешение (англ. resolution), горизонтальное и вертикальное, измеряемое в пикселях. Обычное аналоговое телевизионное разрешение составляет 720×576 пикселей для стандартов PAL и SÉCAM, при частоте кадров 50 Герц (одно поле, 2×25); и 648×486 пикселей для NTSC, при частоте 60 Герц (одно поле, 2×29,97). В выражении 648×480 первым числом обозначается количество точек в горизонтальной линии (горизонтальное разрешение), а вторым числом количество самих линий (вертикальное разрешение). Новый стандарт высокоотчётливого (англ. high-definition) цифрового телевидения HDTV предполагает разрешения до 1920×1080 при частоте мелькания 60 Герц с прогрессивной развёрткой. То есть 1920 пикселей на линию, 1080 линий.

Количество цветов и цветовое разрешение видеосигнала. Описывается цветовыми моделями. Для стандарта PAL применяется цветовая модель YUV, для SÉCAM модель YDbDr, для NTSC модель YIQ, в компьютерной технике применяется в основном RGB (и αRGB), реже HSV, а в печатной технике CMYK. Количество цветов, которое может отобразить монитор или проектор зависит от качества монитора или проектора. Человеческий глаз может воспринять, по разным подсчётам, от 5 до 10 миллионов оттенков цветов. Количество цветов в видеоматериале определяется числом бит, отведённым для кодирования цвета каждого пикселя (англ. bits per pixel, bpp). 1 бит позволяет закодировать 2 цвета (обычно чёрный и белый), 2 бита — 4 цвета, 3 бита — 8 цветов, …, 8 бит — 256 цветов, 16 бит — 65 536 цветов, 24 бита — 16 777 216 цветов. В компьютерной технике имеется стандарт и 32 бита на пиксель (αRGB), но этот дополнительный α-байт (8 бит) используется для кодирования коэффициента прозрачности пикселя (α), а не для передачи цвета (RGB). При обработке пикселя видеоадаптером, RGB-значение будет изменено в зависимости от значения α-байта и цвета подлежащего пикселя (который станет «виден» через «прозрачный» пиксель), а затем α-байт будет отброшен, и на монитор пойдёт только цветовой сигнал RGB.

Битрейт. Ширина (иначе говорят скорость) видеопотока или битрейт (англ. bit rate) — это количество обрабатываемых бит видеоинформации за секунду времени (обозначается «бит/с» — бит в секунду, или чаще «Мбит/с» — мегабит в секунду; в английском обозначении «bit/s» и «Mbit/s» соответственно). Чем выше ширина видеопотока, тем в общем лучше качество видео. Например, для формата VideoCD ширина видеопотока составляет всего примерно 1 Мбит/с, а для DVD составляет около 5 Мбит/с. Конечно, субъективно разницу в качестве нельзя оценить как пятикратную, но объективно это так. А формат цифрового телевидения HDTV использует ширину видеопотока около 10 Мбит/с. При помощи скорости видеопотока также очень удобно оценивать качество видео при его передаче через Интернет. Различают два вида управления шириной потока в видеокодеке — постоянный битрейт (англ. constant bit rate, CBR) и переменный битрейт (англ. variable bit rate, VBR). Концепция VBR, ныне очень популярная, призвана максимально сохранить качество видео, уменьшая при этом суммарный объём передаваемого видеопотока. При этом на быстрых сценах движения, ширина видеопотока возрастает, а на медленных сценах, где картинка меняется медленно, ширина потока падает. Это очень удобно для буферизованных видеотрансляций и передачи сохранённого видеоматериала по компьютерным сетям. Но для безбуферных систем реального времени и для прямого эфира (например, для телеконференций) это не подходит — в этих случаях необходимо использовать постоянную скорость видеопотока.

Соотношение сторон экрана. Соотношение ширины и высоты кадра (англ. aspect ratio) — важнейший параметр в любом видеоматериале. Ещё с 1910 года кинофильмы имели соотношение сторон экрана 4:3 (4 единицы в ширину к 3 единицам в высоту; иногда ещё записывается как 1,33:1 или просто 1,33). Считалось что зрителю удобнее смотреть фильм на экране такой формы. Когда появилось телевидение, то оно переняло это соотношение и почти все аналоговые телесистемы (и, следовательно, телевизоры) имели соотношение сторон экрана 4:3. Компьютерные мониторы также унаследовали телевизионный стандарт сторон. Хотя ещё в 1950-х годах это представление о 4:3 в корне изменилось. Дело в том, что поле зрения человека имеет соотношение отнюдь не 4:3. Ведь у человека 2 глаза, расположенных на одной горизонтальной линии — следовательно, поле зрения человека приближается к соотношению 2:1. Чтобы приблизить форму кадра к естественному полю зрения человека (и, следовательно, усилить восприятие фильма), был введён стандарт 16:9 (1,78), почти соответствующий так называемому «Золотому сечению». Цифровое телевидение в основном тоже ориентируется на соотношение 16:9. К концу XX века, после ряда дополнительных исследований в этой области, стали появляться даже и более радикальные соотношения сторон кадра: 1,85, 2,20 и вплоть до 2,35 (почти 21:9). Всё это, безусловно, призвано глубже погрузить зрителя в атмосферу просматриваемого видеоматериала.

PCM. Импульсно-кодовая модуляция (ИКМ или PCM — Pulse Code Modulation) используется для оцифровки аналоговых сигналов перед их передачей. Практически все виды аналоговых данных (видео, голос, музыка, данные телеметрии, виртуальные миры) допускают применение ИКМ-модуляции. Чтобы получить на входе канала связи (передающий конец) ИКМ-модулированный сигнал из аналогового, амплитуда аналогового сигнала измеряется через равные промежутки времени. Количество оцифрованных значений в секунду (или скорость оцифровки) кратна максимальной частоте (Гц) в спектре аналогового сигнала. Мгновенное измеренное значение аналогового сигнала округляется до ближайшего уровня из нескольких заранее определенных значений. Этот процесс называется квантованием, а количество уровней всегда берется кратным степени двойки, например, 8, 16, 32 или 64. Номер уровня может быть соответственно представлен 3, 4, 5 или 6 битами. Таким образом, на выходе модулятора получается набор битов (0 или 1). На приёмном конце канала связи демодулятор преобразует последовательность битов в импульсы с тем же уровнем квантования, который использовал модулятор. Далее эти импульсы используются для восстановления аналогового сигнала.

Ссылки и источники из которых была взята информация и что стоит почитать

Комментариев нет: