Сложности, связанные с оцифровкой
Не смотря на кажущуюся простоту и интуитивность процесса оцифровки, эта процедура сопряжена со многими трудностями и
проблемами.
Во-первых, частота дискретизации, устанавливаемая теоремой Котельникова, является минимально необходимой, но не достаточной.
Дискретизация вносит дополнительные помехи в спектр исходного сигнала, добавляя в него его же зеркальную копию. Поэтому значение
частоты дискретизации должно выбираться несколько большим, чем частота, устанавливаемая теоремой Котельникова, чтобы
сделать возможной успешную фильтрацию лишних спектральных составляющих.
Во-вторых, квантование значений сигнала привносит в спектр сигнала дополнительную помеху, называемую шумом квантования
или шумом дробления . Шумом (ошибкой) квантования называют сигнал, составляющий разницу между восстановленным
цифровым и исходным аудио сигналами. Эта разница образуется в результате округления измеренных значений сигнала. При этом
выполняется следующая закономерность: чем выше разрядность квантования, тем ниже уровень шума квантования (поскольку тем
на меньшее значение требуется округлять каждое измеренное значение сигнала). Природа шума квантования такова, что ширина
спектральной области, в которой он простирается, пропорциональна значению частоты дискретизации. При этом при фиксированной
разрядности квантования, общая энергия шума квантования остается постоянной. А это значит, что чем выше частота дискретизации,
тем в более широкой спектральной области простирается шум квантования и, соответственно, тем ниже его мощность в некоторой
фиксированной интересующей нас полосе спектра, например, в полосе слышимых частот. Этот факт имеет большое практическое значение.
Надо сказать, что уровень шума квантования также зависит и от формы самого сигнала. В идеальном случае, ошибка при округлении
значений сигнала является случайной и, значит, спектр шума квантования оказывается равномерным. В реальности, однако, этого
не происходит. Форма реальных звуковых сигналов является в определенной степени не случайной, а, значит, и ошибка квантования
тоже является не случайной. В этом случае спектр шума квантования оказывается не равномерным и концентрируется в какой-то
определенной области, что отрицательно сказывается на звучании цифрового сигнала. Существует несколько способов борьбы с
этим явлением. Так, нежелательную концентрацию шума квантования в некоторой частотной области можно нейтрализовать путем
подмешивания к исходному аналоговому сигналу некоторого слабого по мощности псевдослучайного шума. Этот шум минимизирует
степень зависимости ошибок округления от формы преобразуемого сигнала, что хорошо рассеивает спектр шума квантования и делает
его равномерным. Таким образом, описанный прием (называемый дизерингом, от англ. « dithering» – «дрожание»)
как бы подменяет нежелательный шум квантования искусственно подмешанным псевдослучайным шумом. При этом подмешанный псевдослучайный
шум оказывается менее заметным на слух, чем тот шум квантования, какой получился бы без применения дизеринга. Еще один прием
борьбы с уровнем шума квантования называется формовкой шума (от англ. “ noise shaping”). Идея приема заключается
в преднамеренном изменении формы исходного аналогового сигнала специальным образом, чтобы последующее квантование привело
к появлению шума квантования, основная энергия которого расположилась бы в наименее заметных на слух частотных областях.
Формирование шума с таким спектром достигают путем использования фильтра, моделирующего кривую равной громкости (об этой
кривой мы говорили выше).
Импульсный сигнал, получаемый в результате аналогово-цифрового преобразования, из-за несовершенности преобразующих устройств
имеет некоторые изъяны. Эти изъяны выражаются в случайных отклонениях длительностей прямоугольных импульсов от номинальной
величины шага дискретизации, а также в неабсолютной крутизне фронтов импульсов. Говоря иначе, осуществление выборки сигнала
при оцифровке происходит не через абсолютно равные промежутки времени, а с некоторыми случайными отклонениями от номинала,
при этом результирующий импульсный сигнал вдобавок имеет неидеальную прямоугольную форму. Если, скажем, дискретизация проводится
с частотой 44.1 кГц, то отсчеты берутся не точно каждые секунды, а то чуть
раньше, то чуть позднее. А так как входной сигнал постоянно меняется, то такая погрешность приводит к регистрации не совсем
верного уровня сигнала. Описанный неприятный эффект называется джиттером (от англ. « jitter» – «дрожание»)
и по сути является исключительно результатом неабсолютной стабильности аппаратуры (АЦП). На слух джиттер воспринимается как
некоторое дрожание сигнала на высоких частотах, при этом на низких частотах джиттер выражается в некотором «размазывании»
спектра сигнала. Для борьбы с джиттером применяют высокостабильные тактовые генераторы. Следует заметить, что причиной появления
джиттера может быть не только аналогово-цифровое преобразование, но и передача импульсного сигнала по цифровому каналу от
одного устройства к другому. В этом случае появление джиттера является результатом неидеальной коммутации/синхронизации устройств
и может быть устранено только путем использования аппаратуры, регенерирующей цифровой сигнал.
Рассмотрим, наконец, еще один неприятный эффект оцифровки, называемый гранулярным шумом. Гранулярным
шумом(от англ. « granular noise») называют эффект нестабильности округления в процессе квантования. Если величина сигнала
незначительно меняется около некоторой величины, являющейся границей между двумя соседними уровнями квантования, даже самые
маленькие колебания величины сигнала вокруг этой границы могут вызывать заметные изменения результатов округления при квантовании
значений амплитуды. Это связано с тем, что квантователь в этом случае округляет измеренное значение сигнала то до величины
одного, то до величины второго из соседствующих уровней квантования.
Другие способы оцифровки.
Рассматривать все существующие способы оцифровки мы не будем, поскольку это потребовало бы от нас серьезного углубления
в тему. Тем не менее, некоторые способы все же стоят пусть и беглого упоминания.
Так, рассмотренное выше однородное квантование является, конечно же, не единственным способом квантования. Как мы уже
говорили, восприятие громкости звука человеком носит нелинейный характер – нарастание интенсивности звука как степенной функции
воспринимается на слух как линейное нарастание громкости. Следовательно, изменения амплитуды слабого по интенсивности сигнала
различаются слухом намного лучше, чем изменения амплитуды в областях высокой интенсивности. Это в свою очередь означает,
что погрешность квантования сигнала в областях со слабой амплитудой оказывается намного более заметной, чем погрешность квантования
в областях, где сигнал характеризуется высокими значениями интенсивности. Иными словами, в областях, где амплитуда сигнала
является значительной, мы можем позволить себе допускать более высокую погрешность квантования, чем в областях со слабой
амплитудой. Этот факт используется при неоднородном квантовании. С целью уменьшения влияния погрешности квантования на воспринимаемое
качество оцифровки, способ неоднородного квантования предусматривает разбиение амплитудной шкалы на уровни
по логарифмическому закону. Такой способ квантования называют логарифмическим квантованием. При использовании
логарифмической амплитудной шкалы, в области слабой амплитуды оказывается большее число уровней квантования, чем в области
сильной амплитуды (при этом, общее число уровней квантования остается таким же, как и в случае однородного квантования).
Соответственно, при квантовании, слабый по величине сигнал округляется на меньшие значения, чем более интенсивный сигнал.
Это автоматически учитывает психоакустические особенности слуха и обеспечивает менее заметные на слух погрешности квантования.
Аналогово-цифровое преобразование, основанное на применении метода неоднородного квантования, называется неоднородной
импульсно-кодовой модуляцией - неоднородной ИКМ ( Nonuniform PCM).
Альтернативным способом аналогово-цифрового преобразования является разностная импульсно-кодовая модуляция
– разностная ИКМ(англ. « Differential PCM» – DPCM). До сих пор мы говорили о методе импульсно-кодовой
модуляции, подразумевающей квантование абсолютных значений сигнала. В случае разностной ИКМ квантованию подвергают
относительные значения величины амплитуды. В полной аналогии с ИКМ, разностная ИКМ может сочетаться с использованием
как однородного, так и неоднородного методов квантования. Разностное кодирование имеет много вариаций, причем некоторые из
них подразумевают использование квантователя с предсказателем сигнала. Такие квантователи производят меньше ошибок квантования
за счет предсказания сигнала на каждом шаге преобразования, опираясь на информацию об уже известных предыдущих значениях
сигнала.
Кодирование цифровых аудио сигналов
По сути дела, та или иная цифровая форма представления аналоговых аудио сигналов уже является способом кодирования –
последовательность чисел, описывающая аналоговый аудио сигнал, сама по себе является цифровым кодом. Однако кодирование,
о котором мы будем сейчас говорить, - это нечто другое. Сейчас рассмотрим методы кодирования цифровых аудио сигналов.
Оцифрованный аудио сигнал «в чистом виде» (например, в форме одной из рассмотренных выше вариаций ИКМ) является достаточно
точной, но не самой компактной формой записи исходного аналогового сигнала.
Посудите сами. Ч тобы получить полную информацию об оригинальном аналоговом сигнале в частотной полосе от 0 до 20 кГц
(в слышимом диапазоне частот), аналоговый сигнал необходимо дискретизовать с частотой не менее 40 кГц. Так, стандарт CD -
DA (стандарт записи данных на привычных для всех аудио компакт-дисках) устанавливает следующие параметры кодирования: двух-
или одноканальная запись в формате ИКМ с частотой дискретизации 44.1 кГц и разрядностью квантования 16 бит. Один час музыки
в таком формате занимает объем около 600 Мб (60 минут * 60 секунд * 2 канала * 44100 отсчетов в секунду * 2 байта на отсчет
= около 605 Мб). Учитывая, что, например, музыкальная коллекция рядового любителя музыки вполне может насчитывать 5000 треков
средней продолжительностью около 3 минут каждый, объем памяти, требуемый для ее хранения в исходном цифровом виде, оказывается
очень внушительным. Поэтому хранение относительно больших объемов аудио данных, гарантирующее достаточно хорошее качество
звучания, требует применения разных «ухищрений», позволяющих уплотнить данные.
В целом, все существующие методы кодирования аудио информации можно условно разделить всего на два типа.
1. Сжатие данных без потерь (англ. « lossless coding») - это способ кодирования (уплотнения) цифровой
аудио информации, позволяющий осуществлять стопроцентное восстановление исходных данных из сжатого потока (под понятием «исходные
данные» здесь подразумевается исходный вид оцифрованных аудио данных). К такому способу уплотнения данных прибегают в случаях,
когда требуется абсолютное, стопроцентное сохранение качества оригинального звучания аудио данных. Существующие сегодня алгоритмы
беспотерьного сжатия позволяют сократить занимаемый данными объем на 20-50% и при этом гарантировать стопроцентное восстановление
исходного цифрового материала из сжатых данных. Механизмы работы подобных кодеров сходны с механизмами работы архиваторов
общих данных, таких, как, например, ZIP или RAR, но при этом адаптированы специально для сжатия аудио данных. Беспотерьное
кодирование , хотя и идеально с точки зрения сохранности качества аудио материалов, но оказывается неспособным обеспечить
высокий уровень компрессии.
2. Существует другой, более современный путь уплотнения данных. Это так называемое сжатие данных
с потерями (англ. « lossy coding»).Цель такого кодирования заключается в достижении любыми путями максимально высокого
коэффициента компрессии данных при сохранении качества их звучания на приемлемом уровне. В основе идеи кодирования с потерями
лежит два простых основополагающих соображения:
· исходные цифровые аудио данные избыточны – они содержат много лишней,
бесполезной для слуха информации, которую можно удалить, тем самым, повысив коэффициент компрессии;
· требования к качеству звучания аудио материала могут быть разными и
зависят от конкретных целей и сфер использования.
Кодирование с потерями потому и называется «с потерями», что приводит к утрате некоторой части аудио информации. Такое
кодирование приводит к тому, что декодированный сигнал при воспроизведении звучит похоже на оригинальный, но фактически перестает
быть ему идентичным. В основе большинства методов кодирования с потерями лежит использование психоакустических свойств слуховой
системы человека, а также различных хитростей, связанных с переквантованием и передискретизацией сигнала. В частотности,
в процессе компрессии аудио данные анализируются кодером на предмет выявления различных деталей звучания, которыми можно
пренебречь. Замаскированные частоты, неслышимые и слабослышимые детали звучания – всем этим можно пожертвовать с целью достижения
более высокого значения коэффициента компрессии. Там, где в звучании важна лишь разборчивость (например, в телефонии, где
наличие частот выше 4 кГц не является необходимым), аудио информация в процессе кодирования подвергается серьезному «упрощению»,
что вкупе с использованием «умных» квантователей и удачных «жадных» алгоритмов компрессии данных позволяет достичь высочайших
степеней компрессии (1 : 50 и выше). Там, где качеству звучания предъявляются более высокие требования (например, в портативных
и бытовых аудио устройствах), аудио материалы подвергают более щадящему кодированию. Надо отметить, что степень агрессивности
кодера по отношению к деталям звучания может регулироваться (эта способность, впрочем, зависит от конкретной реализации).
В среднем, современные кодеры даже при столь высокой степени компрессии, как 1 : 10 позволяют обеспечить отличное звучание,
качество которого средним слушателем на средней аппаратуре оценивается как равное качеству звучания исходных аудио данных.
Часть [1]
[2]
[3]
[4]
[5]
[6]
|