на тему рефераты Информационно-образоательный портал
Рефераты, курсовые, дипломы, научные работы,
на тему рефераты
на тему рефераты
МЕНЮ|
на тему рефераты
поиск
Кодеры речи

Кодеры речи

6

Глава1 Кодеры формы.

Кодеры формы характеризуются способностью сохранять основную форму речевого сигнала. Кодеры формы не являются специфичными для речи в том смысле, что они с успе-хом работают с любой формой входного сигнала, и их применение ограничено только пределами амплитуды и шириной полосы. Сохраняя огибающую формы сигнала, подобные кодеры работают по принципу выборка-выборка, и их характеристики эффективно измеряются отношением сигнал/шум (ОСШ), так как квантование является основным источником искажений формы выходного сигнала.

ИКМ -- первый мировой стандарт кодирования речи со скоростью 64 кбит/с с логарифмическим сжатием (по м-закону для Северной Америки и А-закону для Европы). ИКМ-кодер является кодером формы и все еще широко используется в цифровых системах. ИКМ со скоростью 64 кбит/с в основном используется как предварительное звено низкоскоростных речевых кодеров, поскольку ее характеристики считаются очень высоко-качественными. Позже был разработан стандарт на адаптивную дифференциальную ИКМ (АДИКМ) со скоростью 32 кбит/с. Снижение скорости цифрового потока наполовину было достигнуто благодаря использованию адаптивного предсказания и адаптивных квантователей для устранения избыточности речи. Некоторые другие кодеры, например с дельта-модуляцией и плавно изменяющейся крутизной (CVSDM -- Continuous Variable Slope Delta Modulation) на скорости 32 кбит/с, используются для решения специфичных задач. Хотя подобные высокоскоростные алгоритмы кодирования малоэффективны, они, тем не менее, остаются самыми эксплуатируемыми системами и, возможно, будут оставаться таковыми еще некоторое время.

Импульсно-кодовая модуляция ИКМ (РСМ - Pulse Code Modulation). Рекомендация G.711

При построении систем цифровой передачи непрерывных сообщений принципиальным моментом является определение полосы частот, требуемой для обеспечения заданного качества воспроизведения переданного сообщения. Вообще говоря, для высококачественной передачи речевого сообще-ния требуется полоса не менее 10 кГц.

Однако для достижения удовлетвори-тельного уровня разборчивости при пе-редаче речи по телефонным каналам достаточно передать спектр в полосе 300...3400 Гц. Именно такой спектр звуковых частот обычно передается в современных системах передачи рече-вой информации.

Как правило, максимальная частота передаваемого спектра аудио-сигнала выбирается равной ,а частота дискретизации (например, рекомендации G.711, G.721), хотя в ряде случаев с целью повышения качества передачи используются и более высокие значе-ния этих величин (например, рекомен-дация G.722).

При использовании ИКМ дискретизированное сообщение подвергается квантованию по L уровням (рис. 1.1), в результате чего каждому значе-нию ставится в соответствие чи-сло , , представленное n-разрядной комбинацией двоичного кода.

Для достижения приемлемого ка-чества восприятия восстановленного речевого сообщения при равномерном (простом) квантовании необходимо . Столь большое число уровней квантования при требует скорости передачи символов в канале не менее .

Рисунок 1.1

Однако в связи с тем, что при восприятии речи человеческим ухом в области больших мгновенных значений оказываются допустимыми значительно большие искажения сообщения, чем в области малых мгновенных значений, требуемое число уровней квантования может быть существенно снижено путем использования неравномерного квантования, используя компрессию исходного сообщения по логарифмическому закону с последующим равномерным квантованием при сравнительно малом числе уровней (например, при или путем соответствующего цифрового преобразования (цифровой компрессии) сообщения, предварительно преобразованного в цифровую форму при сравнительно большом исходном числе уровней квантования (например, при ).

Оптимальный квантователь имеет преимущества, если динамический диапазон входного сигнала фиксирован и достаточно мал. Характеристики квантователя быстро ухудшаются, мощность сигнала изменяется относительно значения, на которое он был рассчитан. Хотя этим процессом можно управлять, нормализуя входной сигнал и приводя его к единому диа-пазону, для правильного определения масштаба амплитуды восстановленно-го после квантователя сигнала потре-буется дополнительно несколько бит, необходимых для передачи динамиче-ского диапазона сигнала в определен-ные моменты времени.

Для обработки входных речевых сигналов с большим динамическим диапазоном используются два зако-на сжатия, называемые импульсно-кодовой модуляцией по закону (А-ИКМ) и по закону м (м-ИКМ). В обеих схемах характеристика от-ношения сигнал/шум квантования (ОСШкв) должна быть близка к харак-теристике для простого квантователя. Вместе с тем характеристики А-ИКМ и м-ИКМ существенно не изменяют-ся и остаются сравнительно постоян-ными в большом диапазоне уровней входного сигнала. По сравнению с про-стыми квантователями (рис. 1.1) кван-тователи сжатия требуют меньше бит на входную выборку для определен-ного динамического диапазона сжатия и меньшего ОСШкв. В квантователях сжатия уровни квантования находятся в области малых амплитуд, которые увеличиваются при увеличении диа-пазона входного сигнала. Благодаря этому при квантовании речевых сигналов, у которых максимум функции распределения вероятностей находится в начале координат, наиболее ча-сто встречающиеся малые амплитуды квантуются с большей точностью, чем менее вероятные большие амплитуды, что приводит к значительно лучшим, Чем у простого квантователя, характер-истикам.

Сжатие по А-закону определяется зависимостью:

где A -- параметр сжатия с типовыми значениями 86 (Северо-Американская ИКМ) и 87,56 (Европейская ИКМ) для семибитных речевых квантователей.

Сжатие по м-закону определяется выражением

где V0 задается формулой , в которой L - нагрузочный фактор, a - среднеквадратическое значение входного речевого сигнала.

Типовое значение фактора сжатия м равно 255. Выражение (1.1) пока-зывает, что А-закон -- это комбина-ция логарифмической кривой, исполь-зуемой для больших амплитуд, и ли-нейного участка, используемого на ма-лых амплитудах. м-закон не являет-ся в точности линейным или логариф-мическим ни в одном диапазоне, од-нако является приблизительно линей-ным для малых амплитуд и прибли-зительно логарифмическим для боль-ших амплитуд. Сравнение между квантователем по м-закону и опти-мальным квантователем показало, что оптимальный квантователь дает вы-игрыш 4 дБ, однако может иметь бо-лее высокий уровень фонового шума, когда канал свободен, и его динамиче-ский диапазон сведен к минимальному диапазону входного сигнала. Поэтому наиболее предпочтителен логарифми-ческий квантователь.

Цифровое преобразование непре-рывного речевого сообщения в соответ-ствии с рекомендацией G.711 (рис. 1.2) используется наиболее часто.

Рисунок 1.2

При этом ; частота дискретизации . После равномерного квантования при числе уровней и предварительного кодирования производится цифровая компрессия, в результате чего длина кодовой комбинации уменьшается до разрядов. Результатом преобразования является двоичная последовательность, передаваемая со скоростью 64 кбит/с.

Из различных систем адаптивной ИКМ (АИКМ) наибольшее распространение получила система блочной ИКМ (БИКМ), оторую часто называют системой с почти мгновенным компандированием (NIC -- Near Instantaneous Companding).

Отсчеты n-разрядного АЦП разбивают на блоки по N отсчетов. В каждом блоке находят отсчет с макси-мальным для данного блока уровнем. Этому уровню соответствует определенный номер старшего значащего раз-ряда (j), и все старшие разряды в ком-бинациях этого блока будут нулевыми. Записанный в двоичном коде но-мер этого разряда образует масштабную информацию, которая из-за своей важности, как правило, защищается помехоустойчивым кодом. В результате масштабная информация вместе с проверочными символами образует m-значную комбинацию, которую добавляют к основной информации.

Основная информация формируется выбором k разрядов из n исходных разрядов, причем первым (старшим) разрядом является разряд с номером, описанным в масштабной информации.

Основная информация для каждого из блоков объединяется с масштабной в единый цифровой поток. Результирующая скорость цифрового потока на выходе системы БИКМ . На практике, как правило, используют следующие параметры: .

При одинаковых условиях передачи БИКМ дает лучшее качество, чем ИКМ. Поэтому можно снизить скорость передачи до 32.. .56 кбит/с.

Дифференциальная импульсно-кодовая модуляция ДИКМ (DPCM - Differencial Pulse Code Modulation)

Наряду с ИКМ применяются и более эффективные цифровые методы передачи речи. В частности, с целью снижения требований к пропускной способности канала можно использовать наличие корреляции между от-четными значениями передаваемого сообщения. Такой метод называется передачей с предсказанием. При этом последовательность значений поступает на один вход вычитающего устройства (рис. 1.3,а), в то время как на другой вход поступает предсказанное значение , полученное тем или иным методом в устройстве предска-зания на основе анализа как преды-дущих отсчетных значений сообщения, так и текущих передаваемых значений на входе вычитающего устройства.

Рисунок 1.3

На приемном конце значения сооб-щения восстанавливаются путем добавления принятого сигнала ошибки предсказания к предсказываемому значению (рис. 1.3,б).

В системе с дифференциаль-ной импульсно-кодовой модуляци-ей (ДИКМ) отсчетные значения ошибки предсказания подвергаются квантованию с переходом к значениям аналогично тому, как это делает-ся при использовании обычной ИКМ, однако при существенно меньшем числе уровней квантования. Таким обра-зом, при одинаковом качестве переда-чи речи метод ДИКМ позволяет ис-пользовать меньшее число разрядов n в кодовых комбинациях по сравне-нию с ИКМ. При этом существует большое число различных вариантов реализации метода ДИКМ, наиболее типичный из которых представлен на рис. 1.4.

Рисунок 1.4

При этом имеют место соотноше-ния:

Классификационными признака-ми кодеров ДИКМ считаются нали-чие блока линейного предсказания ав-торегрессионных последовательностей (предсказателя) и использование мно-гоуровневого (больше двух уровней) квантователя. Блок линейного пред-сказания может состоять из двух ча-стей -- долговременного и кратковре-менного предсказателей. В канал пе-редается разность истинного и пред-сказанного значений сигнала (сигнал-остаток, он же - погрешность пред-сказания). Системы с ДИКМ обеспе-чивают такое качество восстановления сигнала, которое сопоставимо с предоставляемым ИКМ, и на порядок более высокую помехоустойчивость.

Эффективность метода ДИКМ может быть повышена путем пере хода к адаптивной дифференциальной импульсно-кодовой модуляции АДИКМ.

Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM -- Adaptive Differencial Pulse Code Modulation). Рекомендации G.721 и G.726

ADPCM - один из наиболее об-щепринятых и давно используемых ал-горитмов сжатия речи, который регла-ментируется стандартом G.726, был принят в 1984 г. Этот алгоритм да-ет практически такое же качество вос-произведения речи, как и РСМ, однако для передачи информации при его ис-пользовании требуется всего 32 кбит/с. Метод основан на том, что в анало-говом сигнале, передающем речь, не-возможны резкие скачки интенсивно-сти. Поэтому, если кодировать не са-му амплитуду сигнала, а ее измене-ние по сравнению с предыдущим зна-чением, то можно обойтись меньшим числом разрядов. В ADPCM изменение уровня сигнала кодируется четырехразрядным числом, при этом частота измерения амплитуды сигнала сохраняется неизменной.

Все методы кодирования, основанные на определенных предположениях о форме сигнала, плохо работают в ситуации, когда сигнал может передаваться с резкими скачками амплитуды. Именно такой вид имеет аудиосигнал, генерируемый модемам или факсимильными аппаратами. Современные системы обмена информацией, поддерживающие цифровые ли-нии связи, умеют распознавать фак-симильный обмен и передают соответ-ствующие сигналы непосредственно в цифровом виде, не преобразуя их в ау-диосигнал.

Нелинейный 15-уровневый адаптивный квантователь используется для квантования разностного сигна-ла . Перед квантованием сигнал логарифмируется по основанию 2 и масштабируются посредством коэф-фициента , который вычисляется с помощью блока адаптации масштаб-ного коэффициента.

Для определения квантованного уровня используются четыре дво-ичных символа (три для амплитуды и один для знака). Четырехбитовый вы-ход квантователя образует выход-ной цифровой сигнал со скоростью 32 кбит/с, который одновременно подает-ся на инверсный адаптивный кванто-ватель и блок управления скоростью адаптации масштабного коэффициента квантователя.

Квантованная версия разностного сигнала формируется путем мас-штабирования с использованием спе-циальной величины , выделяемой из нормализованной характеристики квантователя, и дальнейшей транс-формации результата из логарифмиче-ского представления.

Блок адаптации масштабного ко-эффициента квантователя вычисляет -- масштабный коэффициент для квантователя и инверсного квантовате-ля. На его входы подаются четырехби-товые выходные сигналы квантователя и параметр управления скоростью адаптации .

Страницы: 1, 2, 3



© 2003-2013
Рефераты бесплатно, курсовые, рефераты биология, большая бибилиотека рефератов, дипломы, научные работы, рефераты право, рефераты, рефераты скачать, рефераты литература, курсовые работы, реферат, доклады, рефераты медицина, рефераты на тему, сочинения, реферат бесплатно, рефераты авиация, рефераты психология, рефераты математика, рефераты кулинария, рефераты логистика, рефераты анатомия, рефераты маркетинг, рефераты релиния, рефераты социология, рефераты менеджемент.