Каталог Рефератов - Кодеры речи - скачать рефераты, бесплатно рефераты

	Информационно-образоательный портал
	Рефераты, курсовые, дипломы, научные работы,



МЕНЮ\|

поиск

Кодеры речи

p align="left">Основной принцип, реализуемый при масштабировании, заключается в бимодальной адаптации:

- быстрой - для сигналов (напри-мер, речевых), которые дают разност-ные сигналы с большими флуктуациями;

-медленной - для сигналов (например, данных в диапазоне тональ-ных частот, тонов), которые дают разностные сигналы с малыми флуктуациями.

Управление скоростью адаптации производится с помощью комбинации быстрого и медленного масштабных коэффициентов.

Быстрый (нефиксированный) масштабный коэффициент вычисляется рекурсивно в логарифмиче-ском представлении с основанием 2 из результирующего логарифмическо-го масштабного коэффициента:

Как правило, лежит в пределах . Дискретная функция определяется таблич-ным образом. Множитель (1 - 2-5) вводит ограниченную память в процесс адаптации таким образом, что состо-яния кодера и декодера сходятся при ошибках передачи.

Медленный (фиксированный) мас-штабный коэффициент получа-ется из с помощью операции фильтрации нижних частот:

Затем быстрый и медленный мас-штабные коэффициенты объединяются для получения результирующего мас-штабного коэффициента:

где .

Управление скоростью адапта-ции. Предполагается, что управляю-щий параметр может принимать значения в диапазоне [0, 1]. Для рече-вых сигналов он стремится к единице, Для сигналов, данных в диапазоне то-нальных частот и одночастотных сигналов он стремится к нулю. Величи-на коэффициента определяется мерой скорости изменения величины разност-ного сигнала.

Адаптивный предсказатель и калькулятор восстановленного сигна-ла. Первоначальная функция ада-птивного предсказателя заключается в вычислении оценки разностного сигнала . Используются две структуры адаптивного предсказате-ля - каскад первого порядка, модели-рующий нули, и каскад второго поряд-ка, моделирующий полюсы во входном сигнале.

Детектор тона и перехода. С целью улучшения рабочих характери-стик для сигналов, поступающих с вы-ходов модемов с частотной манипуля-цией, работающих в режиме кодовых комбинаций, определен двухступенча-тый процесс декодирования. Снача-ла производится детектирование сиг-нала с ограниченной полосой (напри-мер, тона), в результате чего квантова-тель может быть переведен в быстрый режим адаптации.

Упрощенная и развернутая струк-турные схемы декодера АДНКМ при-ведены на рис. 1.6,а и 1.7,б соответ-ственно. Декодер включает схему, идентичную цепи обратной связи коде-ра, преобразователь линейной ИКМ в сигнал по законам А или м и устрой-ство установки синхронного кодирова-ния.

Устройство установки синхрон-ного кодирования предотвращает нако-пление искажений, имеющих место при синхронном последовательном кодиро-вании (АДИКМ-ИКМ-АДИКМ, дру-гие цифровые соединения). Установ-ка синхронного кодирования достига-ется путем подстройки проходного ко-да ИКМ таким образом, чтобы попы-таться устранить искажения квантова-ния в следующем каскаде кодирования АДИКМ.

Функции основных блоков декоде-ра и кодера совпадают и поэтому ниже не рассматриваются.

Вокодеры

Вокодер (от английских слов voice - голос и coder - кодировщик) пред-ставляет собой устройство, осуще-ствляющее параметрическое компандирование речевых сигналов. Ком-прессия речевых сигналов на переда-ющем конце канала связи производит-ся в анализаторе, выделяющем из ре-чевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых посылок. На приемном конце с помощью мест-ных источников сигналов, управляе-мых принятыми параметрами, синте-зируется речевой сигнал.

Работа вокодеров основана на моделировании человеческой речи с учетом ее характерных особенностей. Вместо непосредственного измерения амплитуды вокодер преобразует вход-ной сигнал в некий другой, похожий на исходный. Причем измеряемые харак-теристики речевого сигнала использу-ются для подгонки параметров в при-нятой модели речевого сигнала. Имен-но эти параметры и передаются прием-нику, который по ним восстанавливает исходный речевой сигнал. По суще-ству, речь идет о синтезе речи. Есте-ственно, что измерение искажений от-ношения сигнал/шум бесполезно для вокодеров, и, следовательно, необхо-димы другие субъективные оценки, та-кие, как средняя экспертная оценка, диагностический рифмованный тест, диагностическая оценка приемлемости и др. Вокодеры можно разделить на два класса: речеэлементные и параметри-ческие.

В речеэлементных вокодерах при передаче распознаются произне-сенные элементы речи (например, фо-немы) и передаются только их но-мера. На приеме эти элементы со-здаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных воко-деров - линии командной связи, ре-чевое управление и говорящие автома-ты информационно-справочной служ-бы. Практически в таких вокодерах происходит автоматическое распозна-вание слуховых образов, а не опреде-ление параметров речи.

В параметрических вокодерах из речевого сигнала выделяют два ти-па параметров:

параметры, характеризующие оги-бающую спектра речевого сигнала, (фильтровую функцию);

параметры, характеризующие ис-точник речевых колебаний (генератор-ную функцию), - частота основного тона, ее изменение во времени, момен-ты появления и исчезновения основно-го тона, шумового сигнала.

По этим параметрам на приеме синтезируют речь.

По принципу определения параме-тров фильтровой функции речи разли-чают вокодеры:

* полосные канальные (channel);

* формантные;

* ортогональные;

* липредеры (с линейным предска-занием речи);

* гомоморфные.

В полосных вокодерах спектр речи делится на 7-20 полос (каналов) аналоговыми или цифровыми полосо-выми фильтрами. Большее число ка-налов в вокодере дает большую нату-ральность и разборчивость. С каждо-го полосового фильтра сигнал поступа-ет на детектор и фильтр низких частот с частотой среза Fcp. Таким образом, сигналы на выходе каждого канала из-меняются с частотой менее Fcp. Их пе-редача возможна в аналоговом или ци-фровом виде.

В формантных вокодерах оги-бающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант - центральная частота, амплитуда и ширина полосы частот.

В ортогональных вокодерах огибающая мгновенного спектра рас-кладывается в ряд по выбранной си-стеме ортогональных базисных функ-ций. Вычисленные коэффициенты это-го разложения передаются на прием-ную сторону. Распространение полу-чили гармонические вокодеры, исполь-зующие разложение в ряд Фурье.

Вокодеры с линейным пред-сказанием (LPC -- Linear Prediction Coding, или липредеры, основаны на оригинальном математическом аппа-рате. Они получили наибольшее рас-пространение и будут ниже рассмотре-ны более подробно.

Гомоморфная обработка позво-ляет разделить генераторную и филь-тровую функции, образующие речевой сигнал.

Из-за сложности определения па-раметров генераторной функции по-явились полувокодеры (VE -- Voice Excited Vocoder), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигна-ла. Полоса частот до 800. .. 1000 Гц кодируется АДИКМ, АДМ (адаптивная дельта модуляция) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде. Известны разные типы полувокодеров-липредеров: VELP -- Voice Excite Linear Prediction; RELP -- Residue Excited Linear Prediction.

Вокодеры VELP используют голосовое возбуждение и коэффициент линейного предсказания (КЛП). В вокодерах RELP по исходному сигнал также вычисляются КЛП. Так как КЛП описывает фильтровую функцию, то сигнал ошибки (остатка) предсказания содержит информацию о генераторной функции речи и передается на приемную сторону (возможно ее сжатие методами АДИКМ, АДМ или помощью линейного предсказания малого порядка).

Характеристики вокодеров. Качество речи вокодеров являет функцией скорости передачи, производительности и задержки обработки. Если вокодеры предназначены для телефонии по Интернет, разработчики продукции должны учитывать эти характеристики, между которыми существует строгая зависимость. Например, низкоскоростные вокодеры обычно имеют большую задержку и более низкое качество речи, чем высокоскоростные.

Скорость. Так как вокодер совместно использует канал связи и часто перегруженную сеть предприятия или Интернет с другими информационными потоками, максимальная скорость должна была бы быть как можно ниже, особенно для приложений малых офисов. В настоящее время большинство вокодеров работают на фиксированной скорости вне зависимости от характеристик входного сигнала, однако целью современных разработок являются вокодеры с переменной скоростью. Для приложений по одновременной передаче речи и дан-ных компромиссом является создание алгоритмов сжатия пауз в качестве части стандарта кодирова-ния. Общим решением является ис-пользование фиксированной скорости для речи и низкой скорости для фо-новых шумов. Способ выполнения ме-ханизма сжатия пауз важен для повы-шения качества передачи речи, одна-ко часто выигрыш от компрессии пауз не реализуется. Проблемой является то, что при больших фоновых шумах сложно провести различия между ре-чью и шумом. Другая проблема за-ключается в том, что если механизм сжатия пауз неправильно выявил состояние речи, начало речи может быть «отрезано», что значительно ухудшает разборчивость кодированной речи.

Алгоритм	Описание
Детектор активности речи (VAD)	Определяет, является ли входной сигнал речью или фоновым шумом. Если сигнал считается речью, он кодируется на полной фиксированной скорости; если сигнал считается шумом, он кодируется на более низкой скорости
Генерация комфортного шума	Механизм действует на стороне приемника для воссоздания основной характеристики фонового шума

Способ генерации комфортного пума должен быть таким, чтобы кодер и декодер оставались синхронизи-рованными, даже если в течение некоторого интервала времени передача данных не осуществляется. Это позволяет сгладить переходы между сегментами активной и неактивной речи.

Производительность алгоритмa. Вокодеры частот выполняются на основе цифровых сигнальных процес-соров (ЦСП). В соответствии с ком-пьютерной терминологией их произво-дительность может быть измерена в млн. операций в секунду, объеме па-мяти с произвольным доступом ОЗУ и объеме ПЗУ. Производительность определяет стоимость вокодера, поэто-му при определении типа вокодера для тех или иных приложений разработ-чик должен сделать соответствующий выбор. В случаях, когда вокодер со-вместно использует процессор с дру-гими приложениями, разработчик дол-жен решить, сколько ресурсов мож-но выделить для вокодера. Вокодеры, использующие менее 15 млн. опера-ций/с, считаются низкопроизводитель-ными. Использующие 30 или более млн. операций/с - высокопроизводи-тельными.

Увеличение производительности приводит к увеличению стоимости и большим затратам энергии. Энерге-тические затраты важны для прило-жений в портативной аппаратуре, так как при больших затратах энергии со-кращается время между подзарядками батарей или возникает необходимость использовать батареи большей емко-сти, что, в свою очередь, приводит к большей цене и весу.

При синтезе и исследовании по-лосных вокодеров и полосных вокоде-ров с ЛПК используются различные модели речевого процесса. Наиболее точная модель речи представляет со-бой нестационарный случайный про-цесс с медленно меняющейся дисперси-ей и спектральной плотностью. При использовании подобной модели мож-но получить наиболее точный резуль-тат оценки качества вокодера.

Ортогональные вокодеры

Речевой сигнал можно промо-делировать откликом на возбуждаю-щий сигнал линейной системы с им-пульсной характеристикой с пере-менными параметрами, так что выход-ной сигнал равен свертке возбу-ждающего сигнала и импульсного от-клика голосового тракта при условии, что форма голосового тракта неизмен-на.

Все разнообразие звуков получа-ется путем изменения формы голосо-вого тракта. Если форма голосового тракта изменяется медленно, то на ко-ротких временных интервалах аппрок-симация выходного сигнала сверткой возбуждающего сигнала и импульсно-го отклика голосового тракта справед-лива. Если на коротком отрезке вре-мени входной сигнал является перио-дическим, с постоянной входной часто-той, то выходной сигнал также являет-ся периодическим. Такая модель спра-ведлива для описания звонких звуков. Аналогично временному, преобразова-ние речи может быть описано в частот-ной области, поскольку преобразова-ние Фурье речевого сигнала равно про-изведению преобразований Фурье воз-буждающего сигнала и импульсного отклика голосового тракта.

Частотная характеристика голо-сового тракта является гладкой функ-цией частоты и характеризуется аку-стическими резонансами, называемы-ми формантными частотами.

Поскольку при изменении различ-ных звуков форма голосового тракта изменяется, то с течением времени бу-дет изменяться и огибающая спектра речевого сигнала. Так, в частности, при изменении периода сигнала, воз-буждающего звонкие звуки, частотный разнос между гармониками спектра бу-дет также изменяться.

Страницы: 1, 2, 3

© 2003-2013
Рефераты бесплатно, курсовые, рефераты биология, большая бибилиотека рефератов, дипломы, научные работы, рефераты право, рефераты, рефераты скачать, рефераты литература, курсовые работы, реферат, доклады, рефераты медицина, рефераты на тему, сочинения, реферат бесплатно, рефераты авиация, рефераты психология, рефераты математика, рефераты кулинария, рефераты логистика, рефераты анатомия, рефераты маркетинг, рефераты релиния, рефераты социология, рефераты менеджемент.