p align="left">Основной принцип, реализуемый при масштабировании, заключается в бимодальной адаптации: - быстрой - для сигналов (напри-мер, речевых), которые дают разност-ные сигналы с большими флуктуациями; -медленной - для сигналов (например, данных в диапазоне тональ-ных частот, тонов), которые дают разностные сигналы с малыми флуктуациями. Управление скоростью адаптации производится с помощью комбинации быстрого и медленного масштабных коэффициентов. Быстрый (нефиксированный) масштабный коэффициент вычисляется рекурсивно в логарифмиче-ском представлении с основанием 2 из результирующего логарифмическо-го масштабного коэффициента: Как правило, лежит в пределах . Дискретная функция определяется таблич-ным образом. Множитель (1 - 2-5) вводит ограниченную память в процесс адаптации таким образом, что состо-яния кодера и декодера сходятся при ошибках передачи. Медленный (фиксированный) мас-штабный коэффициент получа-ется из с помощью операции фильтрации нижних частот: Затем быстрый и медленный мас-штабные коэффициенты объединяются для получения результирующего мас-штабного коэффициента: где . Управление скоростью адапта-ции. Предполагается, что управляю-щий параметр может принимать значения в диапазоне [0, 1]. Для рече-вых сигналов он стремится к единице, Для сигналов, данных в диапазоне то-нальных частот и одночастотных сигналов он стремится к нулю. Величи-на коэффициента определяется мерой скорости изменения величины разност-ного сигнала. Адаптивный предсказатель и калькулятор восстановленного сигна-ла. Первоначальная функция ада-птивного предсказателя заключается в вычислении оценки разностного сигнала . Используются две структуры адаптивного предсказате-ля - каскад первого порядка, модели-рующий нули, и каскад второго поряд-ка, моделирующий полюсы во входном сигнале. Детектор тона и перехода. С целью улучшения рабочих характери-стик для сигналов, поступающих с вы-ходов модемов с частотной манипуля-цией, работающих в режиме кодовых комбинаций, определен двухступенча-тый процесс декодирования. Снача-ла производится детектирование сиг-нала с ограниченной полосой (напри-мер, тона), в результате чего квантова-тель может быть переведен в быстрый режим адаптации. Упрощенная и развернутая струк-турные схемы декодера АДНКМ при-ведены на рис. 1.6,а и 1.7,б соответ-ственно. Декодер включает схему, идентичную цепи обратной связи коде-ра, преобразователь линейной ИКМ в сигнал по законам А или м и устрой-ство установки синхронного кодирова-ния. Устройство установки синхрон-ного кодирования предотвращает нако-пление искажений, имеющих место при синхронном последовательном кодиро-вании (АДИКМ-ИКМ-АДИКМ, дру-гие цифровые соединения). Установ-ка синхронного кодирования достига-ется путем подстройки проходного ко-да ИКМ таким образом, чтобы попы-таться устранить искажения квантова-ния в следующем каскаде кодирования АДИКМ. Функции основных блоков декоде-ра и кодера совпадают и поэтому ниже не рассматриваются. Вокодеры Вокодер (от английских слов voice - голос и coder - кодировщик) пред-ставляет собой устройство, осуще-ствляющее параметрическое компандирование речевых сигналов. Ком-прессия речевых сигналов на переда-ющем конце канала связи производит-ся в анализаторе, выделяющем из ре-чевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых посылок. На приемном конце с помощью мест-ных источников сигналов, управляе-мых принятыми параметрами, синте-зируется речевой сигнал. Работа вокодеров основана на моделировании человеческой речи с учетом ее характерных особенностей. Вместо непосредственного измерения амплитуды вокодер преобразует вход-ной сигнал в некий другой, похожий на исходный. Причем измеряемые харак-теристики речевого сигнала использу-ются для подгонки параметров в при-нятой модели речевого сигнала. Имен-но эти параметры и передаются прием-нику, который по ним восстанавливает исходный речевой сигнал. По суще-ству, речь идет о синтезе речи. Есте-ственно, что измерение искажений от-ношения сигнал/шум бесполезно для вокодеров, и, следовательно, необхо-димы другие субъективные оценки, та-кие, как средняя экспертная оценка, диагностический рифмованный тест, диагностическая оценка приемлемости и др. Вокодеры можно разделить на два класса: речеэлементные и параметри-ческие. В речеэлементных вокодерах при передаче распознаются произне-сенные элементы речи (например, фо-немы) и передаются только их но-мера. На приеме эти элементы со-здаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных воко-деров - линии командной связи, ре-чевое управление и говорящие автома-ты информационно-справочной служ-бы. Практически в таких вокодерах происходит автоматическое распозна-вание слуховых образов, а не опреде-ление параметров речи. В параметрических вокодерах из речевого сигнала выделяют два ти-па параметров: параметры, характеризующие оги-бающую спектра речевого сигнала, (фильтровую функцию); параметры, характеризующие ис-точник речевых колебаний (генератор-ную функцию), - частота основного тона, ее изменение во времени, момен-ты появления и исчезновения основно-го тона, шумового сигнала. По этим параметрам на приеме синтезируют речь. По принципу определения параме-тров фильтровой функции речи разли-чают вокодеры: * полосные канальные (channel); * формантные; * ортогональные; * липредеры (с линейным предска-занием речи); * гомоморфные. В полосных вокодерах спектр речи делится на 7-20 полос (каналов) аналоговыми или цифровыми полосо-выми фильтрами. Большее число ка-налов в вокодере дает большую нату-ральность и разборчивость. С каждо-го полосового фильтра сигнал поступа-ет на детектор и фильтр низких частот с частотой среза Fcp. Таким образом, сигналы на выходе каждого канала из-меняются с частотой менее Fcp. Их пе-редача возможна в аналоговом или ци-фровом виде. В формантных вокодерах оги-бающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант - центральная частота, амплитуда и ширина полосы частот. В ортогональных вокодерах огибающая мгновенного спектра рас-кладывается в ряд по выбранной си-стеме ортогональных базисных функ-ций. Вычисленные коэффициенты это-го разложения передаются на прием-ную сторону. Распространение полу-чили гармонические вокодеры, исполь-зующие разложение в ряд Фурье. Вокодеры с линейным пред-сказанием (LPC -- Linear Prediction Coding, или липредеры, основаны на оригинальном математическом аппа-рате. Они получили наибольшее рас-пространение и будут ниже рассмотре-ны более подробно. Гомоморфная обработка позво-ляет разделить генераторную и филь-тровую функции, образующие речевой сигнал. Из-за сложности определения па-раметров генераторной функции по-явились полувокодеры (VE -- Voice Excited Vocoder), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигна-ла. Полоса частот до 800. .. 1000 Гц кодируется АДИКМ, АДМ (адаптивная дельта модуляция) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде. Известны разные типы полувокодеров-липредеров: VELP -- Voice Excite Linear Prediction; RELP -- Residue Excited Linear Prediction. Вокодеры VELP используют голосовое возбуждение и коэффициент линейного предсказания (КЛП). В вокодерах RELP по исходному сигнал также вычисляются КЛП. Так как КЛП описывает фильтровую функцию, то сигнал ошибки (остатка) предсказания содержит информацию о генераторной функции речи и передается на приемную сторону (возможно ее сжатие методами АДИКМ, АДМ или помощью линейного предсказания малого порядка). Характеристики вокодеров. Качество речи вокодеров являет функцией скорости передачи, производительности и задержки обработки. Если вокодеры предназначены для телефонии по Интернет, разработчики продукции должны учитывать эти характеристики, между которыми существует строгая зависимость. Например, низкоскоростные вокодеры обычно имеют большую задержку и более низкое качество речи, чем высокоскоростные. Скорость. Так как вокодер совместно использует канал связи и часто перегруженную сеть предприятия или Интернет с другими информационными потоками, максимальная скорость должна была бы быть как можно ниже, особенно для приложений малых офисов. В настоящее время большинство вокодеров работают на фиксированной скорости вне зависимости от характеристик входного сигнала, однако целью современных разработок являются вокодеры с переменной скоростью. Для приложений по одновременной передаче речи и дан-ных компромиссом является создание алгоритмов сжатия пауз в качестве части стандарта кодирова-ния. Общим решением является ис-пользование фиксированной скорости для речи и низкой скорости для фо-новых шумов. Способ выполнения ме-ханизма сжатия пауз важен для повы-шения качества передачи речи, одна-ко часто выигрыш от компрессии пауз не реализуется. Проблемой является то, что при больших фоновых шумах сложно провести различия между ре-чью и шумом. Другая проблема за-ключается в том, что если механизм сжатия пауз неправильно выявил состояние речи, начало речи может быть «отрезано», что значительно ухудшает разборчивость кодированной речи. |
Алгоритм | Описание | | Детектор активности речи (VAD) | Определяет, является ли входной сигнал речью или фоновым шумом. Если сигнал считается речью, он кодируется на полной фиксированной скорости; если сигнал считается шумом, он кодируется на более низкой скорости | | Генерация комфортного шума | Механизм действует на стороне приемника для воссоздания основной характеристики фонового шума | | |
Способ генерации комфортного пума должен быть таким, чтобы кодер и декодер оставались синхронизи-рованными, даже если в течение некоторого интервала времени передача данных не осуществляется. Это позволяет сгладить переходы между сегментами активной и неактивной речи. Производительность алгоритмa. Вокодеры частот выполняются на основе цифровых сигнальных процес-соров (ЦСП). В соответствии с ком-пьютерной терминологией их произво-дительность может быть измерена в млн. операций в секунду, объеме па-мяти с произвольным доступом ОЗУ и объеме ПЗУ. Производительность определяет стоимость вокодера, поэто-му при определении типа вокодера для тех или иных приложений разработ-чик должен сделать соответствующий выбор. В случаях, когда вокодер со-вместно использует процессор с дру-гими приложениями, разработчик дол-жен решить, сколько ресурсов мож-но выделить для вокодера. Вокодеры, использующие менее 15 млн. опера-ций/с, считаются низкопроизводитель-ными. Использующие 30 или более млн. операций/с - высокопроизводи-тельными. Увеличение производительности приводит к увеличению стоимости и большим затратам энергии. Энерге-тические затраты важны для прило-жений в портативной аппаратуре, так как при больших затратах энергии со-кращается время между подзарядками батарей или возникает необходимость использовать батареи большей емко-сти, что, в свою очередь, приводит к большей цене и весу. При синтезе и исследовании по-лосных вокодеров и полосных вокоде-ров с ЛПК используются различные модели речевого процесса. Наиболее точная модель речи представляет со-бой нестационарный случайный про-цесс с медленно меняющейся дисперси-ей и спектральной плотностью. При использовании подобной модели мож-но получить наиболее точный резуль-тат оценки качества вокодера. Ортогональные вокодерыРечевой сигнал можно промо-делировать откликом на возбуждаю-щий сигнал линейной системы с им-пульсной характеристикой с пере-менными параметрами, так что выход-ной сигнал равен свертке возбу-ждающего сигнала и импульсного от-клика голосового тракта при условии, что форма голосового тракта неизмен-на. Все разнообразие звуков получа-ется путем изменения формы голосо-вого тракта. Если форма голосового тракта изменяется медленно, то на ко-ротких временных интервалах аппрок-симация выходного сигнала сверткой возбуждающего сигнала и импульсно-го отклика голосового тракта справед-лива. Если на коротком отрезке вре-мени входной сигнал является перио-дическим, с постоянной входной часто-той, то выходной сигнал также являет-ся периодическим. Такая модель спра-ведлива для описания звонких звуков. Аналогично временному, преобразова-ние речи может быть описано в частот-ной области, поскольку преобразова-ние Фурье речевого сигнала равно про-изведению преобразований Фурье воз-буждающего сигнала и импульсного отклика голосового тракта. Частотная характеристика голо-сового тракта является гладкой функ-цией частоты и характеризуется аку-стическими резонансами, называемы-ми формантными частотами. Поскольку при изменении различ-ных звуков форма голосового тракта изменяется, то с течением времени бу-дет изменяться и огибающая спектра речевого сигнала. Так, в частности, при изменении периода сигнала, воз-буждающего звонкие звуки, частотный разнос между гармониками спектра бу-дет также изменяться.
Страницы: 1, 2, 3
|