Вокодеры и их применение
Введение
Вокодер (английские voice+coder –буквально кодировщик голоса) это
устройство,позволяющее синтезировать речь на основе минимальной информации,
некоторого кода. Так же под Вокодером подразумевается
устройство,преобразующее живую речь в такой код-сжимающее ее. Вокодер
позволяет существенно (примерно в 10 раз) уплотнить линию связи при
незначительном ухудшении качества передачи.
Попытки создать “говорящую машину” предпринимались и в прошлом
веке и в нынешнем.Основывались они на том обстоятельстве что человеческая
речь состоит из незначительного числа частотных составляющих –формант.Тогда
эти составляющие получали и суммировали механическим путем (с помощью
системы мехов ).При известной сноровке удавалось ”произносить” несложные
звуки и даже слова и фразы.
Естественно ни о каком машинном синтезе речевых потоков а тем
более о передачи минимальной информации необходимой для синтеза по каналам
связи тогда не могло быть и речи.
С появлением аналоговых электронных устройств (
усилителей,фильтров ) реализация вокодера стала возможной.Но такой вокодер
был достаточно громоздким (до появления интегральных микросхем) и кроме
того ообого выигыша в сокращении избыточности при передачи по каналам связи
не получалось,так как передавать номера формант или еще какую нибудь
нформацию в аналоговой форме затруднительно.
Аналоговые вокодеры позволяли скремблировать речь (поменять ее
форманты местами ) из-за чего ранее их пременяли в системах передачи
конфиденциальной информации.
Сейчас аналоговые вокодеры применяют в основном для спец-эффектов
в концертной практике:речь обработанная ими приобретает характерное
роботизированное звучание.
С появлением цифровых БИС а так же универсальных ЭВМ стало
возможным построение ЦИФРОВЫХ аппаратных и программных вокодеров . На входе
такого вокодера речь с помощью аналогово-цифрового преобразователя
преобразовывается в
цифровую форму.Далее выполняется ее спектральный или иной анализ с помощью
определенных алгоритмов обработки.Этот анализ позволяет существенно сжать
цифровой поток получаемый с АЦП.Кроме того возможно шифрование данных
(имеющий подобный вокодер не сможет услышать исходную речь не зная
определенного ключа) что весьма бывает важно.а приемном конце цифровой
поток преобразуется обратно в речь с помощью определнных алгоритмов
синтеза.
1 Классификация вокодеров по способу анализа и синтеза речи.
По способу анализа и синтеза речи вокодеры можно
разделить на речеэлементные и параметрические.
В речеэлементных вокодерах при кодировании распознаются
произносимые элементы речи (например, фонема) и на выход кодера подаются
только их номера. В декодере эти элементы создаются по правилам
речеобразования или берутся из памяти декодера. Фонемные вокодеры
предназначены для получения предельной компрессии речевых сигналов. Область
применения фонемных вокодеров - линии командной связи, управление и
говорящие автоматы информационно-справочной службы. В таких вокодерах
происходит автоматическое распознавание слуховых образов, а не определение
параметров речи и, соответственно, теряются все индивидуальные особенности
диктора.
Параметрический вокодер представляет собой устройство, которое
совершает так называемое параметрическое компандирование речевых сигналов.
Компрессия речевых сигналов в кодере осуществляется в анализаторе, который
выделяет с речевого сигнала медленно меняющиеся параметры. В декодере при
помощи местных источников сигналов, которые управляются принятыми
параметрами, синтезируется речевой сигнал.
В параметрических вокодерах с речевого сигнала выделяют два типа параметров
и по этим параметрам в декодере синтезируют речь:
- Параметры, которые характеризуют источник речевых колебаний (генераторную
функцию) - частота основного тона, ее изменение во времени, моменты
появления и исчезновения основного тона (огласованные или гортанные звуки),
шумового сигнала (шипящие и свистящие звуки);
- Параметры, которые характеризуют огибающую спектра речевого сигнала.
В декодере, соответственно, по заданным параметрам генерируются основной
тон, шум, а затем пропускаются через гребенку полосовых фильтров для
восстановления огибающей спектраречевогосигнала.
По принципу определения параметров фильтровой функции различают_вокодеры:
-полосные(канальные);
-формантные;
-ортогональные.
В полосных вокодерах спектр речи делится на 7 - 20 полос (каналов)
аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов в
вокодере дает большую натуральность и разборчивость. С каждого полосового
фильтра сигнал поступает на детектор для определения среднего уровня.
В формантных вокодерах огибающая спектра речи описывается комбинацией
формант (резонансных частот голосового тракта). Основные параметры формант
- центральная частота, амплитуда и ширина спектра. В ортогональных
вокодерах огибающая мгновенного спектра разлагается на составные части в
ряд по выбранной системе ортогональных базисных функций. Рассчитанные
коэффициенты этого разложения передаются на приемную сторону.
Распространение получили гармонические вокодеры, которые используют
разложение в ряд Фурье.
Рассмотренные вокодеры обеспечивают сжатие сигнала до 1200-4800
Бит/с, позволяя восстановить в декодере частоту основного тона с
дискретностью в несколько герц и с невысокой точностью огибающую спектра
сигнала с периодом изменения 16-40 мс.Из-за сложности определения
параметров генераторной функции появились полувокодеры (Voice Excited
Vocoder, VEV), в которых вместо сигналов основного тона используется полоса
речевого сигнала до 800 - 1000 Гц, которая кодируется, например, АДИКМ, и
вместо характеристик основного тона передается на выход кодера. Такой
алгоритм позволяет сжать речь до 4800-9600 бит/с, сохраняя генераторную
функцию гортани (частоту и закон изменения основного тона) диктора.
2 Принцип работы и характеристики речеэлементных вокодеров.
При ИКМ с А- и мю-законами, ДИКМ, АДИКМ, АДМ, клиппировании сжатие речи
и других звукоданных достигается за счет компактного описания формы
звукового сигнала. При этом не учитываетс природа речеобразования. Если же
при анализе и синтезе речи ее учесть, то речь можно сжать значительно
сильнее.
В русском языке 42 фонемы: 6 гласных звуков, остальные - согласные.
Чтобы закодировать их номера нужно 6 бит. Человек произносит в секунду
около 10 звуков. То есть от центральной нервной системы к речевому аппарату
сигналы управления передаются со скоростью
10 [log 2 42] = 60 бит/с.
Близкую к этой скорость способны обеспечить речеэлементные вокодеры (при
этом при хорошей разборчивости теряются индивидуальные особенности речи но
часто это и не столь важно) . В их основе лежит запоминание отдельных фраз,
речевых оборотов. Благодаря этому запоминанию на воспроизводящий элемент
передается не сама речь, а ее элементный номер. Это широко применялось и
применяется в системах управления голосом, а также чтения текста с
преобразованием в звук. В качестве простого примера можно привести звуковые
схемы Windows, интерактивно реагирующие на то или иное событие. Если эти
звуковые сигналы заменить на человеческую речь, то мы получим самый легкий
пример речеэлементного вокодера. Системе сообщается не сам звук, а имя
файла, который надо воспроизводить. На передающем конце В то же время в
цифровой телефонии используется скорость 64 кбит/c (8 бит на отсчет,
частота дискретизации 8 кГц). По сути дела любой речеэлементный вокодер
собирает например произносимое слово из слогов (или фразу из слов) при этом
многого не скажешь а уж выразить вряд ли выразишь.
Параметрические вокодеры
Полосовые вокодеры
Полосовой вокодер синтезирует речь используя определенные ичистые тона.
Рассмотрим некоторые реализацию полосового вокодера. Это
например метод синтеза речи с помощью ряда Фурье - в виде суммы
элементарных спектральных составляющих, в музыкальной акустике получивших
название "чистые тона". Имеется Банк "чистых тонов" со 144 чистыми тонами.
Как происходил синтез звука показано на рис. 2.
Рис. 2.
Функционально-оптическая схема синтезатора АНС.
Свет от источника (1) пропускался через вращающийся диск фотооптического
генератора (2) и модулировался по интенсивности звуковыми дорожками (банком
чистых тонов). Между диском и читающим фотоэлементом (4) устанавливалась
маска (информация о синтезе)(3) с отверстиями для отбора лучей только от
нужных дорожек. После фотоэлемента следовал обычный для кинопроектора тракт
звукоусиления (5).
Первой электрической и одновременно последней
аналоговой моделью речевого тракта стал прибор водер (на рис. 4 подробно
описано его устройство), разработанный Дадли, Ришем и Уоткинсом.
[pic]Рис. 4.
Структурная схема водера.
Водер управлялся от ручной клавиатуры и синтезировал сигналы с заданным
спектром. Десять параллельно соединенных полосовых фильтров составляли блок
управления резонансами. Переключение источника возбуждения - шумового или
импульсного генератора - осуществлялось браслетом на запястье оператора, а
управление частотой импульсов - ножной педалью. На выходе фильтров стояли
потенциометры, управлявшиеся десятью пальцами и изменявшие напряжение
сигнала каждого фильтра.
Формантные вокодеры
Вокодеры с линейным предсказанием ( липредеры )
Вокодеры с линейным предсказанием – липредеры (linear
prediction) создают отсчеты звукового сигнала на основе предыдущего отсчета
сигнала и вычисленных в передающей части коэффициентов линейного
предсказания (КЛП).Если мы правильно вычислим КЛП то сохраним у
восстановленной речи ее индивидуальные особенности,что очень важно например
в криминалистике да нелишне и при телефонных переговорах.
Для прогноза текущего отсчета речевого сигнала можно
использовать линейно взвешенную сумму предшествующих отсчетов, то есть
предсказываемый отсчет
[pic]
где ak - коэффициенты предсказания (k = 1, 2,..., P).
Ошибка предсказания e (n) = s (n) - s (n).
Kоэффициенты предсказания должны быть такими, чтобы для временного окна
длиной N отсчетов сумма
[pic]
была минимальна. Задача минимизации приводит к системе линейных уравнений
относительно ak . Коэффициенты уравнения оказываются равными значениям
автокорреляционной функции отрезка речи. В липредерах сначала для каждого
кадра длиной 10 - 20 мс вычисляются коэффициенты корреляции, а по ним
находят коэффициенты предсказания (или коэффициенты частной корреляции, или
коэффициенты отражения), которые передаются на приемную сторону вместе с
информацией о функции возбуждения. Коэффициенты линейного предсказания
(КЛП) обретают простой смысл. Передаточная функция фильтра, который имеет
только полюсы
[pic]
где p - порядок фильтра.
Алгоритмы, которые используют коэффициенты частной корреляции (PARtial
CORrelation), называются PARCOR.