Реферат: Сжатие речевого сигнала на основе линейного предсказания

Введение

Одной из задач такогообширного раздела как «Цифровая обработка речевых сигналов», входящего в составнауки, занимающейся цифровой обработкой сигналов или просто обработкой сигналовявляется сжатие или кодирование речевого сигнала (РС). Сжатие РС может быть какбез потерь (архивация), так и с потерями. Причем в последнем случае этокодирование можно подразделить на три вида:

1.       кодированиенепосредственно реализации РС (Wave Form Codec);

2.       измерение,кодирование и передача на приемную сторону параметров РС, по которым уже наприемной стороне производится синтез этого (искусственного) РС. Такие системыназывают вокодерными (Source Codec);

3.       гибридныеспособы кодирования, т.е. сочетание первого и второго способов кодирования. В задачуданной работы входит рассмотрение первого способа кодирования.

Подкодированием подразумевается преобразование РС в некоторый «другой» сигнал,который можно представить с меньшим числом разрядов, что в итоге повыситскорость передачи данных. Одним из видов такого кодирования являетсядифференциальная импульсно-кодовая модуляция (ДИКМ), о которой и пойдет речь вдальнейшем.

Дифференциальная импульсно-кодовая модуляция

В обычнойимпульсно-кодовой модуляции каждый отсчет кодируется независимо от других.Однако у многих источников сигнала при стробировании с частотой Найквиста илибыстрее проявляется значительная корреляция между последовательными отсчетами [1](в частности, источник РС является квазистационарным источником и может относитьсяк рассматриваемым видам источников). Другими словами, изменение амплитуды междупоследовательными отсчетами в среднем относительно малы. Следовательно, схемакодирования, которая учитывает избыточность отсчетов, будет требовать болеенизкой битовой скорости.

Суть ДИКМзаключается в следующем. Предсказывается текущее значение отсчета на основепредыдущих M отсчетов.Для конкретности предположим, что /> означает текущий отсчетисточника, и пусть /> обозначает предсказанное значение(оценку) для />, определяемое как

/>.

Таким образом, /> является взвешенной линейной комбинацией M отсчетов, а /> являются коэффициентами предсказания.Величины /> выбираются так, чтобы минимизироватьнекоторую функцию ошибки между /> и />.Проиллюстрируем вышесказанное на отрезке РС:

/>

/>

Прежде чем идтидальше, рассмотрим виды предсказания. «Линейное» предсказание означает, что /> является линейной функцией предыдущихотсчетов; при «нелинейном» предсказании – это нелинейная функция. Порядокпредсказания определяется количеством используемых предыдущих отсчетов. Тоесть, предсказание нулевого и первого порядка является линейным, а второго иболее высокого порядка — нелинейным. При линейном предсказании восстановитьсигнал значительно проще, чем при нелинейном предсказании. Будем рассматриватьтолько линейное предсказание.

Виды линейных предсказаний

1.                      Предсказание нулевого порядка.

В этом случаедля предсказания текущего отсчета используется только предыдущий отсчет РС,т.е.

/> => />

/>

2.                      Предсказание первого порядка (линейная экстраполяция).

В этом случаедля предсказания текущего отсчета используется не только предыдущий отсчет, нои разница между предпоследним и последним отсчетами, которая суммируется кобщему результату:

/> => />

/>

 

Коэффициенты линейного предсказания (получение ирасчет)

Формированиесигнала ошибки при использовании линейного предсказания эквивалентнопрохождению исходного сигнала через линейный цифровой фильтр. Этот фильтрназывается фильтром сигнала ошибки (ФСО) или обратным фильтром.

Обозначимпередаточную функцию такого фильтра как А(z):

/>

/>,

где E(z) и X(z) – прямоеz — преобразование от сигнала ошибки и входного сигналасоответственно.  

На приемнойстороне при прохождении сигнала ошибки через формирующий фильтр (ФФ) мы видеале получим исходный сигнал. Обозначим передаточную функцию формирующегофильтра как K(z).

Т.е.передаточная функция K(z) связанас A(z) следующим соотношением:

/>.

Рассмотрим последовательносоединенные кодер и декодер:

/>

При условии,что A(z)K(z) = 1, будет обеспечено абсолютно точное восстановлениесигнала, т.е. />. Но это видеале, на самом деле такого быть не может по причинам, о которых скажем ниже.

Для примера, найдемпередаточные функции ФСО и ФФ для разных типов линейного предсказания.

а) предсказание нулевого порядка;

/>; />;

Получили, чтотакой фильтр неустойчив (граница устойчивости), так как полюс находится на единичнойокружности.

б) предсказание первого порядка;

/>;/>;

Получили, что итакой фильтр тоже неустойчив (граница устойчивости).

в) общая форма предсказания;

Было получено, что />=> />.

/>; />;

На основании рассмотренныхпримеров можно сделать следующие выводы.

Фильтр сигналаошибки всегда является КИХ фильтром, а формирующий фильтр – БИХ фильтром.Коэффициенты передаточной функции ФФ, которые, как уже было сказано выше,являются коэффициентами линейного предсказания (LPC: Linear Prediction Coefficients), должны быть такими,чтобы:

1.                      формирующий фильтр был устойчивым;

2.                      ошибка /> была минимальна.

Для полученияпередаточной функции ФФ, наиболее точно воспроизводящего частотнуюхарактеристику голосового тракта для данного звука, следует определятькоэффициенты передаточной функции /> исходя из условиянаименьшей ошибки линейного предсказания речевого сигнала (по условию минимумасреднего квадрата ошибки).

Запишемвыражение для оценки дисперсии сигнала ошибки, которую надо свести к минимуму:

/>; />;

Получили, что /> — функция нескольких переменных.Продифференцируем ее и приравняем частные производные для нахожденияэкстремума:

/>; />,

где /> — символ Кронекера.Следовательно: />;

/>; => />;

/>

Получили нормальные уравнения илиуравнения Юла-Волкера. Введем обозначение: />, где /> - есть ни что иное, как корреляционнаяфункция. Перепишем полученное выражение с учетом принятого обозначения:

/>   (*)

Для вычисления функции /> необходимо определить пределы суммированияпо n: />, где N– количество отсчетов в сегменте РС, а M — количествоотсчетов, необходимых для расчета коэффициентов предсказания (M + 1)-го отсчета. Значит, первое предсказанное значениезапишется так: />, где  n= M + 1.

Получили:

/>;

Обозначим nk = j  => n = k + j, nm = k + jm <=> nm = i + j, где i = km. Следовательно:

/>

Таким образом,получается выражение, имеющее структуру кратковременной ненормированной АКФ, нозависящей не только от относительного сдвига последовательности i, но и от положения этих последовательностей внутрисегмента РС, которые определяются индексом k,входящим в пределы суммирования. Такой метод определения функции /> называется ковариационным.

Выражение (*)представляет собой систему линейных алгебраических уравнений (СЛАУ)относительно />, у которых все коэффициенты различны.

Прииспользовании ковариационного метода получаются несмещенные оценки коэффициентовлинейного предсказания, то есть E{ak}=ak.ист, где ak.ист – истинные значения коэффициентовлинейного предсказания.

Другой способопределения коэффициентов системы (*) состоит в том, что вместо функции /> используется некоторая другая функция />, которая определяется как

/>,

где /> -ненормированная кратковременная АКФ. Поскольку определение функции /> сводится к расчету АКФ, то такой методназывается автокорреляционным. При использовании этого метода мы получаемсмещенные оценки коэффициентов линейного предсказания (однако, при M << N смещение пренебрежимомало).

Перепишем СЛАУ(*) с учетом введенной функции />:

/>.

/>

/>.

Прииспользовании автокорреляционного метода вся информация о сигнале, необходимаядля определения коэффициентов линейного предсказания, содержится вкратковременной ненормированной АКФ B(i).

Распишем полученнуюсистему линейных алгебраических уравнений (СЛАУ) в явном виде:

/>

Перепишем ее вматричной форме:

/>;

Свойстваматрицы коэффициентов системы:

1)       матрицасимметрична;

2)       матрицаТеплица (матрица, в пределах каждой диагонали которой все элементы равны);

Для решения СЛАУс такой матрицей используется алгоритм Левинсона – Дурбина, который требуетменьших вычислительных затрат, чем стандартные алгоритмы. Он выглядит следующимобразом.

Начальныезначения для алгоритма:

/>

Алгоритм:

/>

Решетчатый фильтр сигнала ошибки предсказания

В предыдущемразделе приводилась процедура вычисления коэффициентов предсказанияЛевинсона-Дурбина. В этой процедуре, как промежуточные величины, используютсянекоторые коэффициенты km, которые называютсякоэффициентами отражения. Их физический смысл заключается в следующем.Голосовой тракт человека представляет собой трубу, состоящую из секций,соединенных последовательно, но имеющих разный диаметр. При прохождениизвуковой волны через такую систему, возникают отражения на стыках секций, т.к.каждый стык является неоднородностью. Коэффициент отражения характеризуетвеличину проходимости стыка двух секций (сред). Коэффициент отражения равен:

/>.

Поясним егосмысл на следующем рисунке («жирным» показана m – секцияголосового тракта):

/>

Если rm = -1, то произойдет обрыв в цепи передачисигнала (обрыв прямой ветви). Такого быть не должно, поэтому необходимо следитьза этим.

Модельакустических труб может быть представлена в виде фильтра, имеющего решетчатую(или лестничную) структуру. Основными параметрами такого фильтра являютсякоэффициенты отражения.

Системаакустических труб – резонансная система, поэтому если фильтр без потерь, то наего АЧХ будут наблюдаться разрывы (всплески в бесконечность). Реально на местеэтих всплесков будут резонансные пики, и резонансные частоты таких пиковназываются формантными. Обычно в реальных голосовых трактах человека формантныхчастот (или формант) не более трех. Более подробно о коэффициентах отражения ирешетчатых фильтрах можно прочитать в [2, глава 3].

Так каккоэффициенты отражения и коэффициенты предсказания вычисляются в рамках одной итой же процедуры алгоритма Левинсона-Дурбина, то они могут быть выражены другчерез друга. Приведем здесь эти алгритмы.

Прямая рекурсия(коэффициенты отражения à коэффициенты предсказания):

/>

Обратнаярекурсия (коэффициенты предсказания à коэффициенты отражения):

/>

Как уже былосказано, фильтры сигнала ошибки представляют собой КИХ фильтры или нерекурсивныефильтры, что означает отсутствие ветвей обратной связи. Системы с КИХ такжемогут обладать строго линейной ФЧХ. Линейность ФЧХ является очень важнымобстоятельством применительно к РС в тех случаях, когда требуется сохранитьвзаимное расположение элементов сигнала. Это существенно облегчает задачу ихпроектирования и позволяет уделять лишь внимание аппроксимации их АЧХ. За этодостоинство приходится расплачиваться необходимостью аппроксимации протяженнойимпульсной реакции в случае фильтров с крутыми АЧХ [2].

Изобразим граффильтра, имеющего решетчатую структуру, на примере фильтра 3–го порядка:

/>

В отличие отформирующего фильтра этот фильтр имеет один вход и два выхода:

1) ei –последовательность отсчетов сигнала ошибки прямого линейного предсказания;

2) bi – последовательность отсчетов сигналаошибки обратного линейного предсказания.

/>

/>

Важность bi определяется тем, что по нему совместно ссигналом ошибки ei могут быть оцененыкоэффициенты отражения.

/>,

где N– количество отсчетов в сегменте.

Полученнаяформула для расчета коэффициентов отражения имеет также другой физическийсмысл. Это не что иное, как коэффициент корреляции между последовательностьюотсчетов сигнала ошибки прямого и обратного линейных предсказаний.

Приведем такжерекуррентные разностные уравнения решетчатого фильтра сигнала ошибки:

/>

/>выход фильтра;

Начальные условия для этойрекуррентной процедуры:

/>

Реализация ДИКМ

Имея методопределения коэффициентов предсказания, рассмотрим блок-схему практическойсистемы ДИКМ, показанную ниже.

/>

В этой схемепредсказатель стоит в цепи обратной связи, охватывающей квантователь. Входпредсказателя обозначен />. Онпредставляет собой сигнальный отсчет />, искаженныйв результате квантования сигнала ошибки. Выход предсказателя равен:

/>; (**)

Разность /> является входом квантователя, а /> обозначает его выход. Величина квантованнойошибки предсказания /> кодируется последовательностьюдвоичных символов и передается через канал в пункт приема. Квантованная ошибка /> также суммируется с предсказанной величиной />, чтобы получить />.

В месте приема используетсятакой же предсказатель, как на передаче, а его выход /> суммируетсяс />, чтобы получить /> (см. рис.ниже).

/>

Сигнал /> является входным воздействием дляпредсказателя и в то же время образует входную последовательность, по которой спомощь ЦАП восстанавливается сигнал x(t). Использование обратной связи вокруг квантователяобеспечивает то, что ошибка в /> - просто ошибкаквантования /> и что здесь нет накопления предыдущих ошибокквантования при декодировании. Имеем

/>

Следовательно, />. Это означает, что квантованный отсчет /> отличается от входа /> ошибкойквантования /> независимо от использования предсказателя.Значит, ошибки квантования не накапливаются.

В рассмотреннойвыше системе ДИКМ оценка или предсказанная величина /> отсчетасигнала /> получается посредством линейной комбинациипредыдущих значений />, k= 1, 2, …, M, как показано в формуле (**). Улучшениекачества оценки можно получить включением в оценку линейно отфильтрованныхпоследних значений квантованной ошибки.

Конкретно,оценку /> можно выразить так:

/>,

где {/>} – коэффициенты фильтрадля квантованной последовательности ошибок />.Блок-схемы кодера на передаче и декодера на приеме приведены ниже.

/>

/>

Здесь дваряда коэффициентов {/>} и {/>} выбираются так, чтобы минимизироватьнекоторую функцию ошибки />, напримерсреднеквадратическую ошибку.

Адаптивная дифференциальная импульсно-кодоваямодуляция

Многиереальные источники (например, источники РС), как уже было сказано выше,являются квазистационарными по своей природе. Одно из свойствквазистационарности характеристик случайного выхода источника заключается втом, что его дисперсия и автокорреляционная функция медленно меняются современем. Кодеры ИКМ и ДИКМ, однако, проектируются в предположении, что выходисточника стационарен. Эффективность и рабочие характеристики таких кодеровмогут быть улучшены, если они будут адаптироваться к медленно меняющейся вовремени статистике источника. Как в ИКМ, так и в ДИКМ ошибка квантования />, возникающая в равномерном квантователе,работающем с квазистационарным входным сигналом, будет иметь меняющуюся вовремени дисперсию (мощность шума квантования).

Одноулучшение, которое уменьшает динамический диапазон шума квантования, — этоиспользование адаптивного квантователя. Другое – сделать адаптивнымпредсказатель в ДИКМ. При этом коэффициенты предсказателя могут время отвремени меняться, чтобы отразить меняющуюся статистику источника сигнала. Иполученная СЛАУ, для решения которой используется алгоритм Левинсона – Дурбина,остается справедливой и с краткосрочной оценкой автокорреляционной функции B(i) (при принятыхобозначениях B(i)– уже кратковременная АКФ), поставленной вместо оценки функции корреляции поансамблю. Определенные таким образом коэффициенты предсказателя могут бытьвместе с ошибкой квантования /> переданы приемнику,который использует такой же предсказатель. К сожалению, передача коэффициентовпредсказателя приводит к увеличению необходимой битовой скорости, частичнокомпенсируя снижение скорости, достигнутое посредством квантователя с немногимибитами (немногими уровнями квантования) для уменьшения динамического диапазонаошибки />, получаемой при адаптивном предсказании.

В качестве альтернативыпредсказатель приемника может вычислить свои собственные коэффициентыпредсказания через /> и />, где

/>;

Еслипренебречь шумом квантования, /> эквивалентно />. Следовательно, /> можноиспользовать для оценки АКФ B(i) в приемнике, и результирующие оценки могут бытьиспользованы в СЛАУ вместо B(i) при нахождении коэффициентов предсказателя. Придостаточно большом числе уровней квантования разность между /> и /> очень мала.Следовательно, оценка B(i),полученная через />, может быть использована дляопределения коэффициентов предсказателя. Выполненный таким образом адаптивныйпредсказатель приводит к низкой скорости кодирования данных источника.

Вместоиспользования блоковой обработки для нахождения коэффициентов предсказателя {/>}, как описано выше, мы можем адаптироватькоэффициенты предсказателя поотсчетно, используя алгоритм градиентного типа,который мы и рассмотрим.

Основноепреимущество такого метода адаптации – это отказ от решения СЛАУ, чтозначительно уменьшает вычислительные затраты.

Запишемоценку среднего квадрата ошибки предсказания:

/>

Изобразим два графика,объясняющих функциональную зависимость /> водномерном случае (/>) и в двумерном случае (/>):

/>

Очевидно, чтов общем случае, т.е. при /> фигура, полученная придвух коэффициентах предсказания, превратится в многомерный параболоид. Цельградиентного метода состоит в том, чтобы найти такой вектор аорt, при котором  функция s2будет иметь наименьшее значение, т.е. после определенных итераций необходимодостичь вершины этого параболоида. Алгоритм такого градиентного метода выглядиттак:

/>,

/>

где i – номер шага, μ – шаг алгоритма.

При малом шагеалгоритма мы практически полностью устраняем возможность расхождения алгоритма,но при этом проигрываем в скорости сходимости или в скорости нахождениякоэффициентов предсказателя. И наоборот.

Следуетсказать, что такой алгоритм сходится при очень большом количестве итераций, вобщем случае, при количестве итераций стремящемся к бесконечности. Поэтомунеобходимо также перед началом вычислений задаться допустимой погрешностью,которая нас может устроить.

Найдем частнуюпроизводную:

/>

Тогда алгоритмадаптации коэффициентов линейного предсказания примет следующий вид:

/>

Иллюстрации

Ниже приводятся иллюстрации одногоиз опытов, проделанного в лабораторной работе.

Обрабатываемый сегмент речевогосигнала:

/>

Ошибка предсказания:

/>

Коэффициенты отражения иИмпульсная характеристика формирующего фильтра:

/>

Передаточные функции ФФ и ФСО иДиаграмма полюсов:

/>

Полученный (синтезированный)сегмент РС:

/>

Ошибка предсказания:

/>

В проделаннойработе проводились исследования влияния разрядности коэффициентов предсказания /отражения и сигнала ошибки на синтезированный сигнал в системе с АДИКМ,полученный по этим величинам на приемной стороне декодером. Как уже ясно изназвания коэффициентов, исследовались и сравнивались два типа фильтров:стандартный и решетчатый.

В результатеможно сделать следующие выводы.

Решетчатыйфильтр всегда устойчив и коэффициенты отражения всегда меньше 1, потому чтокоэффициенты отражения являются также и коэффициентами корреляции. Устойчивостьрешетчатого фильтра инвариантна к разрядности коэффициентов отражения.Разрядность коэффициентов отражения сказывается лишь на форме передаточнойфункции и, как следствие, на диаграмме полюсов и импульсной характеристике, ана форму синтезированного РС влияет очень незначительно, при условиипостоянной, довольно высокой (12) разрядности сигнала ошибки.

В случаефиксированной, довольно низкой, разрядности коэффициентов отражения (4) иуменьшающейся разрядности сигнала ошибки до значения (6), ухудшение синтезированногоРС незначительно. При числе разрядов меньше (6) уже начинают наблюдатьсязначительные искажения. Если сравнить эти опыты с опытами, проделанными надстандартным фильтром, то для того же сегмента и при значении разрядности (8), наблюдаласьнеустойчивость синтезированного фильтра и, как следствие, полное искажение РС.

В случае, еслидва фильтра были устойчивы и разрядность их коэффициентов, а также разрядностьсигнала ошибки была одинаковой, то синтезированный сигнал оказывалсяидентичным.

Следует такжеотметить не только влияние разрядности коэффициентов предсказания / отраженияна синтезированный сигнал, но и, прежде всего, саму реализацию исходногоаналогового РС, как основы, по которой рассчитываются сами коэффициенты.Поэтому необходимо иметь запас по разрядности коэффициентов предсказания, чтобыстандартный фильтр для некоторых реализаций не оказался неустойчив (решетчатыйфильтр устойчив в любом случае). Экспериментально был подобран вариант выбораразрядности коэффициентов предсказания (12), а сигнала ошибки (8) (разрядностькоэффициентов отражения не играет почти никакой роли). Это достаточно хорошоразличимая речь.

Заключение

В данной работедостаточно подробно изложен метод цифрового сжатия речевого сигнала на основелинейного предсказания. Показано, что существуют несколько подходов к решениюэтой задачи. Приведены иллюстрации из проделанной лабораторной работы со всеминеобходимыми комментариями и выводами.

Список литературы

1.     Прокис Дж., «Цифровая связь», — М: Радио и связь, 2000.

2.     Рабинер Л.Р., Шафер Р.В., «Цифровая обработка РС», — М: Радио и связь,1981.

3.     Конспект лекций по курсу «Цифровая обработка РС», 2004.

еще рефераты
Еще работы по радиоэлектронике