Реферат: Информационный критерий оценки фонетической неопределенности

2.2.2.Информационный критерий оценки фонетической

неопределенности. Прираспознавании устной речи необходимо стремиться к тому, чтобы все фонемыклассифицировались правильно, поэтому нас интересует распознавание полнойпоследовательности фонетических единиц,составляющих высказывание. При этом основным источникомнеопределенности при распознавании речи является сам акустическийсигнал. Еще большую неопределенность представляет параметрическое описание речевой волны. Рассмотримнеопределенности акустическогосигнала и приведем меру оценкифонетической неопределенности. Используя эти мерь, можно оценить лексическую и фразеологическую неопределенности.Слитная речь расчленяется на последовательность сегментов по признакам способа образования звуков. К этим признакам добавляютсяпризнаки места образования, которые изменяются непрерывно как внутри сегментов, так и через их границы [91,97]. С некоторыми дискретнымиединицами-звуками речи — фонемами или квазифонемамисегменты связаны таким образом, что смысловые единицы речи (слова)представляются цепочкой фонем.

Большинствосистем автоматического распознавания речи [79] преобразует речевой сигнал в такую фонемную цепочку, котораязатем сравнивается с ожидаемыми в слове звуками. Процесс преобразования речевого сигнала впоследовательность фонем включает нахождение признаков, сегментацию и маркировку сегментов.

Опишем модель фонетическойнеопределенности, позволяющую оценивать результаты неправильного распознаванияфонем. Далее будем использовать матрицу ошибок распознавания фонем и фонетическую структуру слов словаряпри оценке лексической неопределенности.

Лексическая неопределенность будет иметьместо тогда, когда слова неверноклассифицируются из-за близости их фонетической структуры, т.е.последовательности параметров, определяющих эту структуру, на конкурирующих словах. Например, в словах«слезать» и «срезать» первичные параметры звуков, входящих в эти слова, сходны. Когда оба эти слова входят водин и тот же словарь, их точная классификация затруднена, поэтому их можно считать лексическинеопределенными. В реальных системах,если позволяет задача, следуетподбирать слова, чтобы такой ситуации не возникло. Приведем критерии сложностисловаря для того, чтобы можно было оценить степень различимости словарей [63].

Рассмотрим распознавание речи какпроцесс передачи речевой информациичерез канал с шумом и оценим информацию, теряющуюся в канале. Потерянная информация является мерой неопределенности или сложности распознавания фонем. В идеальномканале число входных идеальных, полученных после сегментации высказывания экспертами-фонетистами, и выходных фонетических единиц должно быть одинаковым, а последовательность фонем на выходе должна соответствовать входной последовательности. Если же этоусловие не соблюдается, в канале теряется информация, и в зависимостиот величины потерь можно говорить о большейили меньшей неопределенности классификации фонем. При практической оценкефонетической неопределенности в даннойработе использовались система признаков [73] и алгоритм сегментации речи на семь типов сегментов:

V -

гласный, Т — переходный, М — сонорный, L — низкочастотный, Н — высокочастотный, R — шумный, П — пауза. Затем алгоритммаркировки ставил в соответствие каждому сегменту некоторый фонетический символ, используяаприорно полученные гистограммы параметров. От надежности маркировкисегментов во многом зависит точность работы CPP.

Так как СРР рассматривается здесь как канал передачи информации, предположим, что имеются R возможных входных символов алфавита А и s возможных выходовалфавита В. Таким образом, СРР описывается канальнойматрицей.

Канал передачи информации, используемой для описания системы распознаванияречи, представленной цепочкой фонем, преобразует не зашумленнуюпоследовательность звуков в выходную последовательность «машинных „фонем, содержащую ошибки пропуска, вставки слияния и замены звуков.

Пусть элемента входного фонетического алфавита {Ai} появляются на входе с некоторойаприорной вероятностью p(A1 ),р(A2 ),.,p(Ar),а элементы алфавита {Bj} на выходе — свероятностью P(B1,), p(B2),...,р(Bs). Как отмечено ранее, работу канала передачивходного алфавита {Ai}характеризует канальная матрица, поэтому

P{Bj}=∑ri=1P(Ai)*P(Bj/Ai)

Символ

0,89

0,1

0,01

0,15

0,75

0,1

0,01

0,1

0,89

2.2 Примерматрицы условных вероятностей распознавания изолированных звуков(2.2)

Информация I(Ai,Bj), получаемая от канала, когдана его вход поступила фонема Ai , а на выходе распознавалась как Bj,, определяется [91]

I(Ai,Bj)=LOG(P(Ai/Bj)/P(Ai)) (2.3)

Средняяинформация, получаемая на выходе канала с потерями при передаче (распознавании)входного алфавита фонем A(Ai), который распознается какалфавит B=(Bj), будет

I(A, B)=∑A, BP(Ai,Bj)*I(Ai,Bj)= ∑A, BP(Ai,Bj)*LOG2 (P(Ai/Bj)/P(Ai)=

=-∑A, BP(Ai,Bj)*LOG2 P(Ai)+ ∑A, BP(Ai,Bj)*LOG2 (P(Ai/Bj);

I(A, B)=H(A)+∑A, BP(Ai,Bj)*LOG2 (P(Ai/Bj); (2.4 )

Отметим, что Н(A)-энтропия, характеризующая степень неопределенности входного алфавита А=(Ai) . Из(2.4) получаем,что

H(A)- I(A, B)=-∑A,BP(Ai,Bj)*LOG2 P(Ai/Bj)=

=-∑A, BP(Ai,Bj)*P(Bj)LOG2 P(Ai/Bj)=-∑BP(Bj)∑AP(Ai/Bj)LOG2 P(Ai/Bj)=H(A/B)

Н(А/B)-

апостериорная энтропия входного алфавитафонем, которая

характеризует меру информации, теряемой в системераспознавания при передаче входного алфавита (Ai) . Апостериорная энтропия и является мерой, оценивающей сложность входногословаря для автоматического распознавания при фиксированном параметрическом описании.

При наличиизначений энтропии входного алфавита фонем можно вычислить размер (объем),равный 2H(A), а значения 2 H|(A/B) характеризуют среднее количество возможныхальтернативных (конкурентных) элементов алфавита (Ai) на входе СРР после того, как на выходе получили множество (Bj), т.е. меру сложности распознавания входного алфавитафонем. Назовем эту меру эквивалентнымразмером алфавита фонем. Значение 2 H|(A/B) можно назвать энтропийнымкритерием оценки фонетической неопределенности, который является обобщеннойхарактеристикой сложности распознавания алфавита фонем (Ai) данной системы распознавания. Если СРР работает без ошибок, условнаяэнтропия Н(А/В)=О и эквивалентныйразмер алфавита фонем 2 H|(A/B) =1. Естественно, что если Н(А/В)=0, то 2 H|(A/B) =1, а в случае, когда СРР не распознает Н(А/В)=Н(А), то эквивалентныйразмер алфавита фонем равен 2 H|(A) .

Эквивалентныйразмер алфавита фонем дает возможность количественно оценить среднее числовозможных конкурентных фонем (имеющиеблизкие параметрические описания), и для его определения необходимо знатьапостериорные вероятности P(Ai/Bj) входногоалфавита.

Для решенияконкретных проблем автоматического распознавания ограниченных наборов слов всемногообразие фонем можно свести кдвум-трем рабочим фонетическим единицам (например, к классам длительных шумных, звонких и смычных звуков), которые при использовании простой системыпризнаков и несложных алгоритмов распознаваниядают нулевую апостериорную энтропию. Однако при решении задачи распознаванияотносительно сложных словарей и/иди требование надежной фонетическойверификаций произнесенного слова такого количества рабочих фонем сказываетсяявно недостаточно. Работать же с полным набором фонем «ложно из-за ошибоких автоматического распознавания. Поэтому и приходится идти на компромиссные решения — искатькакой-то оптимум при фонетическом описании рабочих словоформ. Эти проблемы будут частичнорассмотрены в п. 2.2.3.

Условныевероятности распознавания фонем P(Ai/Bj), определяющиеэквивалентный размер фонетического алфавита, можно определить несколькимиметодами.

83

Статистическийметод позволяет получать вероятности распознавания фонем, используяреальную СРР. Это осуществляется путемсравнения результата распознавания системы с точной ручной сегментацией имаркировкой речевого сигнала (иди его параметрического представления),поступающего на вход системы распознавания.В результате получается классическая матрица правильной и ошибочнойклассификации входного алфавита фонем.

Акустико-параметрическийметод, когда матрица ошибок классификации фонем получается путем прямогосравнения их параметрического описания. При этом эталон фонемы выбираетсяиз множества реализации данной фонемы.Расстояние между фонемами используется для оценки условных вероятностейошибочной классификации фонем. Точность этого метода зависит от выбранногоэталона и объема исследовательского материала.

Кроме этихметодов, оценку вероятности ошибочной классификации фонем можно произвести на основе моделирования речеобразующего тракта человека [7].

2.2.3. Оценкасложности распознавания слов по их фонетической структуре. Рассмотримнеадаптивную систему распознавания слов как канал передачи информации. Словавходного словаря V=(V1,V2,..,Vr,..,VR) можно представитьпоследовательностью фонетических символов Vr=(Ai1,Ai2,..,Ain), а слова выходного словаря канала W=(W1,W2,..,Ws,..,WS) –цепочками квазифонетическихэталонов Ws=(Bj1,Bj2,…,Bjr), где AiÎ

A, BjÎB – соответственно входной и выходнойалфавит фонем канала; r=1,R; s= 1,S; n = n (r ); l= l(s). Тогда оценку сложности распознавания слов,производимого сравнением входнойреализации с цепочками квааифонетических эталонов, можно осуществить на основании анализа матрицыошибок, подученной при представленииэталонов слов WsÎW поверхностными формами WskÎWs, K=1, Ks каждого выходногослова. Фактически сложностьраспознавания входного словаря V определяется наличием сходных эталонных поверхностных форм Wskвыходного словаря W и частотой встречаемости этих поверхностных форм P(Wsk). Основнаяпроблема при построении матрицы ошибок для каждого словаря заключается в формировании эталонов поверхностных форм WskÎWs , для реализация каждого слова и получения квазифонетического графа f(Ws),учитывающего все поверхностные формы в вероятностями их появления. Все множество квазифонетическихповерхностных форм слова Ws, записать в виде эталонного графа трудно, так как при аппаратурно-программном методе распознавания появляются нетолько поверхностные формы слова, обусловленные особенностями произношения, но и формы, включающие случайные сегменты,маркированные квазифонетическими метками,появление которых связано с не идеальностью автоматической фонетическойсегментации и маркировки нашим аппаратурно-программнымметодом, вызванной, например, изменениеминтенсивности речевого сигнала.

В дальнейшем будем рассматривать влияние двух обстоятельств на формирование эталонных поверхностных форм слов рабочего словаря, учитывая, что поверхностные формы, связанные о особенностями произношения и матрицей ошибок квазифонемной классификации, можно построить вручную (илиавтоматически, используя таблицуакустико-фонологических правил, хранящуюся в памяти, и прилагаемых к базовой квазифонетической цепочке), а поверхностные формы

Wsk . , обусловленные особенностями аппаратуры выделения информативных признаков, можно получить, анализируя статистику реализации квазифонетическихцепочек слов рабочего словаря,полученных с помощью ЭВМ. Получение этой статистики не всегда обязательно, особенно если рассматриваются слова, контрастные по своим акустическим свойствам.Предварительную оценку сложностираспознавания слов можно сделатьаналогично оценке сложности фонетического алфавита — по фонетическойструктуре слов, вычисляя апостериорнуюсловесную неопределенность и не исследуястатистики реализации.

Все эталоны слов Wsk рабочих словарей должны быть представлены последовательностьюмаркированных фонетическими меткамиотрезков, где квазифонемы должныделиться на опорные, обязательные для данного слова(определяющие базовую форму и, как Правило, присутствующие во всехповерхностях), и «вспомогательные», трудно классифицируемые. Трудноклассифицируемые сегменты должны бытьрасчленены (хотя бы грубо) на несколько квазифонетических элементов, если длина этих сегментоввыше пороговой (это делает на первом этапе человек на основании знанийфонетической структуры возможных форм каждого слова). Опорными сегментами словаследует считать маркированные отрезки которые при их маркировке квазифонетическими метками допускают суммарную ошибку нижеэвристически определенного порога.

При автоматическом распознавании выбор эталонов(из словаря эталонов) должен быть в первую очередь обусловлен наличием в поступившей на вход реализации опорных, обязательныхмаркированных сегментов о. с учетом того, что засчет не идеальности сегментацииобщее число сегментов входной реализацииможет не совпадать с возможным числом сегментов эталонного графа, за счет не опорныхсегментов, образующихся или выпадающих случайно.

Ошибки классификации дают появление «путающихся»поверхностных форм (представленных последовательностью казифонемыдля различных слов словаря. Будем считать, что матрица ошибок прираспознавании слов априори формируетсятаким образом, что (при сходстве поверхностных форм различных слов словаря) болеечасто встречающиеся поверхностные формы слов одного класса считаютсяотносящимися к словам только этого класса, а редко встречающиеся сходные поверхностные формы для других слов словарядают ошибки распознавания. Впрочем, используя синонимию или семантико-синтаксическиеограничения при распознавании пословнопроизносимых фраз. Всегда следует добиваться того, чтобы подобные случаи не происходили (трудности представляютслова, входящие в одну семантико-синтаксическую группу,которые нельзя заменить синонимами,например, названия цифр).

Следует отметить, что принятые решения о принадлежности поступившей на вход реализации к тому или иному классу следует делать но эталонам с одинаковым числом опорных сегментов и сучетом верификации слова, всякий раз используя эвристически выбранные пороги достоверности, в общем случае разные для различныхслов. Так, для принятия окончательногорешения о принадлежности входнойреализации

Vx к классу Ws необходимо выбрать два наиболее вероятных кандидата Ws1 И Ws2, которымсоответствуют вероятности P(Vx/Ws1) и P(Vx/Ws2), и проверить,удовлетворяются ли условия:

P(Vx/Ws1)>

Δ s 1;

P(Vx/Ws1)-P(Vx/Ws1))>

Δ s1s2

где Δs1 — пороговое значениевероятности того, что входная реализация соответствует слову Ws1, Δs1s2 — пороговые значения разности условных вероятностей принадлежности входнойреализации Vxклассам Ws1 и Ws2, при которых принимается решение о классификации Vx.

Пороговые значенияΔs1, Δ s1s2 выбираются экспериментально по заданной системе используемых фонетическихпризнаков, а также требуемых точности распознавания и вероятности отказовот распознавания. В случае, если подбором порогов заданные требования к системе распознавания не удается выполнить,следует провести более детальный анализне опорных сегментов, иди попытатьсяулучшить систему признаков. В рядеслучаев для удовлетворения заданных в системе требований следуетиспользовать синонимию. Рассмотрим далее более конкретно, как оценить лексическую неопределенность словаря V языка речевого общения неадаптивной системыавтоматического распознавания. Аналогично тому, как оцениваласьнеопределенность алфавита фонем, можно определить сложность распознаваниявходного словаря V, состоящего из R слов, и вычислить эквивалентный размервходного словаря. При этом необходимо получить вероятности

P(Vr/Ws) близостиобластей признакового описания слов VrÎ V, WsÎ W, r= 1R, s= 1S, которыепредставляются в виде последовательности фонетических единиц (фонетическойтранскрипции слов). Далее оценим вероятности P(Vr/Ws).

Как уже отмечалось, на основелингвистических знаний, эталоны слов WsÎ

W представляются в видафонетических ( вернее, квазифонетических) цепочек,совокупность которых описывается графом с конечным числом состояния, а каждаяфонема — признаками способа и места образования. Слову Ws соответствует одна илинесколько траекторий (цепочек поверхностных форм) на графе (количествотраекторий зависит от метода произношения и характеристики диктора). Направленныйграф f (Ws) представляет все фонемы эталона слова WsÎ W , который имеет Wsk, поверхностных форм, K= 1,2,3..,Ks; каждаяповерхностная форма WskÎWsсодержит L=L(s,k) опорных квазифонемы ,

Необходимоотметить, что количество опорных сегментов в поверхностных формах словвыходного словаря различно, т.е. предел изменения индекса L зависит как от номераслова, так и от его поверхностнойформы L=L(s,k).

Для того, чтобыосуществить оценку неверной классификации слов словаря на стадии лексическогораспознавания по фонетической структуре этих слов, выполним операцию разбиениявсех поверхностных форм эталонов словна М фонетических групп с одинаковым количеством опорных сегментов L=L(s). При этом слова, поверхностные формы которых принадлежатразным группам, не будут путаться между собой, поскольку их легкоклассифицировать по числу «опорных» фонем, составляющих слова.

Вообще говоря,можно представить себе фонетические группы эталонных поверхностных форм, отличающиеся не только числом опорныхфонем, но и их характером, а такжепорядком следования. Если учесть все три фактора, позволяющие разбить эталонына существенно большее число фонетических групп, то дальнейшие рассуждения можно отнести к каждой из этих групп. Для простоты,однако, будем считать, что мы имеем М фонетических групп, в каждой из которых одинаковое число опорныхсегментов. В практических задачах при разбиении на группы следует учитыватьвсе эти факторы, однако необходимо строго ограничивать число различных опорных сегментов, выбирая лишь те,которые не путаются между собой и характеризуются групповыми признаками местаобразования - ударные гласные, смычные,фрикативные [81,80] .

Итак, допустим,что существуетM фонетических групп слов W1,W2,W3,…,Wn,…,Wm, в каждой из которых одинаковое число опорных квазифонемы.Общее число эталонов W=Un=1mWm, а количество фонем, составляющих: слова (длинафонетической цепочки) каждой группы,обозначим через Lm; m=1, M.

Представляятаким образом слова словаря на входе СРР и используя матрицы ошибочной классификации фонем, составляющих слова

P(a/b)=[Pij], (2.5)

можно оценить вероятности Pm(Vr/Ws) спутывания поверхностных форм слов внутри каждой группыслов следующим образом:

Pm (Vr/Ws)=П<img src="/cache/referats/16664/image002.gif" v:shapes="_x0000_i1025"> (2.7)

ГдеT=1,2,..,Tmдлина фонетической цепочки группы слов Wm, ArtÎ

Vr ,

BstÎ

Ws… В общем случае одно и то же слово Ws может иметь Ks, поверхностных форм, имеющих разноечисло фонетических элементов ипопадающих в разные группы слов Wm . Поэтому общую условнуювероятность «спутывания» слов словаря определим

P(Vr/Ws)=<img src="/cache/referats/16664/image004.gif" v:shapes="_x0000_i1026"> (2.8)

Для определения потери информации в СРР, котораярассматривается как канал передачи информации, в случае распознавания словиспользуем выражение

I(V/W)=-<img src="/cache/referats/16664/image006.gif" v:shapes="_x0000_i1027"><img src="/cache/referats/16664/image008.gif" v:shapes="_x0000_i1028">(2.9)

Тотогда 2

I=(V/W)определяет эквивалентный размер словаря — число альтернативных слов на входе системы распознавания, а 2I=(V) - фактический объем входного словаря, где

I(V)=-<img src="/cache/referats/16664/image010.gif" v:shapes="_x0000_i1029"> , (2.10)

Этивыражения, аналогичные формулам (2.4), (2.5), оценивающим фонетическуюнеопределенность, являются критерием оценки лексической неопределенности. Они определяют сложность распознаваниясловаря и позволяют судить о качестве СРР. При автоматической маркировке,наряду с ошибками неверной классификации фонем, существуют, как уже отмечалось,ошибки неверной сегментации, приводящие к слиянию отрезков, соответствующихсмежным фонемам, в один сегмент илирасчленению отрезка, соответствующего одной фонеме, на несколько смежных фонемразных классов. При выбореальтернативных слов словаря надо следить за тем, чтобы неприятности такого рода не вызывалиподобия последовательностей фонетических единиц, соответствующих разнымсловам. Для этого необходимоиспользовать матрицы, отражающие возможные варианты сегментации слов словаря и частотывстречаемости тех или иных вариантов сегментации, соответствующих различитповерхностным формам слов. Так как информация о словах, содержащихся в фонемах,избыточна, то часто при оценке различимости слов словаря вполне достаточно использовать опорныефонемы, допускающие минимум ошибок расчленения и слияния. Поэтому в формуле(2.7) для приближенной оценки спутывания слов необходимо в первую очередь использовать вероятности ошибочногораспознавания таких опорных фонем,которые в данном слове не дают ошибок слияния и расчленения.

еще рефераты

Еще работы по программированию, базе данных

Реферат по программированию, базе данных

Индексированные элементы управления

29 Августа 2013

Реферат по программированию, базе данных

Билеты по Windows и Word

29 Августа 2013

Реферат по программированию, базе данных

Java и MySQL

29 Августа 2013

Реферат по программированию, базе данных

Записная книжка на Delphi 7

29 Августа 2013