Реферат: Информационный критерий оценки фонетической неопределенности

2.2.2. Информационныйкритерий оценки фонетическойнеопреде­ленности. При распознавании устной речи необходимо стремиться  к тому, чтобы  все фонемыклассифицировались правильно, поэтому нас интересует распознавание полнойпоследовательности  фонетических единиц, составляющих высказывание.  При  этомосновным источником неопределенности  при  распознавании речи является самакустичес­кий сигнал. Еще большую неопределенность представляет параметри­ческое описание речевой волны. Рассмотрим неопределенности  аку­стического сигнала  иприведем меру оценки фонетической неопре­деленности. Используя эти  мерь, можнооценить лексическую и фра­зеологическую неопределенности. Слитная речьрасчленяется на пос­ледовательность сегментов  по  признакам способа образованиязву­ков.  К этим признакам добавляются признаки места образования, ко­торыеизменяются непрерывно  как внутри сегментов, так и черезих границы [91,97]. С некоторыми дискретными единицами-звуками ре­чи — фонемами иликвазифонемами сегменты связаны таким образом, что смысловые единицы речи(слова) представляются цепочкой фонем.

Большинство систем автоматическогораспознавания речи  [79] преобразует речевой сигнал  в  такую фонемную цепочку,которая за­тем сравнивается  с  ожидаемыми  в слове звуками. Процесс преобразования речевого сигнала  в последовательность фонем включает нахождениепризнаков, сегментацию  и  маркировку сегментов.

Опишеммодель фонетической неопределенности, позволяющую оце­нивать результатынеправильного распознавания фонем. Далее будем использовать матрицу ошибокраспознавания фонем  и фонетическую структуру слов словаря при  оценкелексической неопределенности.

Лексическаянеопределенность будет иметь место тогда,  когда слова неверно классифицируютсяиз-за близости  их фонетической структуры, т.е. последовательностипараметров, определяющих   эту структуру,  на  конкурирующих словах. Например,в словах «слезать» и «срезать»  первичные параметры звуков,входящих  в  эти  слова, сходны. Когда оба эти слова входят в один и тот жесловарь, их точ­ная классификация затруднена, поэтому  их  можно считать  лекси­чески неопределенными.  В реальных системах, если позволяет  зада­ча,следует подбирать слова, чтобы такой ситуации не возникло. При­ведем критериисложности словаря для  того, чтобы можно было  оце­нить степень различимостисловарей   [63].

Рассмотримраспознавание речи как процесс передачи  речевой информации через канал  с шумом и оценим информацию,  теряющуюся в  канале. Потерянная информацияявляется мерой неопределенности или  сложности распознавания фонем. В идеальномканале число вход­ных идеальных, полученных после сегментации высказывания экспер­тами-фонетистами, и  выходных фонетических единиц должно быть оди­наковым, а  последовательность фонем  на  выходе должна соответ­ствовать входнойпоследовательности. Если  же  это условие не соб­людается,  в  канале теряетсяинформация, и в зависимости от величины потерь можно говорить  о  большейили меньшей неопределенно­сти классификации фонем. При практической оценкефонетической не­определенности  в данной работе использовались система   призна­ков  [73]  и алгоритм сегментации речи  на семь типов сегментов:

V  -гласный,  Т  — переходный,  М  - сонорный, L - низкоча­стотный,  Н - высокочастотный,  R - шумный,  П  - пауза.  Затем алгоритм маркировки ставил   в соответствие каждому сегменту  не­который фонетический символ, используяаприорно полученные гисто­граммы параметров.  От  надежности маркировкисегментов во многом зависит точность работы CPP.

Таккак СРР рассматривается здесь  как канал передачи  инфор­мации, предположим,что имеются  R   возможных входных символов алфавита  А  и  s  возможных выходов алфавита  В. Таким  об­разом, СРР описывается канальнойматрицей. 

Канал передачи информации, используемой для описания  сис­темыраспознавания речи, представленной цепочкой фонем, преобразу­ет не зашумленнуюпоследовательность звуков в выходную последова­тельность «машинных „фонем, содержащую ошибки пропуска, вставки слияния и замены звуков.

Пусть элемента входного фонетического алфавита {Ai}появля­ются на входе с некоторой априорной вероятностью p(A1 ), р(A2 ),.,p(Ar), а элементы алфавита {Bj}  на выходе — с вероятностью P(B1,), p(B2),..., р(Bs).  Как отмечено ранее, работу канала пере­дачи входногоалфавита {Ai} характеризует канальная матрица, поэтому

P{Bj}=∑ri=1P(Ai)*P(Bj/Ai)   

Символ А О И А 0,89 0,1 0,01 O 0,15 0,75 0,1 И 0,01 0,1 0,89

2.2       Пример матрицы условных вероятностей распознаванияизолированных звуков(2.2)

Информация I(Ai,Bj),получаемая от канала, когда на   его вход поступила фонема  Ai,   а на выходе распознавалась как Bj,,определяется    [91]

I(Ai,Bj)=LOG(P(Ai/Bj)/P(Ai))              (2.3)

Средняяинформация, получаемая на выходе канала с потерями при передаче (распознавании)входного алфавита фонем A(Ai),который распознается   как алфавит B=(Bj), будет

I(A, B)=∑A, BP(Ai,Bj)*I(Ai,Bj)= ∑A, BP(Ai,Bj)*LOG2(P(Ai/Bj)/P(Ai)=

=-∑A, BP(Ai,Bj)*LOG2 P(Ai)+ ∑A,BP(Ai,Bj)*LOG2 (P(Ai/Bj);

I(A, B)=H(A)+∑A, BP(Ai,Bj)*LOG2(P(Ai/Bj);                       (2.4 )

Отметим, что Н(A)- энтропия, характеризующаястепень неопределенности входного алфавита А=(Ai).  Из (2.4) получаем, что

H(A)- I(A, B)=-∑A, BP(Ai,Bj)*LOG2 P(Ai/Bj)=

=-∑A, BP(Ai,Bj)*P(Bj)LOG2 P(Ai/Bj)=-∑BP(Bj)∑AP(Ai/Bj)LOG2 P(Ai/Bj)=H(A/B)

Н(А/B)-апостериорная энтропия входного алфавита фонем, которая

еще рефераты
Еще работы по информатике, программированию