Реферат: Информационный критерий оценки фонетической неопределенности
2.2.2. Информационныйкритерий оценки фонетическойнеопределенности. При распознавании устной речи необходимо стремиться к тому, чтобы все фонемыклассифицировались правильно, поэтому нас интересует распознавание полнойпоследовательности фонетических единиц, составляющих высказывание. При этомосновным источником неопределенности при распознавании речи является самакустический сигнал. Еще большую неопределенность представляет параметрическое описание речевой волны. Рассмотрим неопределенности акустического сигнала иприведем меру оценки фонетической неопределенности. Используя эти мерь, можнооценить лексическую и фразеологическую неопределенности. Слитная речьрасчленяется на последовательность сегментов по признакам способа образованиязвуков. К этим признакам добавляются признаки места образования, которыеизменяются непрерывно как внутри сегментов, так и черезих границы [91,97]. С некоторыми дискретными единицами-звуками речи — фонемами иликвазифонемами сегменты связаны таким образом, что смысловые единицы речи(слова) представляются цепочкой фонем.
Большинство систем автоматическогораспознавания речи [79] преобразует речевой сигнал в такую фонемную цепочку,которая затем сравнивается с ожидаемыми в слове звуками. Процесс преобразования речевого сигнала в последовательность фонем включает нахождениепризнаков, сегментацию и маркировку сегментов.
Опишеммодель фонетической неопределенности, позволяющую оценивать результатынеправильного распознавания фонем. Далее будем использовать матрицу ошибокраспознавания фонем и фонетическую структуру слов словаря при оценкелексической неопределенности.
Лексическаянеопределенность будет иметь место тогда, когда слова неверно классифицируютсяиз-за близости их фонетической структуры, т.е. последовательностипараметров, определяющих эту структуру, на конкурирующих словах. Например,в словах «слезать» и «срезать» первичные параметры звуков,входящих в эти слова, сходны. Когда оба эти слова входят в один и тот жесловарь, их точная классификация затруднена, поэтому их можно считать лексически неопределенными. В реальных системах, если позволяет задача,следует подбирать слова, чтобы такой ситуации не возникло. Приведем критериисложности словаря для того, чтобы можно было оценить степень различимостисловарей [63].
Рассмотримраспознавание речи как процесс передачи речевой информации через канал с шумом и оценим информацию, теряющуюся в канале. Потерянная информацияявляется мерой неопределенности или сложности распознавания фонем. В идеальномканале число входных идеальных, полученных после сегментации высказывания экспертами-фонетистами, и выходных фонетических единиц должно быть одинаковым, а последовательность фонем на выходе должна соответствовать входнойпоследовательности. Если же это условие не соблюдается, в канале теряетсяинформация, и в зависимости от величины потерь можно говорить о большейили меньшей неопределенности классификации фонем. При практической оценкефонетической неопределенности в данной работе использовались система признаков [73] и алгоритм сегментации речи на семь типов сегментов:
V -гласный, Т — переходный, М - сонорный, L - низкочастотный, Н - высокочастотный, R - шумный, П - пауза. Затем алгоритм маркировки ставил в соответствие каждому сегменту некоторый фонетический символ, используяаприорно полученные гистограммы параметров. От надежности маркировкисегментов во многом зависит точность работы CPP.
Таккак СРР рассматривается здесь как канал передачи информации, предположим,что имеются R возможных входных символов алфавита А и s возможных выходов алфавита В. Таким образом, СРР описывается канальнойматрицей.
Канал передачи информации, используемой для описания системыраспознавания речи, представленной цепочкой фонем, преобразует не зашумленнуюпоследовательность звуков в выходную последовательность «машинных „фонем, содержащую ошибки пропуска, вставки слияния и замены звуков.
Пусть элемента входного фонетического алфавита {Ai}появляются на входе с некоторой априорной вероятностью p(A1 ), р(A2 ),.,p(Ar), а элементы алфавита {Bj} на выходе — с вероятностью P(B1,), p(B2),..., р(Bs). Как отмечено ранее, работу канала передачи входногоалфавита {Ai} характеризует канальная матрица, поэтому
P{Bj}=∑ri=1P(Ai)*P(Bj/Ai)
Символ А О И А 0,89 0,1 0,01 O 0,15 0,75 0,1 И 0,01 0,1 0,892.2 Пример матрицы условных вероятностей распознаванияизолированных звуков(2.2)
Информация I(Ai,Bj),получаемая от канала, когда на его вход поступила фонема Ai, а на выходе распознавалась как Bj,,определяется [91]
I(Ai,Bj)=LOG(P(Ai/Bj)/P(Ai)) (2.3)
Средняяинформация, получаемая на выходе канала с потерями при передаче (распознавании)входного алфавита фонем A(Ai),который распознается как алфавит B=(Bj), будет
I(A, B)=∑A, BP(Ai,Bj)*I(Ai,Bj)= ∑A, BP(Ai,Bj)*LOG2(P(Ai/Bj)/P(Ai)=
=-∑A, BP(Ai,Bj)*LOG2 P(Ai)+ ∑A,BP(Ai,Bj)*LOG2 (P(Ai/Bj);
I(A, B)=H(A)+∑A, BP(Ai,Bj)*LOG2(P(Ai/Bj); (2.4 )
Отметим, что Н(A)- энтропия, характеризующаястепень неопределенности входного алфавита А=(Ai). Из (2.4) получаем, что
H(A)- I(A, B)=-∑A, BP(Ai,Bj)*LOG2 P(Ai/Bj)=
=-∑A, BP(Ai,Bj)*P(Bj)LOG2 P(Ai/Bj)=-∑BP(Bj)∑AP(Ai/Bj)LOG2 P(Ai/Bj)=H(A/B)
Н(А/B)-апостериорная энтропия входного алфавита фонем, которая