Реферат: Понимание речи

Понимание речи

Понимание речи обычно трактуют как преобразованиеакустического представления речи в смысловое. При создании практических системсмысл можно определить, как представление, из которого извлекаются действия,совершенные системой. Понимание речи следует отличать от распознования речи,где целью является сопоставить речевое высказывание с соответствующими словамив словаре.  До начала 70-ых большинствоисследований было направлено на распознование речи. 5 лет потребовалось насоздание  системы ARPA, первоначальнаяисследовательская цель которой заключалась в распознавании речи, а конечныерезультаты в понимании. Казалось, что способность системы давать разумный ответна речь была более значимым критерием для развития речевых систем. К тому жесчиталось, что речевой  сигнал являетсянедостаточным источником информации, и знание контекста речевого высказыванияважно только для успешного распонавания и интерпретации. Системы пораспознованию речи, основанные на динамическом программировании и соответствиис образцами, развивали для речевых высказываний, которые состояли почтиполностью из изолированных слов, выбираемых из небольшого вокабуляра. Однакотакой подход, при котором ищется наиболее точное соответствие междуопределенными произнесенными словами и вокабуляром акустическох образцов слов,меньше всего подходил к связанной речи, так как входной акустической сигнал вэтом случае не может быть эффективно смоделирован, как простое сочетаниепроизнесенных частей лексических единиц. В связанной речи изменчивость,выявляемая при соответствии с образцами, передает полезную информацию и дляраспознования, и для интерпретации. Однако, необходимо начинать с основныхлингвистических единиц, таких как фонемы, и сохранять информацию о ритме идлительности речевого высказывания. Если следуют таким путем, то подход кобработке речи, основанный скорее на знании, чем на соответствиях с образцами,становится неизбежным, так как, чтобы извлекать преимущества из распознаванияконкретных лингвистических единиц в сигнале, необходимо знать, как даннаяединица связана  с остальной частьюязыка.

Системы понимания речи (СПР)имеют дело со связанными единицами речи, такими как, фразы, предложения и дажепараграфы, так как «понимание» изолированных слов может означатьтолько тривиальный процесс сопоставления некоторого значения к каждому словусловаря системы. Понимание связанной речи — очень сложная задача, и на  проект СПР повлияли исследования в такихразных областях, как  акустическаяобработка сигнала, нейро-физиология, психолингвистика, психология.  СПР была создана, чтобы понимать всегонескольких дикторов одного диалекта, производя грамматически ограниченноеподмножество языка со словарем около тысячи слов. Сейчас хотя и имеются многопотенциальных прикладных программ для СПР их эффективность и надежность все ещенедостаточна, чтобы широко использоваться. Системы, зависимые от диктора,распознающие изолированные  слова снебольшим словарем, использующие в качестве образцов-соответствий целые словауже нашли свое применение, типа обработки багажа на авиалиниях. Тем не менеепризнано, что усовершенствование такого типа систем (большие словари, независимость от диктора) требует подхода,основанного на более глубоких знаниях.

Теоретические предпосылки

Посредником при преобразовании речи в ее значение должны служитьопределенные компоненты, которые используют разнообразные источники знания(ИЗ), т.к. речевой сигнал кодирует много различной информации, необходимой длявосстановления значения. Например, вариативность в произношении слов всвязанной речи больше не является помехой при подборе  образца соответствия, но это довольно важныйисточник информации, например, относительно расположения границ слова  или контекстуально важной (выделеннойударением) информации в произнесении. Единственной возможной организацией СПР иосновных ИЗ является следующая:  РЕЧЬ — ОБРАБОРТКА АКУСТИЧЕСКОГО СИГНАЛА — ФОНЕТИЧЕСКИЙ АНАЛИЗ — ФОНОЛОГИЧЕСКИЙ АНАЛИЗ- МОРФОЛОГИЧЕСКИЙ АНАЛИЗ — ЛЕКСИЧЕСКИЙ ДОСТУП К СЛОВАРЮ — СИНТАКСИЧЕСКИЙ АНАЛИЗ- СЕМАНТИЧЕСКИЙ АНАЛИЗ — ЗНАЧЕНИЕ. При такой организации СПР информация течетвверх по мере того, как каждый элемент создает промежуточные представления,кодируя (частичные) гипотезы относительно ввода на основе ему доступногознания.

Акустическая обработка отцифровывает сигнал с входной частотой, котораясохраняет сигнал для понимания. Акустическая обработка также трансформируетотцифрованный сигнал различными способами, чтобы представить его в той форме,которая поддается фонетическому декодированию. Например, спектральный анализбудет выполнен для каждого проанализированного фрейма, и дополнительныепараметры, такие как частота основного тона, подсчитаны. Параметрический сигналможет затем быть помечен как дискретная последовательность фонем. Например,если сигнал с низкой амплитудой равномерно распространяется поперек спектра, тоэтот звук вероятно фрикативный, типа [f] или [v].  Кроме того, для каждой  фонемы характерны такие особенности, каквысота тона, длительность и амплитуда. Акустическо — фонетическоепреобразование является решающим для эффективной работы СПР, но все еще одно изнаиболее слабых сторон речевой обработки. И это являлось главным недостаткомСПР, разработанной на основе ARPA в 1970-ых.

Фонологический анализ выполняется на фонетическом представлении,которое определяет лингвистически важные различия, имеющиеся в фонетическомпредставлении произнесения, например, уровни и расположение ударения,  интонационный контур, структуры слога,последовательности фонем, лежащих в основе произнесения. Фонологический анализнеобходим для лексического доступа, т.е. процесса, который сопоставляетфонетическую форму произнесения с каноническими фонемными представлениями словв словаре, чтобы восстановить информацию, хранящуюся там относительно ихморфологических, синтаксических, и семантических свойств. Это отменяет такиеэффекты быстрой речи, как ассимиляция или сокращения. Например, слова “did” и«you» могли бы иметь в словаре следующие последовательности фонем:/dld/ и /ju:/. Однако, акустическо — фонетическое преобразование могло бывосстанавливать фактические звуки или фонемы, типа [dIje]; связывать этуфонетическую последовательность c каноническими фонемными представлениями “did”и «you». Это необходимо, если нужно узнать, что палатализацияпроизошла на границе слова, заменив [dj] на [j], и что неударный гласный«you» был редуцирован до нейтрального безударного. Аналогично,фонологическое знание относительно допустимых последовательностей фонем вслогах может использоваться, чтобы распознать слог, и следовательно, границыслова. Например, в /houmhelp/ должна быть граница между /m/ и вторым /h/,потому что никакой слог в  английском неможет содержать /mh/.

Как только фонологический анализ завершен, дальнейшая обработка вводабудет подобна пониманию текста. Дальнейшие морфологический, синтаксический,семантический и прагматический анализы способствуют распознаванию,  эксплуатируя избыточность речи, винформационно — теоретическом смысле. В некоторых из проектов APRA задачасинтаксического анализа заключалась в том, чтобы исключить гипотезы слова наоснове синтаксически недопустимых последовательностей.

Прежде, чем слова, выделенные в речевом сигнале будут сопоставлены слексическими входам в словаре системы, необходимо провести морфологическийанализ, который приведет слова к их основной форме, например, устранитокончание  множественного числа /s/ или/z/, которые сильно бы расширили число входов в словарь.

После морфологического анализа возникшее морфофонологическоепредставление речевого ввода может быть найдено в словаре системы, чтобыполучить синтаксическую и семантическую информацию относительно гипотезыпоследовательности слов. Синтаксический, семантический, и прагматический анализ- в основном тот же самый для речевого и текстового понимания. Однако, должнобыть взаимодействие между этими и более низкими уровнями анализа не только,потому что они будут дополнять правильное распознавание произнесения, но такжепотому что некоторые аспекты фонологического анализа, особенно касающиесяударения и интонации, будут способствовать интерпретации. Ударение, например,необходимо для определения контекстуально новой информации и для нахождению зависимых слов  для местоимений.

Это краткое описание вклада различных ИЗ в понимание речи толькораскрывает основные процессы. ИЗ, использованные в понимании речи, являютсяпрежде всего лингвистическими. Однако, эффективность СПР зависит во много какот эффективного использования этих ИЗ так и от разработки их содержания.

Акустическо — фонетический Анализ

Несомненно наиболее важная область в обработке речи, нуждающаяся в  исследованиях, — это акустическо — фонетический анализ. Если акустическо — фонетический анализ слабый, тоошибочные гипотезы выдадут в итоге неправильный анализ. Сегментация иидентификация акустического сигнала в последовательности лингвистических единицчрезвычайно трудна. Сначала, речь — это код, а не шифр; то есть, акустическоесигналы, ассоциирующиеся с сегментами, непосредственно с ними не связанны; наэти сигналы сильно влияют  соседниесегменты. Например, спектрограммы /d/ в /di/ и /du/ очень различны, т.к. на нихвлияют последующий гласный. Кроме того, не возможно разделить акустическойсигнал на /d/ и следующий гласный. Эти наблюдения создали следующую теорию:конечное количество этих сегментов не всегда можно достичь из-за непрерывногодвижения вокального трактата. Такой синтезирующий анализ  был бы, однако, очень в вычислительномотношении дорогой, так как он требовал бы, чтобы СПР умел генерировать всех возможныепроизнесения и сопоставлять их с акустическом вводом. Однако во-первых,акустическое сигналы, в противоположность фонемам или алафонам, содержатинвариантные сигналы. Во-вторых, акустическое сигналы часто сильно редуцируютсяв безударном положении. Это часто вызывает много неправильных гипотез всистемах, где акустическо — фонетический компонент будет принимать за гипотезусегмент из фиксированного инвентаря. В-третьих, акустическое сигналы варьируютот диктора диктору из-за физиологических особенностей вокального тракта,различия в характеристиках речи и т.д… Люди способны компенсировать этиразличия быстро и плавно, но все еще мало понятно, как сделать этот  процесс автоматическим. Большинствокоммерческих систем распознавания речи требует длинного обучения, повторяя запользователем каждое слово в словаре системы несколько раз и — следовательноочень зависимо диктора. В ARPA несколько из разработанных СПР  достигли определенной степени независимостиот диктора,  пытаясь ввести параметр  в акустическо — фонетический анализ длянового диктора на основе обучающегося предложения,  которое знала система,  пользователю же следовало его проговорить.

Во всех ARPA проектируют СПР, где акустическо — фонетическийанализ  фактически не существовал исегментный анализ не был точным. Конечное представление каждой системы былоглавным образом определено эффективностью более высоких уровней анализа приисправлении ошибок на фонетическом уровне. Более современные системы используютболее сложный акустическо — фонетический анализ, интегрируя информацию из рядапреобразований акустического сигнала и создавая несколько типов фонетическихпредставлений, но эффективность все еще ограничивается в среднем 70% успешнымраспознаванием фонем из речевого высказывания, произнесенных небольшимколичеством дикторов.

Фонологический Анализ

 Фонологический компонентнеобходим для любой, обрабатывающей речь, системы, основанной на знаниях,потому что система требует знания относительно фонологических процессов,активных в языке и в прикладных программах, чтобы восстанавливать каноническиепроизношение слов, которые могут быть сопоставлены с соответствующими входамисловаря, и получать дальнейшие сигналы к синтаксической исемантической/прагматической интерпретации речевого высказывания.Фонологические компоненты были разработаны для СПР и других систем ARPA.Однако, они были в значительной степени ограничены лексическими, сегментнымипроцессами и обычно имели дело с фонологически управляемыми изменениями,  генерируя альтернативное произношение дляиндивидуальных лексических единиц и сохраняя их в дополнительном словаре. Этотподход не может иметь дело адекватно с фонологическими процессами, которыесоединяют границы слова, типа палатализации. Самая большая область прикладнойпрограммы для фонологического правила — интонационная фраза; следовательно,фонологию нельзя рассматривать в терминах различного произношения длялексических единиц. Фонологический анализ обеспечивает много важной информациидля СПР; например, различные виды фонологического правила блокированыразличными лингвистическими границами между сегментами. Полезно разложить наслоги и слова речь, сегментация может также обеспечить сведения длясинтаксического анализа; палатализация соединяет границы слова, но блокированана границах главных синтаксических составляющих, так что ее отсутствие можетиспользоваться, чтобы решить неоднозначность относительно присутствия такойграницы в данном месте речевого сигнала. Фонологические правила такжеизменяются среди диалектов. Следовательно, СПР, способные к пониманию дикторовс различными диалектами, требовали бы знания относительно этих различий испособности реконфигурировать себя для их речи. Палатализация, например,происходит чаще в американских диалектах, чем в британских или английских.

В конце семидесятых стали развиваться новые подходы к фонологии, такиекак автосегментная, метрическая зависимости, фонология зависимости, для которых центральным являетсясверхсегментальный аспект. Некоторые из этих достижений были включены в СПР.

Интерпретация, основанная на источнике знаний

ИЗ бесполезны в СПР, если знание, которое они кодируют, не может бытьпредставлено таким образом, который позволяет интерпретацию с помощью машины.Например, специалисты по фонетики обычно используют Международный ФонетическийАлфавит для фонетической записи. Однако, так как выбор представлениявоздействует на прикладную программу знания, системы представления ИЗ в СПРчасто являлись  компромиссом междуописательной адекватностью и вычислительной эффективностью. Например, в ARPAпроектируют каждый СПР, используя идею синтаксического представления, чтобы невыражать все грамматические возможности английского языка. Формальный язык итеория автоматов предлагают эффективные алгоритмы для прикладной программы ИЗ,выраженные в наборах правил с соответствующими формальными свойствами.Например, минимально увеличенные контекстно — свободные записи для адекватногоописания английского синтаксиса  ифонологии. Однако, успехи этого вида не ведут автоматически в вычислительномотношении к ИЗ, так как наборы правил, требуемые, чтобы выразить знание в этойформе могут быть чрезвычайно большие. Кроме того, кажется маловероятно, что всеИЗ, используемые в СПР могут быть выражены внутри таких ограниченных записей.Тем не менее, более специализированные и мощные методы также были разработаны,типа интерпретаторов для промышленных систем или увеличенные сети переходов.Появляются некоторые экспертные оболочки системы,  являющееся многообещающими прикладнымипрограммами для акустическо — фонетического преобразования. Чем лучше пониманиеспецифической области, тем больше возможность представления знания адекватно иэффективно. Кроме того, вероятно, что различные схемы представления будутнаиболее эффективны для различных ИЗ; следовательно, структура СПР, котораянавязывает,  одинаковую схему для всехИЗ, типа HAERSAY-11 или HARPY, не идеальна.

На выбор представления воздействуют факторы, другие чем доступностьметодики интерпретации для специфической схемы; например, несколько СПР непытаются отображать непосредственно между акустическом сигналом и фонетическималфавитом, но создавать промежуточные представления, отмечая акустическо яркиеособенности типа назальности, помогать процессу распознавания фонем. Напредставления также воздействует порядок, в котором расположены различные ИЗ,относящиеся к речевому сигналу и полной структуре СПР. Недавно было предложено,чтобы начальный фонетический анализ отмечал согласные, гласные,  а также ударные и безударные слоги и что этопростое представление должно использоваться, чтобы получить наборслов-кандидатов из соответственно организованного словаря. Детализированныйфонетический анализ затем применялся бы к безударному слогу(слогам), чтобыраспознать его  между кандидатами.

Структура Системы

Большая часть литературы по СПР касается межкомпонентной связи во времяобработки. Эта проблема является основной, т.к. неоднозначности должны бытьрешены быстро, чтобы избежать ненужного вычисления,  и также потому, что избыточность между ИЗможет использоваться, чтобы разложить на множители  неправильные гипотезы, вызванные или ошибкамисистемы или подлинной неоднозначностью в речевом сигнале. Например, акустическо- фонетический компонент мог бы предложить аспирированный /p/ или /b/, закоторым следует гласные и /t/, результатом этого предположения могут статьтакие слова-кандидаты, как  “put” и«but». Однако, вероятно,  одноиз них будет отклонено на основе синтаксического анализа, так как глаголы исоюзы не играют одинаковую роль в предложении. Аналогично, подлинная синтаксическая неоднозначность имеется ввысказывании, типа " He gave her dog biscuits ", где сочетание«her” может функционировать и как прилагательное и как существительное. Нов этом случае неоднозначность может быть решена с помощью ударения  и интонации, которые будут сопровождать обеинтерпретации.

Предложенные структуры — иерархические, с последовательным потокоминформации через цепочку компонентов ИЗ, и неиерархические, без ограничения напоток информации между компонентами.

 Преимущество иерархическогоподхода в том,  что имеется естественныйпорядок для прикладной программы ИЗ, чтобы вводить речь; синтаксический анализможет осуществляться только на основе лексической информации и т.д. Кроме того,в целом управление системы просто. Однако, имеются много случаев, когданепоследовательные взаимодействия между цепочкой компонентов полезны; например,аспекты просодической, сверхсегментальной структуры высказывания будутрелевантны по отношению к фонологической, синтаксической, семантической, ипрагматической интерпретации. Непоследовательное взаимодействие может бытьдостигнуто внутри иерархической модели, передавая все возможные анализы, совместимые с данным компонентомследующему, который затем выбирает подмножество анализов. Но это только тогдасработает, если промежуточные представления, переданные через СПР настолькообогащены, что  можно было быиспользовать всю проанализированную информацию в следующих компонентах. Такимобразом, ввод синтаксического компонента в дополнение к синтаксическойинформации относительно слов должен включить всю доступную информацию длясинтаксического анализа, типа просодической информации, и вся информация, относящаяся семантическому/прагматическомуанализу должна быть также включена. Это усложняет схему представления, и дорогов вычислительном отношении, т.к. создает много неправильных гипотез.  Неправильных гипотез можно избежать, т.к.информация, в которой отсутствует неоднозначность временно доступна, оназакодирована в той части речевого сигнала, который уже проанализирован на болеенизких уровнях, но в иерархической модели этот способ не применяется, пока вводне достигает соответствующего компонента в последовательной цепочке.

Неиерархические системы избегают неэффективности, позволяя компонентамприменять в наиболее эффективном порядке сложные межкомпонентные связи. Каждыйкомпонент нужно обеспечить средствами, чтобы запрашивать и получить информациюиз других компонентов или начинать определенную обработку в другом компоненте.Это требует специальных каналов связи между компонентами в системе. Разработка адекватной системы управления длятакой модели невозможна, т.к. должна предусматривать все возможные потокиуправления в стадии проекта. Практически, реальные неиерархические модели дляСПР были ограничены однородными представлениями из ИЗ и одиночной глобальнойструктурой данных, как в (blackboard systems) рабочих системах.

Стратегии Обработки

Различные стратегии обработки использовались в разных структурах СПР,чтобы сократить вычисление, требуемое для успешного анализа. И иерархические инеиерархические системы могут работать со способами управления данными какснизу-вверх, так и сверху-вниз при использовании знания, чтобы создать гипотезыотносительно ввода. Однако, самые современные СПР используют способ снизу-вверхиз-за довольно слабого предсказания речи на основе ИЗ. Аналогично, СПР можетисследовать пространство, определяя его глубину и ширину. Большинство систем оперирует с шириной пространстваиз-за сомнительного или ошибочного характера многих гипотез, но используетподсчитывающие методы, чтобы сохранить размер активного исследуемогопространства. Одна из таких методик, подсчитывающая неудачи, которая включаетизмерение совокупности множества индивидуальных слов-кандидатов  в соотношении с теоретической верхнейграницей и обработку гипотезы, гарантирует, что СПР найдет наиболее полнуюподсчитывающую гипотезу для первого высказывания. Однако это не гарантирует,что наиболее привлекательная гипотеза является правильной; эффективностькомпонентов, которые способствуют порождению гипотез слова, все еще являетсяопределяющим фактором в полном представлении системы. Этим оценкам должныотвечать все  компоненты, и они должныотражать различные добавления каждого ИЗ. Однако, значение, которое должно бытьприсоединено к любому ИЗ, должно измениться в соответствии с контекстом.Например, при распознавании безударного и фонетически редуцированного предлога,синтаксический анализ должен чаще обращаться к акустическому анализу, чем прираспознавании ударного слога. Кроме того, исследования должны быть оценены спомощью  времени. Хотя некоторые схемыоценки, которые использовались в готовых СПР, улучшают эффективность, это связано или по теоретическим причинам,  с подсчитывающей методикой, например,подсчитывающей неудачи, или, потому что они были разработаны на основеиспытаний и ошибок и оценивались исключительно по эффективности, связанной современем выполнения, например  механизмфокуса внимания  в рабочей системеHEARSAY-11.

Анализ речевого сигнала может проходить слеванаправо через линейный сигнал или из середины островов большей акустическойнадежности в обоих направлениях. Подход, использующий острова надежности, имеетпреимущество  в принятии свободных отошибок фонетических данных за начальную отметку за счет более сложной структурыуправления и организации системы, как в HWIM. По-видимому слушатели обращаютбольшее внимание на ударные слоги, которые вообще более ясно произносятся, иследовательно более легко анализируются фонетически. Кроме того, фонологическаяструктура английского словаря вынуждена быть составленной таким способом, прикотором каждое слово может быть получено даже при грубом  фонетическом анализе структуры слога вместе сдетальным анализом ударного слога. Следовательно, подход, использующий острованадежности по существу правилен, хотя и был бы более эффективен, если обработка началась в ударных  слогах.

Текущие Тенденции

Начиная с проекта ARPA в 70-ых имел место период в исследованииречевого понимания, скорее ориентированный на проблемы, чем на построениесистем. Многие из этих исследований сосредоточились на акустическо-фонетическомпреобразование в результате новых доказательств, показывающих информационноебогатство акустического сигнала. Сейчас же возобновлен интерес к построениюполных систем, включающий исследования, касающиеся структуры системы. Однако,большинство развивающихся систем, основанных на знаниях, ограничено скореераспознаванием непрерывной речи, чем пониманием. Усовершенствования вакустическо-фонетическом анализе предполагают, чтобы верхние уровни анализа небыли определяющими для распознавания непрерывной речи, вопреки преобладающемумнению во времена проекта ARPA. Но проблемы понимания, такие как способы представление знаний, остаютсянерешенным.

Системы

Главные СПР, разработанные в проекте ARPA, были HARPY, HWIM,HTEARSAY-11, и SRI/SDC. HARPY оказался наиболее близким по критериюэффективности, определенном для проекта. Однако, структура HARPY требоваласоставления всего ИЗ в одну конечную сеть, так что язык, воспринимаемый системойбыл более ограничен, чем в других системах. Система HEARSAY-11 была создана какпромышленная система. Несколько СПР были разработаны для Европейских языков,таких как KEAL  и MYRTILLE-11  для Французского языка и EVAR  для немецкого. Однако, эти системы непревзошли системы ARPA по  эффективностиили проекту. Так же была создана автоматическая система бронирования места наавиалинии, которая включает непрерывное понимание речи. Эта система,разработанная в Лабораториях Bell, отвечает на телефон, чтобы установитьсоответствующую бронь. Она использует метод сопоставления целового слова с  шаблоном, чтобы распознать слова из словаря,насчитывающего 127 слов.

еще рефераты
Еще работы по программированию, базе данных