Реферат: Распознавание речи

РАСПОЗНАВАНИЕ РЕЧИ.

            По мере развития компьютерных системстановится все более очевидным, что использование этих систем намногорасширится, если станет возможным использование человеческой речи при работенепосредственно с компьютером, и в частности станет возможным управлениемашиной обычным голосом в реальном времени, а также ввод и вывод информации ввиде обычной человеческой речи.

            Существующиетехнологии распознавания речи не имеют пока достаточных возможностей для ихширокого использования, но на данном этапе исследований проводится интенсивныйпоиск возможностей употребления коротких многозначных слов (процедур) дляоблегчения понимания. Распознавание речи в настоящее время нашло реальноеприменение в жизни, пожалуй, только в тех случаях, когда используемый словарьсокращен до 10 знаков, например при обработке номеров кредитных карт и прочихкодов доступа в базирующихся на компьютерах системах, обрабатывающихпередаваемые по телефону данные. Так что насущная задача — распознавание покрайней мере 20 тысяч слов естественного языка — остается пока недостижимой.Эти возможности пока недоступны для широкого коммерческого использования.Однако ряд компаний своими силами пытается использовать уже существующие вданной области науки знания.

            Дляуспешного распознавания речи следует решить следующие задачи:

Þ<span Times New Roman""> 

обработку словаря (фонемныйсостав),

Þ<span Times New Roman""> 

обработку синтаксиса,

Þ<span Times New Roman""> 

сокращение речи (включаявозможное использование жестких сценариев),

Þ<span Times New Roman""> 

выбор диктора (включаявозраст, пол, родной язык и диалект),

Þ<span Times New Roman""> 

тренировку дикторов,

Þ<span Times New Roman""> 

выбор особенного видамикрофона (принимая во внимание направленность и местоположение микрофона),

Þ<span Times New Roman""> 

условия работы системы иполучения результата с указанием ошибок.

            Существующиесегодня системы распознавания речи основываются на сборе всей доступной (поройдаже избыточной) информации, необходимой для распознавания слов. Исследователисчитают, что таким образом задача распознавания образца речи, основанная накачестве сигнала, подверженного изменениям, будет достаточной для распознавани,но тем неменее в настоящее время даже при распознавании небольших сообщенийнормальной речи, пока невозможно после получения разнообразных реальныхсигналов осуществить прямую трансформацию в лингвистические символы, чтоявляется желаемым результатом.

            Вместоэтого проводится процесс, первым шагом которого является первоначальноетрансформирование вводимой информации для сокращения обрабатываемого объематак, чтобы ее можно было бы подвергнуть компьютерному анализу. Примеромявляется «техника сопоставления отрезков», позволяющая сократить вводимуюинформацию с 50'000 до 800 битов в секунду. Следующим этапом являетсяспектральное представление речи, получившееся путем преобразования Фурье.Результат преобразования Фурье позволяет не только сжать информацию, но и дает возможностьсконцентрироваться на важных аспектах речи, которые интенсивно изучались всфере экспериментальной фонетики. Пример такого представления см на рис.Спектральное представление достигнуто путем использования широко-частотногоанализа записи.

            Хотяспектральное представление речи очень полезно, необходимо помнить, чтоизучаемый сигнал весьма разнообразен. Разнообразие возникает по многимпричинам, включая:

Þ<span Times New Roman""> 

различия человеческихголосов;

Þ<span Times New Roman""> 

уровень речи говорящего;

Þ<span Times New Roman""> 

вариации в произношении;

Þ<span Times New Roman""> 

нормальное варьированиедвижения артикуляторов (языка, губ, челюсти, нёба).

Для устранения негативного эффекта влиянияварьирования голосового тракта на процесс распознавания речи  было использовано множество методов. Первымделом рассматривалась характеристика пространства траектории артикуляторныхорганов, включая гласные, используемые говорящим. Наиболее удачные формытрансформации, использованной для сокращения различий, были впервыепредставлены Сакоя & Чибо и назывались динамичными искажениями (dynamic time warping). Техника динамичногоискажения используется для временного вытягивания и сокращения расстояния междуискаженным спектральным представлением и шаблоном для говорящего. Использованиеданной техники дало улучшении точного распознавания (~20-30%). Метод динамичногоискажения используют практически все коммерчески доступные системыраспознавания, показывающие высокую точность сообщения при использовании.Техника динамичного искажения представлена на рис.2. Вначале сигналпреобразовывается в спектральное представление, где определяетсянемногочисленный, но высокоинформативный набор параметров. Затем определяютсяконечные выходные параметры для варьирования голоса(следует отметить, чтоданная задача не является тривиальной) и производится нормализация для составленияшкалы параметров, а также для определения ситуационного уровня речи.Вышеописанные измененные параметры используются затем для создания шаблона.Шаблон включается в словарь, который характеризует произнесение звуков припередаче информации говорящим, использующим эту систему. Далее в процессераспознавания новых речевых образцов (уже подвергшихся нормализации иполучивших свои параметры), эти образцы сравниваются с шаблонами, ужеимеющимися в словаре, используя динамичное искажение и похожие метрическиеизмерения. В настоящее время этот метод изучается и дополняется.

            Очевидно,что спектральное представление речи позволяет характеризовать особенностиголосового тракта человека и способ использования его говорящим. Самый обычныйспособ моделирования специфических эффектов «модель-источник» — использование фильтров. Речевой аппарат моделируется с использованиемисточников, вызывающих резонанс, ведущий к пиковым точкам интенсивности звука всоседстве с отдельными частотами, называемыми формантами. При произнесениизвуков вибрация голосовых связок является источником возбуждения, и этикороткие импульсы вызывают резонанс между голосовыми связками и губами. Так какязык, челюсть, губы, зубы и альвеолярный аппарат двигаются, размер и место этихрезонансов меняются, давая возможность воспроизведения особых параметровзвуков.

            Возможнопостроить очень точную модель,  такжепрямо смоделировать движения артикуляторов физиологически реальным путем.Использование этих моделей привели к пониманию пути, в котором происходитречевой сигнал. Но так как наблюдение над артикуляторами затруднено, остаютсянедостатки. Хотя природа вокального тракта очень сильно влияет на выходнойсигнал речи, это не единственное ограничение, которое необходимо принимать вовнимание, так как контроль над мускулами звукового тракта обусловлен сигналамимоторного кортэкса мозга. Возможно все аспекты влияния акустической структурыконтролируют сигналы и форму звукового выхода речи (хотя это не может бытьдоказано с систематической точки зрения).

Аспекты влияния акустической структуры включает всебя:

Þ<span Times New Roman""> 

природу сегментовиндивидуального звука (гласные/согласные),

Þ<span Times New Roman""> 

структуру слога,

Þ<span Times New Roman""> 

структуру морфем (приставки,корни, суффиксы),

Þ<span Times New Roman""> 

лексикон,

Þ<span Times New Roman""> 

уровень  синтаксиса фраз и предложений и

Þ<span Times New Roman""> 

долгосрочные ограниченияречи (long-term discourse constraints).

            Нижерассматривается влияние ограничений и способ их воздействия производствосигнала речи. Необходимо также принять во внимание тот факт, что человеческийаппарат восприятия также должен быть смоделирован, он сам по себе накладываетна процесс восприятия дополнительные ограничения. Недавно процесс восприятиябыл изучен с помощью метода сигнального подавления барабанных перепонок черезвозбуждение нервных клеток, которые образовывают примерно 30 тысяч нервных окончанийслухового нерва. Но изучение нервных окончаний способно только прояснитьформирование простых синтетических гласных. Перед исследователями встало новоеглавное направление в области изучения воспроизводства речи, связанное синтеграцией всей физиологии восприятия человека. В настоящий момент появляютсянекоторые модели явлений, происходящих в ухе, и не без оснований можно ожидатьдальнейшего улучшения понимания процесса распознавания речи из-за более полногопонимания характеристик этого влияния.

            Чтокасается уровня артикуляторного контроля, первым уровнем являетсяиндивидуальный фонетический сегмент, иначе говоря, — фонема. Во многихестественных языках их примерно 40. Но их набор существенно различатется.Поэтому, например, английские гласные могут быть носовыми, даже ненамеренно, вто время как во французском носализация гласных является фонетическимконтрастом, и поэтому влияют на значение произносимого. Во французском языкеносовая коартикуляция доминирует в гласных и существенно влияет на восприятиефонем и следовательно на главный смысл значения. Хотя все говорящие имеютодинаковый голосовой аппарат, использование его разное. Так например,использование кончика языка или прищелкивание, как в некоторых африканскихязыках. Ясно, что природа артикуляционных движений имеет сильное влияние наметод воспроизведения речи. Эти ограничения всегда активно используются впрактических системах.

            На следующем уровне лингвистическойструктуры фонетические сегменты сгруппированы в согласные/гласные, а следовательнои в слоги. Далее, в зависимости от роли фонетического сегмента внутри этихслогов их реализация может быть сильно изменена. Так например, начальныйсогласный  в слоге может быть реализованкак абсолютно отличный от конечной позиции. Согласные очень крепко связываютсямежду собой, что опять же влияет на последующие ограничения. Например, ванглийском если начальная группа согласных состоит из трех фонем, первая фонемадолжна быть /s/, следующей фонемойдолжен быть непроизносимый согласный, третьей или /r/  или /l/,  как например, в слове /scrape/ или /split/. Говорящие на родном языке избегают этих ограничений илимогут активно их использовать во время процесса восприятия. Из выше приведенныхпримеров очевидно, что хотя и существуют сильные ограничения, влияющие наслушателя, но их сила не является решающей во время произнесения речи. То естьлюбое моделирование процесса восприятия может быть активным и может оказатьбольшую помощь в понимании главного смысла.

             Другой пример, показывающий необходимостьприменения сфокусированного поиска, может быть представлен в восприятииконечного согласного. Среди многих ключевых слов для распознавания конечногосогласного существует спектральная природа шума, воспроизводимого приосвобождении конечной перемычки и перехода резонанса второй форманты в гласный,следующий за этой перемычкой. Многие исследователи изучали эти влияния, ирезультаты их исследований показали, что ограничивающее влияние обоихвышеописанных характеристик на восприятие варьируется природой следующегогласного, и следовательно, мощная стратегия распознавания должна иметьнекоторые знания о твердой позиции гласного перед конечным согласным перед тем,как будет сделано само распознавание конечного согласного. Конечные согласныедают яркий пример весьма интересного комплекса фонетики, используемого длялингвистической окраски. Например, при рассмотрении слов rapid и rabidобнаруживается 16 фонетический различий.

            Кромесегментного и слогового уровней существуют ограниченныевлияния из-за структуры морфем, которые являются минимальнымисинтаксическими единицами языка. Они включают в себя приставки, корни,суффиксы. Можно себе представить, что это синтаксис на слоговом и на морфемномуровнях, также как и нормально распознанный синтаксис, характеризующийсяспособом, в котором английские слова объединяются во фразы и предложения.Возможно представить данные ограничения как последствия рассмотрения грамматикивне контекста. В этом виде ограничений много “шумных” вариаций сегментов речи,которые так же относятся и к иерархическим синтаксическим ограничениям.

            Дополнительныеограничения на природе входа новой лексики в язык могут являться уровнем слова.Многие исследования обнаружили, что характеристика слов при введении разбиенияна 5 жестких классов фонетических сегментов может быть сокращена до минимума,часто имея единственное в своем роде распознавание. Далее слишком усиливаетсяэффект порядка двух букв и фонетических сегментов с тех пор как в изучениианглийских и французских словарей было обнаружено, что более 90% слов имелиединственное значение и только 0,5% имели 2 и больше альтернатив. На фонемномуровне было обнаружено, что все слова в английском словаре из 20 тысяч словимели одно значение из-за беспорядочных фонемных пар. Этот пример помогает показать,что все еще существует ограничивающее влияние на лексическом уровне, котороееще не определено в современных системах распознавания речи. Естественно, чтоисследования в этой области продолжаются.

            Кромеуровня слов синтаксис имеет дополнительное ограничительное влияние. Его влияниена последовательный порядок слов часто характеризуется в системах фактором,который в свою очередь характеризует количество возможных слов, которые могутследовать за предыдущим словом в процессе произнесения. Синтаксис также имеетограничительные влияния на просодические элементы, такие как ударение, напримерв случае, когда ударение слов в incline иsurvey варьируется в зависимости отчасти речи. Возможно для того, чтобы охарактеризовать ударение в слове, нужнопринять во внимание не только индивидуальное слово, но вышеприведенныедополнительные ограничения синтаксиса.

            Далее,кроме синтаксического уровня ограничения доминируют над семантикой, прагматикойи речью, что  плохо осознается людьми,однако имеет очень важное значение для процесса распознавания.

            Несмотряна сложность описания характеристик источников различных ограничений,немаловажную роль играют современныесистемы влияния, которые представлены всеми возможными вариантамипроизнесения звуков. Например, система HARPIуниверситета Сarnegie-Mellon University является системой, в которойзвуковоспроизведение описывается как путь через комплексную сеть. В этомспособе ограничения структуры слога, слова и синтаксиса связаны однойструктурой. Структура контроля, используемая для поиска, является адаптациейдинамичной программной техники. Более сильный подход был предложен моделямииспользования цепей Маркова. Эти модели использовались как единая структура,где возможности могут быть точно изучены экспериментальным путем.Закодированные представления спектральной трансформации воспроизводства речииспользуются для нахождения самого правильного пути через сеть, и недавно былиполучены очень хорошие результаты. Очень важно подчеркнуть использование такогоформально- структурного подхода, который способствует автоматичному определениюклассов символов через структурирование и параметризацию.

            Придругом подходе базы данных и связанные с ними процессы обработки используютсяструктурой контроля. Этот подход был изучен системой HEARSAJ 2, которая была разработана винституте Сarnegie-Mellon University, и системой HWIM (hear what I mean). В этих системах комплексная структураданных, которая содержит всю информацию о воспроизведении звуков, изучается сточки зрения конкретных ограничений. Но как выше указано, каждое из этихограничений имеет особую внутреннюю модель, и полный анализ не может бытьпроизведен. Для проведения анализа в целом структура данных должна иметь взаимодействие между разными процессами, атакже средства для интеграции. Несмотря на то, что структура включает в себя несколько весьмаразличных источников знаний и ее вклад в понимание речи очень общий, она такжеимеет большое количество степеней свободы, которые могут быть использованы длятщательного системного воспроизведения. В отличие от этого, техника, основаннаяна цепях Маркова, имеет математическую поддержку. Чтобы иметь возможностьсфокусированного исследования ограничений взаимодействия и интеграции вконтексте, необходимо применять обе системы. Те системы, которые описываютограничение взаимодействия, сфокусированы во многом на воспроизведении знаний,и они относительно слабо контролируемы, а системам с математической поддержкой,которые в свою очередь имеют великолепную технику для установления параметров иоптимизации изучения, не достает использования комплексной структуры данных,необходимых для характеристики ограничений высокого уровня, таких каксинтаксис. Оба направления в настоящий момент находятся в процессе развития.

            Взаключение следует сделать акцент на влияние производственной технологии на этисистемы. Технология интеграции не является большой проблемой для системраспознавания речи, наоборот, это является архитектурой этих систем, включаяспособ представления ограничений. Необходимо провести грандиозные экспериментыи найти новые способы, которые необходимы для ограничительного влияниявзаимодействия.

            Вомногих способах распознавание речи имеет типичный пример стремительноразвивающегося  класса высокоинтегрированных комплексных систем, которые должны использовать лучшуюкомпьютерную технику и самые последние достижения современного  математического обеспечения.

//… Рисунки

<img src="/cache/referats/646/image002.gif" v:shapes="_x0000_i1025">

еще рефераты
Еще работы по программированию, базе данных