Реферат: Синтез речи

Синтезречи.

 

1              Ограничения  насинтез речи.

Cуществуют различные методысинтеза речи. Выбор того или иного метода определяется различнымиограничениями. Рассмотрим те 4 вида ограничений, которые влияют на выбор методасинтеза.

·        Задача.

Возможности синтезированнойречи зависят от того, в какой области она будет применятся. Когда необходимопроизносить ограниченное число фраз ( и их произнесение линейно не меняется ),необходимый речевой материал просто записывается на пленку. С другой стороны,  если задача состоит в стимулированиипознавательного процесса при чтении вслух, используется совершенно другой рядметодик.

·        Голосовой аппаратчеловека.

Все системы синтеза речидолжны производить на выходе какую-то речевую волну, но это не произвольныйсигнал. Чтобы получить речевую волну определенного качества, сигнал долженпройти путь от источника в речевом тракте, который возбуждает действиеартикуляторных органов, которые действуют как изменяющиеся во времени фильтры.Артикуляторные органы также накладывают ограничения на скорость изменениясигнала. Они также имеют функцию сглаживания: гладкого сцепления отдельныхбазовых фонетических единиц в сложный речевой поток.

·        Структура языка.

Ряд возможных звуковыхсочетаний опредляется природой той или иной языковой структуры. Былообнаружено, что еденицы и структуры, используемые лингвистами для описания иобъяснения языка, могут  такжеиспользоваться для характеристики и построения речевой волны. Таким образом,при построении выходной речевой волны используются основные фонологическиезаконы, правила ударения, морфологические и синтаксические структуры,фонотактические ограничения.

·        Технология.

Возможности успешномоделировать и создавать устройства для синтеза речи в сильной степени зависятот состояния технико-технологической стороны дела. Речевая наука сделалабольшой шаг вперед благодаря появлению различных технолоний, в том числе:рентгенография, кинематография, теория фильтров и спектров, а главным образом — цифровые компьютеры. С приходом интегральных сетевых технологий с постоянновозрастающими возможностями стало возсожно построение мощных, компактных,недорогих устройств, действующих в реальном времени. Этот факт, вместе сосновательными знаниями алгоритмов синтеза речи, стимулировал дальнейшееразвитие систем синтеза речи и переход их в практическую жизнь, где они находятширокое применение.

2              Методы синтеза.

Различные подходы могут бытьсгруппированы по областям их применения, по сложности их воплощения.

Синтезаторы делят на дватипа: с ограниченным и неограниченным словарем. В устройствах с ограниченным словарем речь хранится в виде слов ипредложений, которые выводятся в определенной последовательности при синтезеречевого сообщения. Речевые единицы, используемые в синтезаторах подобноготипа, произносятся диктором заранее, а затем преобразуются в цифровую форму,что достигается с помощью различных методов кодирования, позволяющихкомпрессировать речевую информацию и хранить ее в памяти синтезирующегоустройства. Существует несколько методов записи и компоновки речи.

·        Волновой методкодирования.

Самый легкий путь — простозаписать материал на пленку и по необходимости проигрывать. Этот способобеспечивает высокое качество синтезируемой речи, т.к. позволяет воспроизводитьформу естественного речевого сигнала. Однако этот путь синтеза не позволяетреализовать построение новой фразы, т.к. не предусматривает обращение кразличным ячейкам памяти и вызов из памяти нужных слов. В зависимости отиспользуемой технологии этот способ может представлять задержки в доступе и иметьограничения, связанные с возможностями записи. Никаких знаний об устройстверечевого тракта и структуре языка не требуется. Единственно серьезноеограничение в данном случае имеет объем памяти. Существуют способы кодированияречевого сигнала в цифровой форме, позволяющие в несколько раз уплотнятьинформацию: простая модуляция данных, импульсно-кодовая модуляция, адаптивнаядельтовая модуляция, адаптивное предиктивное кодирование. Данные способы могутуменьшить скорость передачи данных от 50кбит/сек (нормальный вариант) до10кбит/сек, в то время как качество речи сохраняется. Естественно, сложностьопераций кодирования и декодирования увеличивается со снижением числа бит всекунду. Такие системы хороши, когда словарь сообщений небольшой ификсированный. В случае же, когда требуется соединить сообщения в болеедлинное, сгенерировть высококачественную речь трудно, т.к. значения параметровречевой волны нельзя изменить, а они могут не подойти в новом контексте. Вовсех системах синтеза речи устанавливается некоторый компромисс между качествомречи и гибкостью системы. Увеличение гибкости неизбежно ведет к усложнениювычислений.

·        Параметрическоепредставление.

С целью дальнейшегоуменьшения требуемой памяти для хранения и обеспечения необходимой гибкостибыло разработано несколько способов, которые абстрагируются от речевой волныкак таковой, а представляют ее в виде набора параметров. Эти параметры отражаютнаиболее характерную информацию либо во временной, либо в частотной области.Например, речевая волна может быть сформирована сложением отдельных гармоникзаданной высоты и заданными спектральными выступами на данной частоте.Альтернативный путь состоит в том, чтобы форму речевого тракта описать втерминах акустики и искусственным путем создать набор резонансов. Этот методсинтеза экономичнее волнового, т.к. требует значительно меньшего объема памяти,но при этом он требует больше вычислений, чтобы воспроизвести исходный речевойсигнал. Данный способ дает возможность манипулировать теми параметрами, которыеотвечают за качество речи (значение формант, ширина полос, частота основноготона, амплитуда сигнала). Это дает возможность склеивать сигналы, так чтопереходы на границах совершенно не заметны. Изменения таких параметров какчастота основного тона на протяжении всего сообщения дают возможностьсущественно изменять интонацию и временные характеристики сообщения. Наиболеепопулярным в наст.вр. методами кодирования в устройствах, использующих  параметрическое представление сигналов,является метод, основанный на формантных резонансах и метод линейногопредсказания (LPC — linear predictive coding). Для синтеза используются единицыречи различной длины: параграфы, предложения, фразы, слова, слоги, полуслоги,дифоны. Чем меньше единица синтеза, тем меньшее их количество требуется длясинтеза. При этом, требуется больше вычислений, и возникают трудностикоартикуляции на стыках. Преимущества этого метода: гибкость, немного памятидля хранения исходного материала, сохранение индивидуальных характеристикдиктора. Требуется соответствующая цифровая техника и знание моделейречеобразования, при этом, лингвистическая структура языка не используется.

·        Синтез поправилам.

Описанные выше методы синтезаориентированы на такие речевые единицы, как слова, предварительно введенные в устройствос голоса диктора. Данный принцип лежит в основе функционирования синтезаторов сограниченным словарем. В синтезаторах с неограниченным словарем элементами речиявляются фонемы или слоги, поэтому в них применяется метод синтеза поправилам, а не простая компоновка. Данный метод весьма перспективен, т.к.обеспечивает работу с любым необходимым словарем, однако качество речизначительно ниже, чем при использовании метода компоновки.

При синтезе речи по правиламтакже используются волновой и параметрический методы кодирования, но уже науровне слогов.

Метод параметрическогопредставления требует компромисса между качеством речи и возможностью изменятьпараметры. Исследователи обнаружили, что для синтеза речи высокого качестванеобходимо иметь несколько различных произношений единицы синтеза (например,слога), что ведет к увеличению словаря исходных единиц без каких бы то ни былосведений о контекстной ситуации, оправдывающей           тот или иной выбор. По этой причине процесс синтеза получает еще более абстрактныйхарактер и переходит от параметрического представления к разработке набораправил, по которым вычисляются необходимые параметры на основе вводногофонетического описания.Это вводное представление содержит само по себе малоинформации. Это обычно имена фонетических сегментов ( напр, гласные исогласные) со знаками ударения, обозначениями тона и временных характеристик.Таким образом, метод синтеза по правилам использует малоинформационное описаниена входе ( менее 100 бит/сек). Этот метод дает полную свободу моделированияпараметров, но необходимо подчеркнуть, что правила моделирования несовеншенны.Синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестампо разборчивости и понятности. На уровне предложения и параграфа правила предоставляютнеобходимую степень свободы для создания плавного речевого потока.

3              Конвертация текста в речь.

Синтез по правилам требуетдетального фонетического транскрибирования на входе. Хотя для запоминания этойинформации требуется мало памяти, чтобы извлечь из нее необходимые параметры,необходимы знания эксперта. Для конвертации неограниченного английского текстав речь необходимо сначала проанализировать его с целью получения транскрипции,которая затем синтезируется в выходную речевую волну. Анализ текста по своейприроде задача лингвистическая и включает в себя определение базовыхфонетических, слоговых, морфемных и синтакисическмих форм, плюс — вычленениесемантической и прагматической информации. Системы конвертации текста в речьявляются наиболее комплексными системами синтеза речи, включающие в себя знанияоб устройстве речевого аппарата человека, лингвистической структуре языка, атакже которые должны учитывать ограничения, накладываемые областью применениясистемы, технико-технологической базой. Необходимо заметить, что и текст и речьявляются поверхностными представлениями базовых лингвистических форм, поэтомузадача преобразования текста в речь состоит в выявлении этих базовых форм, азатем в воплощении их в речи.

4              Система преобразования текста в речь MITalk.

На примере этой системыпроиллюстрируем сильные и слабые стороны коммерческих версий. Разработка системы началась в конце 60-х гг.Изначально предполагалось разработать читающую машину для слепых, но системаMITalk может применяться в любых ситуациях, где необходимо преобразовать текств речь. Система имеет блок морфологического анализа, правила преобразованиябуква-звук, правила лексического ударения, просодический и фонематическийсинтез.

5              Анализ текста

·        Преобразованиесимволов в стандартную форму.

В самых различных текстахможно обнаружить символы и аббревиатуры, которые не принадлежат к категории" правильно образованных слов". Такие символы как "%" и"&", аббревиатуры типа «Mr» и «Nov» должныбыть преобразованы в нормальную форму. Были разработаны подробные руководствапо транскрибированию чисел, дат, сум денег. Иногда возникают двусмысленныеситуации, такие как, например, использование знака дефиса в конце строки.Человек в таких случаях, чтобы определить подходящее произношение, обращается кконтексту и к практическим знаниям, которые не поддаются алгоритмизации.

·        Морфологическийанализ

В вводном тексте границы словлегко определяются. Можно хранить произношение всех английских слов. Размерсловаря будет большим, но в таком подходе есть несколько привлекательныхсторон. Во-первых, в любом случае необходим словарь слов, произношение которыхявляется исключением из общих правил. Такими являются, например, заимствованныеслова ( parfait, tortilla). Более того, все механизмы преобразования цепочкибукв в фонетические значки допускают ошибки. Интересный класс исключенийсоставляют часто употребительные слова. Например, звук /th/ в начале словапроизносится как глухой фрикативный  вбольшинстве слов (thin, thesis, thimble). Но в наиболее частотных, таких каккороткие функциональные слова the, this, there, these, those, etc. начальныйзвук произносится как звонкий. Также /f/ всегда произносится глухо, заисключением слова «of». Другой пример. В словах типа«shave», «behave» конечный /e/ удлиняет предшествующийгласный, но в таком частом слове как «have» это правило не действует.Наконец, конечный /s/ в «atlas», «canvas» глухой, но вфункциональных словах is, was, has он произносится звонко. Таким образом,приходим к выводу, что все системы должны иметь такой словарь исключений. Чтокасается нормальных слов, то здесь имеется два варианта. Первый крайний случайсостоит в том, чтобы составить полный словарь. Хотя число слов ограничено,составить абсолютно полный словарь невозможно, т.к. постоянно появляются новыеслова. Кроме того, в словарь необходимо будет внести все изменяемые формыслова. Другой крайний подход состоит в установлении ряда правил, которые быпреобразовывали цепочки букв в фонетические значки. Хотя эти правила оченьпродуктивны, нельзя избежать ошибок, что ведет к созданию словаря исключений.Чтобы правильно определить фонетическую транскрипцию слова, нужно правильноразбить слово на структурные составляющие. Было обнаружено, что важную роль вопределении произношения играет морфема, минимальная синтаксическая единицаязыка. Система MITalk использует морфемный лексикон, что может рассматриватьсякак некоторый компромиссный подход между двумя крайними, упомянутыми выше.Многие английские слова можно расчленить на последовательность морфов, такихкак префиксы, корни, суффиксы. Так слово «snowplows» имеет два корняи окончание, «relearn» имеет приставку и корень. Такие морфы являютсяатомными составляющими слова и они относительно стабильны в языке, новые морфыформируются в языке очень редко. Эффективный лексикон может иметь не более10,000 морфов. Морфемный словарь действует вместе с процедурами анализа. Этотподход эффективен и экономичен, т.к. хранение морфемного словаря не занимаетмного места, а хранить все изменяемые формы слова не нужно. Так как морфыявляются основными составляющими слова, проиллюстрируем их полезность приопределении произношения. При соединении морфов они часто меняют своепроизношение. Например, при образовании множественного числа существительных«dog» и «cat» конечный /s/ будет звонким в первом случае иглухим во втором. Это пример морфофонемного правила, касающегося реализацииморфемы множественного числа в различных окружениях. Становится очевидным, чтодля эффективного и легкого определения произношения нужно распознатьсоставляющие морфемы слова и обозначить их границы. Еще один плюс морфемногоанализа — обеспечение подходящей базы для использования правил преобразованиябуква-звук. Большинство таких правил рассматривают слово какнеструктурированную последовательность букв, используя окно сканирования длянахождения согласных и гласных кластеров, которые преобразуются в фонетическиезначки. Буквы «t» и «h» в большинстве случаев выступают какединый согласный кластер, но в слове «hothouse» кластер /th/разрывается границей двух разных морфем. Гласный кластер /ea/ представляетмного трудностей для алгоритмов буква-звук, но в слове changeable он явноразрывается. В системе MITalk морфемный анализ всегда проводится передправилами преобразования букв в звуки. Лежащие в основе слова морфы не всегдаочевидны. Например, некоторые морфы множественного числа не всегда легкоопределить: mice, fish. Подобные формы заносятся в словарь. При помощиморфемного лексикона и соответствующего алгоритма анализа 95-98% слов анализируетсяудовлетворительно. В результате им приписывается фонетическая транскрипция ичасть речи.

·        Правила«буква-звук» и лексическое ударение

В системе MITalkнормализованный вводный текст подвергается морфологическому анализу. Можетбыть, что целое слово есть в словаре морфов, как, например, слово«snow». С другой стороны, слово может быть проанализировано какпоследовательность соединенных морфов. В английском языке среднее число морфовв слове, примерно два. В случае, если ни целое слово не может быть найдено всловаре морфов, ни проанализировано как последовательность морфов, в этомслучае применяются правила преобразования «буква-звук». Важноподчеркнуть, что этот метод никогда не применяется, если морфемный анализудался. Конвертация последовательности букв в последовательность звуков припомощи этих правил проходит в три этапа. Первый этап — отделение префиксов исуффиксов. Возможность отделения аффиксов не такая сильная, как в морфемноманализе, но действует удовлетворительно. Предполагается, что после отделенияпрефиксов и суффиксов остается одна центральная часть слова, которая состоит изодного морфа, подвергаемого  затемправилам преобразования.

Второй этап состоит впреобразовании согласных в фонетические значки, начиная с наиболее длинногосогласного кластера до тех пор, пока все отдельные согласные не будутпреобразованы. Последний этап — оставшиеся гласные преобразуются при помощиконтекстов. Гласные преобразуются последними, потому что это наиболее труднаязадача, зависящая от контекста. Например, гласный кластер /ea/ имеет 14 разныхпроизносительных контекстов и несколько произношений (reach, tear, steak,leather).

В системе MITalk правилапреобразования букв в звуки действуют в паре с широким набором правилрасстановки лексического ударения. Еще 25 лет назад лингвистам не удавалосьобнаружить никакой системы расстановки ударений в английских словах. ВНастоящее время разработан ряд правил, эффективно справляющихся с этой задачей.Ударения зависят от синтаксической роли слова, например, прилагательное«invalid» отличается от существительного. Таких слов немного, ноучитывать их необходимо. Кроме того, на некоторые суффиксы автоматически падаютударения в словах, как, например, в «engineer». Но бывают болеесложные случаи, которые разрешаются применением циклических правил.

В системе MITalk разработанынесколько наборов таких правил, некоторые из которых включают в себя до 600правил. Конечно, большинство из них употребляются довольно редко.Подразумеваются, что все сильные и неправильные формы преобразуются на стадии  морфологического анализа. Правила же«буква-звук» используются для преобразования новых и неправильнонаписанных слов. Например, слово «recieved» получает правильнуютранскрипцию, благодаря этим правилам преобразования.

·        Парсинг.

Каждая схема преобразованиянеограниченного текста в речь должна включать синтаксический анализ. Необходимоопределить синтаксическую роль слова, т.к. она часто влияет на произношение иударение. Кроме того синтаксический анализ важен для определения правильноготонального контура и временных характеристик. Просодические характеристикиважны для синтеза речи, чтобы она звучала живо и естественно. К сожалению,полный синтаксический анализ на уровне сложного предложения (clause-levelparsing) осуществить нельзя. Тем не менее, возможно провести синтаксическийанализ на уровне фразы (phrase-level parsing), в результате которогоопределяется большая часть необходимой для синтеза речи структуры, хотя внекоторых ситуациях неизбежны ошибки из-за отсутсвия анализа целогопредложения. Встречается множество синтаксически двусмысленных предложений,таких как «he saw the man in the park with a telescope», для которыхфразовый анализ достаточен.

В английском языке существуетряд синтагматических маркеров, по которым можно формально разграничить фразы:это вспомогательные глаголы, детерминативы в номинативных фразах. СистемаMITalk широко использует это и проводит высокоточный грамматический анализ  (augmented-transition-network grammas). Фразовыйанализ показал удовлетворительные результаты, хотя эффективный анализаторпредложений несомненно улучшил бы работу системы. Пока анализаторы предложенийсталкиваются со значительными трудностями, когда встречают неполное илисинтаксически омонимичное предложение. По завершении деятельности блокасинтаксического анализа система приписывает словам маркеры функциональныхчастей речи, отмечает синтаксические паузы как основу для дальнейшего уточненияпроизношения, временных харатеристик, частоты основного тона.

·        Модификацияударения и фонологические уточнения.

Последняя фаза анализасостоит в некоторых незначительных поправках к имеющейся уже фонетическойтранскрипции на основе анализа контекстного окружения. Простой примеропределения произношения артикля «the», которое зависит от начальногозвука последующего слова. Кроме того, на этом этапе используются некоторыеэвристические методы проверки правильного соотношения общего контурапредложения с контурами отдельных слов. На этом этапе заканчивается подготовкаисходного текста собственно к самому процессу синтеза.

6              Синтез.

Важно осознать, что в системеMITalk не используются готовые речевые волны даже в параметрическомпредставлении. Система не хранит параметрические представления множества морфовили слов. Вместо этого были разработаны правила контроля параметров, так чтоможно реализовать любую желаемую речевую волну на выходе.

·        Просодическаярамка.

Первый шаг в созданиивыходной речевой волны — создание временного контура и частоты основного тона (основные корреляты интонации ), на основе которых строится детальнаяартикуляция отдельных фонетических элементов. Распределение ударения, котороебыло вычислено на стадии анализа, во многом ответственно за контур временногораспределения и тональный контур. Часто интенсивность принимают за коррелятударения, тогда как главными ключами являются длительность и изменения втональном контуре. Согласные мало меняются по длительности, в то время какгласные более пластичны и могут легко сжиматься или растягиваться. Существуеттакже тенденция растягивать слова на границе основных абзацев предложения, инаоборот, сжимать интервалы на относительно невыделенных участках. Кроме того,на основе временной рамки задается частота основного тона (или тональныйконтур). В утвердительных предложениях обычно высота тона резко поднимается напервом ударном слоге, затем плавно снижается до последнего ударного слога, гдеона резко падает. Вопросительные и повелительные предложения имеют различныетональные контуры. Кроме целостного контура предложения существуют еще локальныеударения. Большее ударение получают слова, выражающие отрицание или сомнение (например, слово might ), значение частоты основного тона на них возрастает;новая информация в предложении также больше выделяется ударением. С другойстороны, высота тона используется в семантических и эмоциональных целях, что неможет быть выведено из письменного текста. Необходимо лишний раз подчеркнутьважность составления правильного просодического контура, т.к. неправильныйпросодический контур может привести к трудностям в восприятии.

·        Синтезфонетических сегментов.

Когда завершено созданиепросодической рамки, создаются параметры, соответствующие модели речевоготракта. Обычно таких параметров 25, которые изменяются с интервалом 5 — 10мсек. В настоящее время используются около 100 контекстных правил описаниятраектории изменения параметров. Когда значения параметров вычислены, онидолжны быть перенесены на соответствующую модель речевого тракта (обычно этоформантная модель или LPC-модель). Выходная дискретная модель создается обычнона частоте 10 Кгц.

7              Оценка синтетической речи.

С точки зрения понятности,разборчивости качество синтезированной речи достаточно хорошее. Был проведентест, где одна группа испытуемых прослушивала синтезированную речь с письменнымвариантом перед глазами, а другая — без. Выяснилось, что результатыпрослушивания мало отличаются друг от друга. Тем не менее, синтезированной речи не хватает живости и естественности,поэтому воспринимать ее на протяжении длительного времени трудно. Исследованияпоказали, что фрикативные и назальные звуки требуют дальнейшего улучшениякачества.

еще рефераты
Еще работы по литературе, лингвистике