Реферат: Речевые технологии

<span Bruskovaya",«sans-serif»">Перспективыречевого интерфейса

<span Bruskovaya",«sans-serif»"> 

<span Times New Roman",«serif»">Писать о речевом интерфейсесложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие иприменение этой технологии только начина­ется (в который раз). С одной стороны,успели сформировать­ся устойчивые стереотипы и пре­дубеждения, с другой — несмот­ря на почти полвека настойчивых усилий не нашли разрешения вопросы,стояв­шие еще перед родоначальниками речевого ввода. Какбы

<span Times New Roman",«serif»">то ни было, продолжат­ся поиски такогоинтерфейса, ко­торый устроил бы всех. Собственно говоря, это как раз то, к чемучеловечество всегда стремилось в общении с компьютером.

Исследователи недалеко про­двинулисьза прошедшие десятки лет, что заставляет некоторых спе­циалистов крайнескептически от­носиться к самой возможности реализации речевого интерфейса вближайшем будущем. Другие считают, что задача уже практи­чески решена. Впрочем,все зави­сит от того, что следует считать решением этой задачи.

Построение речевого интер­фейсараспадается на три состав­ляющие.

I.<span Times New Roman"">             

Первая задача состоит в том, чтобы компьютер мог«понять» то, что ему говорит человек, то есть он доложен уметь извлекать изречи человека полезную ин­формацию. Пока что, на нынеш­нем этапе, эта задачасводится к тому, чтобы извлечь из речи смысловую ее часть, текст (пони­маниетаких составляющих, как скажем, интонация, пока вообще не рассматривается). Тоесть эта задача сводится к замене клави­атуры микрофоном.

II.<span Times New Roman"">          

 Втораязадача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевоесообщение состоит из некоего стандартного набора понятных компьютеру команд(скажем, дуб­лирующих пункты меню), ничего сложного в ее реализации нет. Однаковряд ли такой подход бу­дет удобнее, чем ввод этих же ко­манд с клавиатуры илипри помо­щи мыши. Пожалуй, даже удоб­нее просто щелкнуть мышкой по иконкеприложения, чем четко выговаривать (к тому же мешая окружающим); «Старт!Главное меню! Бери!» В идеале компьютер должен четко «осмысливать» ес­тественнуюречь человека и пони­мать, что, к примеру, слова «Хва­тит!» и «Кончай работу!»означа­ют в одной ситуации разные по­нятия, а в другой — одно и то же.

III.<span Times New Roman"">       

 Третьязадача состоит в том, чтобы компьютер мог преобразо­вать информацию, с которойон оперирует, в речевое сообщение, понятное человеку.

Так вот, из этих трех задачдостаточно ясное и окончатель­ное решение существует только для третьей. Посути, синтез речи — это чисто математическая за­дача,которая в настоящее время решена на довольно хорошем уровне. И в ближайшеевремя, скорее всего, будет совершен­ствоваться только ее техническаяреализация.

Препятствиемдля  окончательного решения первой задачи слу­жит то, что никто до сихпор тол­ком не знает, каким образом мож­но расчленить нашу речь, чтобы извлечьиз нее те составляющие, в которых содержится смысл. В том звуковом потоке, которыймы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов, обэтом более подробно я Вам расскажу позже… Во всяком случае, послепредварительной тренировки современные системыраспознавания речи работают довольно сносно и делают оши­бок не больше, чемделали оптические системы распознавания пе­чатных символовлет пять-семь назад.

Что касается второй задачи, тоона, по мнению большинства спе­циалистов, не может быть решена без помощисистем искусственно­го интеллекта. Последние, как из­вестно, пока не созданы,хотя боль­шие надежды возлагаются на по­явление так называемых кванто­вых. Если же подобные устройства появятся, это будет оз­начатькачественный переворот в вычислительных технологиях, и тогда, как знать, может быть, мно­гие теперешние подходы к рече­вомуинтерфейсу вообще окажут­ся ненужными.

Поэтому пока удел речевогоинтерфейса — всего лишь дубли­рование голосом команд, кото­рые могут бытьвведены с клави­атуры или при помощи мыши. А здесь его преимущества весьма  сомнительны. Впрочем, есть одна область,которая для многих может ока­заться очень привлекательной. Это речевой вводтекстов в компью­тер. Действительно, чем стучать по клавиатуре, гораздо удобнеепродиктовать все компьютеру, чтобы он записал услышанное втекстовый файл. Здесь вовсе не требуется, чтобы компьютер «ос­мысливал»услышанное, а задача перевода речи в текст более или менее решена. Недаромбольшин­ство выпускаемых ныне программ «речевого интерфейса» ориенти­рованыименно на ввод речи.

Хотя и здесь есть место дляскепсиса. Если читать вслух, четко выговаривая слова, с паузами,монотонно, как это требуется для системы распознаванияречи, то на машинописную страничку у меня уйдет пять минут. Печатаю наклавиатуре я с той же скоростью. Но сочиняю, при наличии вдох­новения, раза вдва-три медлен­нее, а без оного — медленнее раз в пять,так что скорость «ввода» и при диктовке  и при работе на кла­виатуреу меня абсолютно одинакова. Но вот сочинять и одновременно выговаривать сочиняемое с четкой  артикуляцией, хоть убей, те не смогу.

  Первый — и, пожалуй, основ­ной — вопроскасается области применения. Поиск приложений, где распознавание речи могло быпродемонстрировать все свои достоинства, вопреки устоявше­муся мнению, являетсязадачей далеко не тривиальной. Сложив­шаяся практика применения ком­пьютероввовсе не способствует широкому внедрению речевого интерфейса.

Для подачи команд, связан­ныхс позиционированием в про­странстве, человек всегда поль­зовался и будетпользоваться жес­тами, то есть системой «руки- глаза». На этом принципепостроен современный графический ин­терфейс. Перспектива замены клавиатуры имыши блоком рас­познавания речи абсолютно от­падает. При этом выигрыш от воз­ложенияна него части функций управления настолько мал, что не смог предоставитьдостаточных оснований даже для пробного внедрения в массовых компьюте­рах напротяжении уже более три­дцати лет. Именно таким сроком оцениваетсясуществование ком­мерчески применимых систем распознавания речи.

 Для иллюстрации своих аргументов возможно,несколько спор­ных утверждений рассмотрю перспективу и основные пробле­мыприменения систем речевого ввода текстов, особенно активно продвигаемых впоследнее время.

Для сравнения: спонтанная речьпроизносится со средней ско­ростью 2,5 слов в секунду, про­фессиональнаямашинопись — 2 слова в секунду, непрофессио­нальная — 0,4. Таким образом, напервый взгляд, речевой ввод имеет значительное превосходство попроизводительности. Однако оценка средней скорости диктов­ки в реальныхусловиях снижается до 0,5-0,8 слова в секунду в связи с необходимостью четкогопроиз­несения слов при речевом вводе и достаточно высоким процентом ошибокраспознавания, нуждаю­щихся в корректировке.

Речевой интерфейс естественендля человека и обеспечивает допол­нительное удобство при наборе тек­стов.Однако даже профессиональ­ного диктора может не обрадовать перспектива втечение нескольких часов диктовать малопонятливому и немому (кэтому я еще вернусь) ком­пьютеру. Кроме того, имеющийся опыт эксплуатацииподобных сис­тем свидетельствует о высокой веро­ятности заболевания голосовых связок операторов, что связано с неиз­бежнойпри диктовке компьютеру монотонностью речи.

Часто к достоинствам речевоговвода текста относят отсутствие не­обходимости в предварительном обучении.Однако одно из самых слабых мест современных систем распознавания речи- чувстви­тельностьк четкости произноше­ния- приводит к потере этого, казалось бы, очевидногопреиму­щества. Печатать на клавиатуре оператор учится всреднем 1-2 месяца. Постановка правильного произно­шения может занять нескольколет.

Существует и еще одно непри­ятноеограничение применимо­сти, сознательно не упоминаемое, на мой взгляд,создателями сис­тем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать взвука изолированном отдельном помещении либо пользоватьсязвукоизоли­рующим шлемом. Иначе он будет мешать работе своих соседей по офису,которые, в свою очередь, создавая дополнительный шумо­вой фон, будутзначительно за­труднять работу речевого распо­знавателя. Таким образом, рече­войинтерфейс вступает в явное противоречие с современной ор­ганизационнойструктурой пред­приятий, ориентированных на коллективный труд. Ситуация не­сколькосмягчается с развитием удаленных форм трудовой дея­тельности, однако ещедостаточ­но долго самая естественная для человека производительная и по­тенциальномассовая форма поль­зовательского интерфейса обре­чена на узкий кругприменения.

Ограничения применимостисистем распознавания речи в рам­ках наиболее популярных тради­ционныхприложений заставляют сделать вывод о необходимости поиска потенциальноперспектив­ных для внедрения речевого ин­терфейса приложений за преде­ламитрадиционной офисной сфе­ры, что подтверждается коммер­ческими успехамиузкоспециали­зированных речевых систем. Са­мый успешный на сегодня проекткоммерческого применения рас­познавания речи — телефонная сеть фирмы АТ&Т. Клиент может запросить одну из пяти категорийуслуг, используя любые слова. Он говорит до тех пор, пока в его высказывании невстретится одно из пяти ключевых слов. Эта систе­ма в настоящее время обслужива­етоколо миллиарда звонков в год.

Несмотря на то, что одним изнаиболее перспективных направ­лений для внедрений систем рас­познавания речиможет стать сфе­ра компьютерных игр, узкоспециа­лизированных реабилитационныхпрограмм для инвалидов, телефонных и информационныхсис­тем, ведущие разработчики рече­вого распознавания наращивают усилия подостижению универса­лизации и увеличения объемов словаря даже в ущербсокращению процедуры предварительной на­стройки на диктора.

Даже Билл Гейтс,являющий со­бой в некотором смысле идеал праг­матизма, оказался не свободенот исторически сложившихся стерео­типов. Начав в 95-96 году с разра­боткисобственной универсальной системы распознавания речи, он, окрыленный первыми и,пожалуй, сомнительными успехами, в 97-м провозгласилочередную эру по­всеместного внедрения речевого ин­терфейса. Средства речевоговвода планируется включить в стандарт­ную поставку новой версии Windows NT — чисто офисной операционной системы. При этом руко­водитель Microsoftупорно повто­ряет фразу о том,что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планируетпродавать вместе с коробкой WindowsNTаку­стические шлемы вроде тех, кото­рые используют военные летчики ипилоты «Формулы 1». Кроме того, неужели вближайшем бу­дущем прекратится выпуск Word,Ехсеl и т. д.? Управлятьграфическими объектами экрана голосом, не имеявозможности помочь руками, бо­лее чем затруднительно.

<span Times New Roman",«serif»">Будущееречевого интерфейса в не меньшей степени зависит от умения современныхисследова­телей и разработчиков не только создать технологическую основуречевого ввода, но и гармонично слить технологические находки в единуюлогически завершенную систему взаимодействия «чело­век-компьютер». Основная ра­ботаеще впереди.

<span Bruskovaya",«sans-serif»">Базоваятехнология

Не следует путатьтермины «понимание» и распознавание» речи. В то время как второйнепосредственно относится к техноло­гиипреобразования акустических речевых сигналов в последова­тельность символовмашинной кодировки, например ASCII. первый подразумевает анализ более высокихуровней (прагматический, семантический и т. д.)и формирование на его основе представле­ния о смысловом содержаниивысказывания. Дальнейшее разграничение задан укрепилось благодаря коммерческомууспеху узкоспециализированных систем, ни в малейшей степени не нуждающихся,напри­мер, в модуле анализа контекста высказывания.

Традиционно процессраспознавания речи подразделяется на несколько этапов. На первом — производитсядискретизация непрерывного речевого сигнала. преобразованного в электрическуюформу  Обычно частотадискретизации составляет 10-11 кГц. разрядность- 8 бит, что считаетсяоптимальным для работы со словарями небольшого объема (10-1000 слов) исоответствует качеству передачи речи телефонного канала (ЗГц-3.4кГц). понятно что увеличение объема активного словаря должно со­провождатьсяповышением частоты оцифровки н в некоторых случаях — поднятием разрядности.

На втором этапедискретный речевой сигнал подвергается очистке от шумов и преобразуется в болеекомпактную форму. Сжатие производится посредством вычисления через каждые 10 мснекоторого набора числовых параметров (обычно не более  16) с минимальными потерями информации, описывающейданный речевой сигнал. Состав набора зависит от особенностей  реализации системы. Начиная с 70-х годовнаиболее популярным методом (практически стандартом) построения сжатогопараметрического описания стало линейно-предиктивное кодирование (ЛПК), воснове которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярностинаходится, вероятно, спектральное описание, полученное с  помощью дискретного преобразования Фурье.

Очень хорошиерезультаты, однако, могут быть достигнуты и при использовании других методов,часто менее требовательных к вычислительным ресурсам, например клипирования. Вэтом случае регистрируется количество изменений знака амплитуды речевогосигнала и временные интервалы между ними. Получаемая в резуль­татепоследовательность значений, представляющих собой оценку длительностей периодовсохранения знака амплитудой, несмотря на кажущуюся примитивность метода,достаточно полно представляет различия между произносимыми звуками. На такомметоде предоб­работки основана, в частности, система распознавания речи, разра­ботаннаяв конце 80-х в НИИ счетного машиностроения (Москва).

Временной (10 мс)интервал вычисления был определен и обос­нован экспериментально еще на зареразвития технологии авто­матического распознавания речи. На этом интерваледискретный случайный процесс, представляющий оцифрованный речевой сиг­налсчитается стационарным, то есть на таком временном интер­вале параметрыголосового тракта значительно не изменяются.

Следующий этап- распознавание. Хранимые впамяти компь­ютера эталоны произношения по очереди сравниваются с текущимучастком последовательности десяти миллисекундных векторов, описывающих входнойречевой сигнал. В зависимости от степени совпадения выбирается лучший вариант иформируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с оченьсуще­ственной проблемой — необходимостью нормализации сигнала по времени. Темпречи, длительность произношения отдельных слов и звуков даже для одного диктораварьируется в очень широких пределах. Таким образом, возможны значительныерасхождения между отдельными участками хранимого эталона и теоретическисовпадающим с ним входным сигналом за счет их временного рассогласования.Достаточно эффективно решать данную пробле­му позволяет разработанный в 70-х годах алгоритм динамического программирования и егоразновидности (алгоритм Витерби). Осо­бенностью таких алгоритмов являетсявозможность динамического сжатия и растяжения сигнала по временной осинепосредственно в процессе сравнения с эталоном. С начала 80-х все более широкоеприменение находят марковские модели, позволяющие на основе многоуровневоговероятностного подхода к описанию сигнала производить временную нормализацию ипрогнозирование продолжений, что ускоряет процесс перебора эталонов и повышаетнадежность распознавания.

<span Bruskovaya",«sans-serif»;layout-grid-mode:line">Что такое распознавание речи?

 На первый взгляд, все очень просто: выпроизносите фразу, на которую техническая система реагируетадекватно .На самом деле за столь простой идеей кроются огромные сложно­сти.

Почему же между постановкойзадачи и ее решением лежит дис­танция огромного размера? Рас­познавание речи — молодая, раз­вивающаяся технология. Ее очер­тания пока зыбки и изменчивы.Поэтому в статье пока больше во­просов, чем ответов. Я попытаюсь немногорассказать о технологиях распознавания речи, и, надеюсь, вам будет интересно.

<span Bruskovaya",«sans-serif»">Немного о терминах

Начнем с главного термина. Чтоесть речь?

Говоря о речи, мы должны раз­личатьтакие понятия, как «речь», «звуковая речь», «звуковой сиг­нал», «сообщение»,«текст».

   В нашем случае, в приложении к задачераспознавания такие поня­тия, как «речь» и «звуковая речь» означают одно и тоже — некое генерируемое человеком звуковое сообщение, которое может бытьобъективно зарегистрировано, измерено, сохранено,обработано и, что важно, воспроизведено при по­мощи приборов и алгоритмов. Тоесть речь может быть представлена в виде некоего речевого сигнала, который всвою очередь может ис­пользоваться для обратного вос­произведения речи. То естьможно поставить знак эквивалентности ме­жду звуковой речьюи ее представ­лением в виде речевого сигнала.При этом под понятием «сообщение» может скрываться любая по­лезная для получателя информа­ция, ане только текст. Например, если интересоваться не словами а интонациями, тосообщением будут просодическиенюансы речи. Что жекасается распознавания речи, то в нашем случае задача сводится к извлечению изречи текста.

Но здесь мы сталкиваемся с од­нимпротиворечием. Текст, как из­вестно, состоит из букв, слов, пред­ложений, — тоесть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческаяречь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск ком­пьютеразвучание каждой отдель­ной буквы, а потом попробуем ском­поновать из этихзвуков речь, у нас ничего не получится.

Люди уже довольно давно дога­далисьо том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам.Поэтому  придумалипонятие фонемы для обозначения элементарных звуков речи. Хотя до сих порспециалисты никак не могут решить — сколько же всего различных фонем суще­ствует.Есть даже такой раздел лин­гвистики — фонетика. Большинство авторов даже дляодного и того же языко­вого диалекта приводят разное ко­личество фонем. Врусском языке  по одним данным 43 фонемы,по другим — 64, по третьим — более сотни… Но так уж повелось, что есть миф онезыблемости понятия фонемы. И о том, что речевой сиг­нал состоитнепосредственно из ку­сочков сигнала, каждый из которых является фонемой. Ксожалению, все далеко не так просто.

Поначалу ученые рассматрива­лиречевой сигнал как набор некихуниверсалий, расположенных другза другом на временной оси, и считали этими универсалиями фо­немы. Однакодальнейшие иссле­дования речевых сигналов ника­ких фонем не обнаружили.

Тогда одни исследователи спра­ведливорешили, что при генера­ции речевых сигналов наблюдает­ся коартикуляция,то есть взаимо­проникновение соседних звуков (мышцы лица, язык и челюсти об­ладаютразной инерцией). Значит, речевой сигнал должен состоять не из фонем, а изаллофонов — комбинаций «слипшихся» фонем.

Другие исследователи, подобнофизикам, атаковали идею элемен­тарности фонем и стали утвер­ждать, что фонемынадо поделить на еще более короткие кусочки или даже вообще отказаться от этогопонятия и «расчленять» речевой сигнал как-то иначе. Так родились фоноиды и еще масса авторских названий элементарных звуков.

А дальше все многозначитель­нозамолчали. Каждый принялся рассматривать речевой сигнал со своей позиции,сообщай об успе­хах весьма туманно. Последнее, весьма вероятно, можно объяснитьжеланием сохранить ноу-хау. Вот такая картина. Люди изобрели це­лую кучупретендентов на универ­сальность. Конечно, в их основу положено прежде всего человеческое ощущениезвука. Возмож­но поэтому фонемы ничем не луч­ше букв. А фоноиды,аллофоны и прочая — лишь усовершенство­ванная версия звукового деления речи. Может быть, в них и естькакой-то смысл. Мы ведь услы­шим. А технически-то сигнал со­стоит не из наших,человеческих компонентов восприятия. Сигнал можно разложить, отфильтровать,как-то еще преобразовать. Задача не в этом. Необходимо найти некий эквивалент,построить модель ме­ханизма восприятия звуков речи.  Большой интерес дляученых, работающих в облас­ти распознавания речи, представ­ляют различныеразделы лингвистики, науки о языках. Возможно, удачныйсинтез достижений этих наук и теории обработки речевых сигналов приведут к ус­пешномусозданию систем распознавания .

Главные трудностифонемного подхода

             Темп речи варьируется в широ­ких пределах,часто в несколько раз. При этом различные звуки речи растягиваются или сжимают­сяне пропо-рционально. Напри­мер, гласные изменяются значи­тельно сильнее, чемполугласные и особенно смычные согласные. Для так называемых щелевых зву­ковесть свои закономерности. (По­лугласные — это звуки при гене­рации которыхнеобходимо участие голосовых связок, как и для гласных звуков, но сами они воби­ходе считаются согласными. На­пример, так обычно звучат «м», «н», «л» и«р». Смычные звуки образуются при резком смыкании и размыканииорганов артикуляции. Например «б», «л», «д», «т». Образование щелевыхзвуков свя­зано с шипением и прочими эф­фектами турбулентности в органахартикуляции. Можно назвать «в», «ж», «с», а также «ш» и другие шипящие. Вкачестве примеров для простоты намеренно не приведе­ны звуки, не имеющиебуквенных обозначений.) Эта свойство называется временнойнестационарностью образцов речевого сигнала. Произнося одно и то же слово или фразу в разное время, под влияниемразличных факторов (настроения, состояния здоровья и др.), мы генерируем заметноне совпадающие спектрально-вре­менные распределения энергии. Это справедливодаже для дваж­ды подряд произнесенного сло­ва. Намного сильнее этот эффектпроявляется при сравнении спек­трограмм одной и той же фразы, произнесеннойразными людьми. Обычно этот эффект называют спектральной нестационарной сетьюобразцов речевого сигнала (см. примеры спектрограмм). В Изменение темпа речи ичетко­сти произношения является при­чиной коартикуляционной нестационарности,означающей изме­нение взаимовлияния соседних звуков от образца к образцу.Проблема кластеризации слит­ной речи. Из непрерывного рече­вого потока довольнонепросто вы­делить какие-либо речевые еди­ницы. Многие звуки «слипаются» либоимеют нечеткие границы.

<span Bruskovaya",«sans-serif»">Многообразиевидов

Существующие системы распо­знаванияречи можно классифи­цировать по разным признакам.

<span Academia",«sans-serif»;layout-grid-mode: line">По назначению:

1)<span Times New Roman"">     

командные системы

2)<span Times New Roman"">     

системы диктовки текста.

<span Academia",«sans-serif»;layout-grid-mode: line">По потребительским качествам

:

1)<span Times New Roman"">     

диктороориентированные (тре­нируемые наконкретного диктора)

2)<span Times New Roman"">     

дикторонезависимые (рискую предложить термин«омнивойс»)

3)<span Times New Roman"">     

распознающие отдельные слова

4)<span Times New Roman"">     

распознающие слитную речь.

<span Academia",«sans-serif»;layout-grid-mode: line"> По механизмам функциониро­вания:

1)<span Times New Roman"">     

простейшие (корреляционные) детекторы

2)<span Times New Roman"">     

экспертные системы с различ­ным способомформирования и обработки базы знаний

3)<span Times New Roman"">     

вероятностно-сетевые модели принятия решения, втом числе нейронные сети.

Довольно трудно выбрать удоб­ныйпоказатель качества работы системы распознавания речи. Наи­более просто такойпоказатель ка­чества вводится для командных систем. При тестировании в слу­чайномпорядке произносятся все возможные команды достаточно большое число раз.Подсчитыва­ется количество правильно распознанных команд и делится на об­щееколичество произнесенных команд. В результате получается оценка вероятностиправильного распознавания команды в задан­ной при эксперименте акустиче­скойобстановке. Для систем дик­товки похожий показатель качест­ва может вычислятьсяпри диктов­ке некоторого тестового текста. Очевидно, что это не всегда удоб­ныйпоказатель качества. В дейст­вительности мы сталкиваемся с са­мыми различнымиакустическими обстановками. Но как быть со сменой дикторов и сопутствующей ейтре­нировкой системы?

В качестве примера разрешитевзять на рассмотрение вариант простейшей командной системы распознавания речи.Функционирование системы осно­вано на гипотезе о том, что спек­трально-временныехарактеристи­ки команд-слов для отдельно взя­того диктора изменяются слабо.Акустическая модель такой систе­мы представляет собой преобразователь изречевого сигналов спектрально-временную матрицу и мо­жет служить типичнымпримером изобретательского подхода. В са­мом простом случае команда ло­кализуетсяво времени по паузам в речевом сигнале. Лингвистический блок способенобнаружить огра­ниченное число команд плюс еще одну, которая означает всеосталь­ные неизвестные системе слова. Как правило, лингвистическая мо­дельстроится как алгоритм поиска максимума функционала от вход­ного образца иобразцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размер­ности пространства описания иего метрики может широко варьиро­ваться разработчиком.

Уже исходя из «конструкции»описанной системы понятно, что она представляет собой скорее игрушку, нежелиполезный инструмент. В на­стоящее время на рынке представ­лено множествокоммерческих сис­тем распознавания речи с гораздо большими возможностями:

ü<span Times New Roman"">     

VoiceType Dictation, Voice Pilot, ViaVoice от IBM

ü<span Times New Roman"">     

VoiceAssist  Creative от Techonology

ü<span Times New Roman"">     

Listenfor Windows  от Verbex и многие другие.

            Некоторые из них (например, ViaVoice) спо­собны, как заявляютразработчи­ки, вводить слитную речь.

Лингвистические блоки совре­менныхсистем реализуют слож­ную модель естественного языка. Иногда она основана наматемати­ческом аппарате скрытых цепей Маркова, иногда использует по­следниедостижения технологии нейронных сетей либо других ноу-хау. Устройство жеакустических блоков подобных систем держится в строгом секрете. По некоторымпризнакам можно догадаться, что акустический блок некоторых сис­тем пытаетсямоделировать естест­венный слуховой аппарат.

<span Bruskovaya",«sans-serif»;layout-grid-mode: line">Речевой вывод.

Речевой вывод информации изкомпьютера- проблема не ме­нее важная, чем речевой ввод. Это вторая частьречевого интерфей­са, без которой разговор с компь­ютером не может состояться.Я имею в виду прочтение вслух тек­стовой информации, а не проиг­рывание заранеезаписанных зву­ковых файлов. То есть выдачу в речевой форме заранее не из­вестнойинформации.

Фактически, благодаря синтезуречи по тексту открывается еще один канал передачи данных от компьютера кчеловеку, анало­гичный тому, какой мы имеем бла­годаря монитору. Конечно, труд­новатобыло бы передать рисунок голосом. Но вот услышать элек­тронную почту илирезультат по­иска в базе данных в ряде случаев было бы довольно удобно, осо­бенноесли в это время взгляд за­нят чем-либо другим. Например, придя утром на работув офис, вы могли бы поправлять галстуку зер­кала или возвращать на место при­ческу(может быть, даже подкра­шивать ногти ) в то время как ком­пьютербудет  читать вслухпо­следние известия или почту. Или. например, в середине рабочего дня он может привлечь ваше вни­мание сообщением, что прибли­жается времязаранее назначен­ной деловой встречи.

С точки зрения пользователя,наиболее разумное решение про­блемы синтеза речи — это вклю­чение речевыхфункций (в перс­пективе — многоязычных, с воз­можностями перевода) в составоперационной системы. Компьютеры будут озву­чивать навигацию по меню, читать(дублировать голосом) экранные сообщения, каталоги файлов, и т. д.Важное замечанием пользо­ватель должен иметь достаточные возможности понастройке голоса компьютера, в частности, при же­лании, суметь выключить голоссовсем.

Вышеупомянутые функции исейчас были бы не лишними для лиц, имеющих проблемы со зре­нием. Для всехостальных они соз­дадут новое измерение удобства пользования компьютером и зна­чительноснизят нагрузку на нерв­ную систему и на зрение. По моему мнению, сейчас нестоит во­прос, нужны синтезаторы речи в персональных компьютерах или нет.Вопрос в другом — когда они будут установлены на каждом ком­пьютере. Осталосьждать, может быть, год или два.

<span Bruskovaya",«sans-serif»">Методы синтеза речи

 Теперь, после оптимистического описанияближайшего будущего давайте обратимся собственно к тех­нологии синтеза речи.Рассмотрим какой-нибудь хотя бы минимально осмысленныйтекст, например, эту статью. Текст состоит из слов, раз­деленных пробелами изнаками  препинания.Произнесение слов зависит от их расположения в пред­ложении,а интонация фразы — от знаков препинания. Более того, довольно часто и от типаприме­няемой грамматической конструк­ции: в ряде случаев при произне­сениитекста слышится явная пауза, хотя какие-либо знаки препи­нанияотсутствуют. Наконец, про­изнесение зависит и от смысла сло­ва! Сравните,например, выбор од­ного из вариантов за'мок» или «замо'к» для одного и того же слова «замок».

<span Bruskovaya",«sans-serif»">Обобщенная функциональная системасинтеза

 Структура идеализированной сис­темыавтоматического синтеза ре­чи может быть представлена блок- схемой,изображенной на рис.1.

<img src="/cache/referats/1377/image001.gif" v:shapes="_x0000_s1026">


<img src="/cache/referats/1377/image002.gif" v:shapes="_x0000_s1027"><img src="/cache/referats/1377/image003.gif" v:shapes="_x0000_s1028">Ввод текста

<img src="/cache/referats/1377/image004.gif" v:shapes="_x0000_s1029 _x0000_s1030 _x0000_s1031">


          Блокилингвистической                    Определение                Исправление

          Обработки                                          языка текста                ошибок

                Подготовкатекста                                                            входного текста

             козвучиванию               

                          

<img src="/cache/referats/1377/image005.gif" v:shapes="_x0000_s1032"><img src="/cache/referats/1377/image006.gif" v:shapes="_x0000_s1033">                         Нормализация текста

<img src="/cache/referats/1377/image007.gif" v:shapes="_x0000_s1034">


                          Лингвистическийанализ

<img src="/cache/referats/1377/image008.gif" v:shapes="_x0000_s1035"><img src="/cache/referats/1377/image009.gif" v:shapes="_x0000_s1036">                               Формирование             Фонемный  транскриптор

                                              Просодических                  Приведение фонем

                                характеристик                    кединицам синтеза

<img src="/cache/referats/1377/image010.gif" v:shapes="_x0000_s1038 _x0000_s1037 _x0000_s1039">


<img src="/cache/referats/1377/image011.gif" v:shapes="_x0000_s1040">  Озвучивание               Формирование управляющейинформации

<img src="/cache/referats/1377/image012.gif" v:shapes="_x0000_s1041">                                               Получение звукового сигнала

  

                                                                 Звук

 Она не описывает ни одну из суще­ствующихреально систем, но со­держит компоненты, которые мож­но обнаружить во многихсистемах.

<span Bruskovaya",«sans-serif»">Модуль лингвистической обработки

Прежде всего, текст,подлежащий прочтению, поступает в модуль лингвистической обработки. В немпроизводится определение языка, а также отфильтровываются не подлежащиепроизнесению символы. В некоторых случаях ис­пользуются спелчекеры(модули исправления орфографических и пунктуационных ошибок). Затемпроисходит нормализация текста, то есть осуществляется разделе­ние введенноготекста на слова и остальные последовательности символов.Все знаки пунктуацииочень информатив­ны.

Для озвучивания цифр разра­батываютсяспециальные подблоки. Преобразование цифр в по­следовательностислов является относительно легкой задачей, но цифры имеющие разное значение ифункцию, про­износятся по-разному.

Лингвистический анализ

После процедуры нормализациикаждому слову текста  необходимоприписать сведения о его произношении, то есть превратить в цепочку фонем или, иначе говоря,создать его фо­немную транскрипцию. Во многих языках, в том числе и в русском,существуют достаточно регулярные правила чтения — правиласо­ответствия между буквами и фоне­мами (звуками), которые, однако могуттребовать предварительной расстановкисловесных ударений. В английском языке правила чте­ния очень нерегулярны, изадача данного блока для английского синтеза тем самым усложняется. В любомслучае при определении прои

еще рефераты
Еще работы по программированию, базе данных