Реферат: Система регистрации речи диспетчерских переговоров

Министерствообразования РФ

Факультет К защите

Специальность Зав. кафедрой_____________

“____”_____________200 г.

ПОЯСНИТЕЛЬНАЯ ЗАПИСКА

к дипломной работе на тему

Система регистрации речи диспетчерских переговоров.

Дипломник_______________________ (______________________)

Руководитель работы_______________ (______________________)

Консультантпо

Экономическойчасти_______________ (_______________________)

Консультанткафедры_______________ (_______________________)

“___16___”____июня_______________2005 г.

DieInhaltsangabe.

Das gegebeneDiplomprojektbetrachtet das Problem desRegistrierungesder Rede in den Dispatcherverhandlungen. Das Programm ist mit der Nutzungder Programmiersprache — Delphi7, des ProgramminterfacesTelefonie (TAPI)entwickelt. Es wird auch

das Untersystem der Kompression des Lautesverwendet, das den Anwendungen den Satz der Servicemittel fürdas Umwandeln der lautlichen Formate und anderer Artender Bearbeitung der lautlichen Daten gewährt. Das System des Registrierungesder Rede funktioniert unter Leitung des BetriebssystemesWindows XP und bei Vorhandensein von dem Mechanismus BDE für die Arbeitmit den Datenbasen.

Содержание

TOC o «1-3» n 1 Введение.Технико-экономическое обоснование темы… 7

2 Обзорформатов преобразования звуковых данных… 15

2.1 Отличия цифрового представления сигналов отаналогового.… 15

2.2 Способы представления звука в цифровом виде… 17

2.3 Особенностивосприятия речевых данных человеком… 20

2.4 Диспетчерсжатия звука… 21

2.5 Универсальныекодеки… 22

2.6 Кодекидля сжатия только речи… 37

2.7 Рекомендациипо выбору форматов… 40

3 Программнаяреализация системы регистрации речи диспетчерских переговоров… 42

3.1 Общееописание программного обеспечения реализующего разработанный алгоритм 42

3.2 Программныйинтерфейс телефонии (TAPI)… 46

3.3 Обработказвуковых файлов в Windows… 54

3.4 Подсистемасжатия звука в Windows… 65

3.5 Работас базами данных в DELPHI… 86

3.6 Системарегистрации речи диспетчерских переговоров… 95

4 Экспериментальнаячасть… 103

5 Экономическаячасть… 105

5.1 План выполнения НИР… 105

5.3 Составлениесметы затрат и определение цены на НИР… 106

5.3 Оценкаэкономической эффективности НИР… 110

6 Безопасностьи экологичность проекта… 111

6.1 Вступление… 111

6.2 Анализопасных и вредных факторов, воздействующих на разработчика при разработкеданной системы… 112

6.2.1 Микроклимат рабочей зоны разработчика… 113

6.2.2 Освещение рабочего места… 114

6.2.3 Воздействие шума на разработчика. Защита от шума… 115

6.2.4 Опасность повышенного уровня напряженностиэлектромагнитного поля…

………………….… 116

6.2.5 Электробезопасность. Статическое электричество… 118

6.3 Организация рабочего места разработчика… 119

6.4 Анализ пожарной безопасности… 121

6.5 Расчетискусственного освещения… 124

7 ЗаКЛЮЧЕНИЕ… 128

Список литературы… 129

Приложение 1… 132

1

Всвязи с развитием рыночных отношений в России и необходимостью сокращенияразрыва в технологическом отставании России от западных стран, актуальнымстановится эффективное использование новых информационных технологий. Информационныйбизнес, являясь составной частью бизнеса, придает общее ускорениеразвитию экономики.

Наэкономику предприятий, связанных с эксплуатацией вычислительной техники ипрограммного обеспечения влияют несколько факторов. Первый — связан сдинамическими изменениями в среде пользователей продуктов и услуг. В новыхусловиях пользователи экономно относятся к средствам, рационально стараютсяпользоваться услугами вычислительных центров. Второй — массовое использованиеперсональных ЭВМ, которые существенным образом изменили структуру парка ЭВМ ипрограммного обеспечения. Третий — изменение формы собственности предприятий,тем самым изменилась ситуация на информационном рынке. Четвертый — зародившийсяи развивающийся рынок программных продуктов и услуг.

Врезультате влияние этих факторов возникает как следствие повсеместноераспространение персональных ЭВМ, и сопутствующих им компьютерных составляющихи принадлежностей (модемы, принтеры, сканеры и т. д.), а также программныхпродуктов обслуживающих эту технику или решающую иные производственные иэкономические задачи (ОС

Windows,программы 1C, Adobe Photoshop ит.д.).

Еслив качестве предприятия выступает таксопарк, то появляется многопроизводственных и экономических задач которые возможно решить с помощью техническихи программных средств. Рассмотрим одну из таких задач.

Влюбом таксопарке есть диспетчеры, которые принимают звонки (заказы) отклиентов. Начальнику может понадобиться выяснить, кто именно из диспетчеровпринимал звонок (заказ) от клиента в конкретный день или в конкретное время, атакже прослушать, что это был за заказ, представляющий собой звуковое сообщение(разговор диспетчера с клиентом). Итак, возникает такая задача: диспетчердолжен отчитаться за требуемый период и в случае необходимости предоставитьсуть заказа в конкретное время.

Решениезадачи можно выразить в следующих рекомендациях:

1)

Определитьтехнические средства необходимые для решения данной задачи

2)

Определитьпрограммные средства

3)

Разработатьалгоритм программной реализации этой задачи

4)

А такжерешить сопутствующую проблему сжатия звуковых данных

Разберем эти этапы более подробно.

1)

Совершенно ясно, что необходимкомпьютер. Говорить о таких составляющих компьютера как процессор, объемоперативной памяти, емкость диска практически не приходится, так как мощностьсовременных компьютеров растет огромными темпами. Так что можно лишь в качестве рекомендации указатьконфигурацию, при которой тестировалась описанная ниже программа: процессор Athlon1000, объем оперативной памяти 128Mb, емкость диска 80Gb.

Когда появились устройства передачи иприема данных через телефонные линии, модемы, разработчики «внедрили»способность приема и передачи звука и в эти устройства. Это результат обычногостремления совместить как можно больше функциональных возможностей в одномустройстве. Модем должен поддерживать голосовые функции нааппаратно-программном уровне.

Определить, голосовой модем или нет,можно по наличию слова Voice в названии модема. Если такового термина нет илипо ряду причин определение затруднительно, то можно «опознать» модемпо внешним признакам, например по наличию разъемов SPK и MIC. Они предназначеныдля подключения телефонной гарнитуры (наушники с микрофоном) или простомикрофона и активной акустической системы. Голосовые модемы можно разделить надве категории с функцией Speakerphone или Hands free и без этой функции.

Модем, поддерживающий функциюSpeakerphone или Hands free (переводится это как «громкоговоритель»или «свободные руки», что, в принципе, означает одно и то же),позволяет не только воспроизводить звук в телефонной линии и в режимеавтоответчика записывать звук из нее, но и использовать модем как обычныйтелефонный аппарат. Это удобно для оператора, отвечающего, к примеру, на телефонныезвонки, которому при этом необходимо вести записи (прием объявлений,телефонограмм), работать с компьютером (справочная служба и т. д.), в общем,нуждающемся в том, чтобы руки были свободны, а придерживаемая плечом (вбольшинстве случаев) телефонная трубка не стесняла движений.

Итак, для работы компьютера с телефонной сетью, по которой клиент связываетсяс диспетчером необходим голосовой модем.

Рис.1

Модем ACORPM-56EMSF-2 (рис.1) создан специально для максимально надёжнойи быстрой работы. Производители использовали весь свой накопленный опыт и учливсе особенности эксплуатации подобных модемов в российских условиях. И из нижеприведенных характеристик видно, что он подходит для нашей задачи.

Поддержкавсех основных протоколов передачи данных:

·

ITU-T V.92

·

ITU-T V.90

·

ITU-T V.34+

·

ITU-T V.34

·

ITU-T V.32b

·

ITU-T V.32

·

ITU-T V.23C

·

ITU-T V.22B

·

ITU-T V.22

·

ITU-T V.21

·

ITU-T BEL212

·

ITU-T BEL103

Протокол коррекции ошибок V.42
Протокол коррекции ошибок MNP4
Протокол сжатия данных MNP5
Протокол сжатия данных V.42bis
Протокол сжатия данных V.44 (максимально возможный размер словаря компрессии).

Работа с факсом:

·

Класс передачи факсовых сообщений Class 1,1.0,2

·

Поддерживаемые протоколы согласно стандарту ITU-T:V.17, V.26ter, V.27ter, V.29

·

Возможность принимать передавать факсимильныесообщения на обычный факсимильный аппарат. Голосовые возможности:

·

Автоматический прием голосовых и факсимильныхсообщений аппаратным способом.

·

Модем поддерживает все основные «голосовые» функции,реализация спикерфона (работа в режиме телефона) максимально упрощена. Дляэтого достаточно подключить микрофон и наушники к специальным гнёздам.

·

Поставляемое в комплекте ПО превратит ваш компьютер сустановленным модемом в полноценный автоответчик, электронный секретарь. ПричемВы без труда сможете управлять вашим «голосовым» офисом, с помощью тональногонабора, даже находясь вдали от дома или офиса. Особенности модема:

·

Уровень выходного сигнала от -0 до –15db

·

Регулировка скорости передачи данных и «сверху» и«снизу».

·

100% настройка сигнала «Линия занята»

·

Повышенная чувствительность приемника.

·

Расширенная индикация состояния модема.

·

Бесшумный набор номера в импульсном режиме.

·

Дополнительное гнездо для подключения параллельноготелефона

Все модемы Acorp 56К адаптированы кроссийским телефонным линиям и отлично распознают сигналы ATC.

Выбор звуковой карты для проигрываниязвука влияет лишь на качество воспроизведения, а, следовательно, можновоспользоваться и звуковой картой, встроенной в материнскую плату компьютера, ставшей практически стандартом(например, C-Media).

Выбор телефонной гарнитуры (наушники смикрофоном) также произвольный и зависит от того в каком качестве обслуживаниязаинтересован пользователь.

Итак, схемасоединения технических средств выглядит так:

Звуковая карта

Микрофон

Телефонная сеть

Наушники

Модем

ПЭВМ

Рис.2

2)

Для взаимодействия технических средств и реализациипоставленной задачи необходимы программные средства:

Операционнаясистема (ОС) устанавливаемая накомпьютере — это важнейшая часть системного программного обеспечения, котораяорганизует процесс выполнения задач, распределяя для этого ресурсы рабочейстанции, управляя работой всех ее устройств и взаимодействием с пользователем.ОС Windowsимеет наибольшеераспространение, и большинство современных предприятий ориентированы на этосемейство ОС. Будем использовать ОС WindowsXP – последняя выпущенная версия ОС Windows на текущий момент компанией Microsoft.

А такжеязык программирования для создания программной реализации поставленной задачи.Язык программирования Delphi — это комбинация нескольких важнейшихтехнологий:

·

Высокопроизводительный компилятор в машинный код

·

Объектно-ориентированная модель компонент

·

Визуальное (а, следовательно, и скоростное) построениеприложений из программных прототипов

·

Масштабируемые средства для построения баз данных

Будемиспользовать Delphi 7.0.

И, наконец, 3 и 4 этапы являютсяцелью данной работы – необходимо составить алгоритм обслуживающийпредоставленные технические средства и удовлетворяющий параметрам поставленнойзадачи. А также решить возникающую при записи заказа (разговора) проблемусжатия звуковых данных для экономии свободной емкости диска.

2

Обзор форматов преобразованиязвуковых данных

2.1 Отличия цифрового представления сигналов от аналогового

Традиционное аналоговое представлениесигналов основано на подобии (аналогичности) электрических сигналов (измененийтока и напряжения) представленным ими исходным сигналам (звуковому давлению,температуре, скорости и т.п.), а также подобии форм электрических сигналов вразличных точках усилительного или передающего тракта. Форма электрической кривой,описывающей (также говорят — переносящей) исходный сигнал, максимальноприближена к форме кривой этого сигнала.

Такое представление наиболее точно,однако малейшее искажение формы несущего электрического сигнала неизбежноповлечет за собой такое же искажение формы и сигнала переносимого. В терминахтеории информации, количество информации в несущем сигнале в точности равноколичеству информации в сигнале исходном, и электрическое представление несодержит избыточности, которая могла бы защитить переносимый сигнал отискажений при хранении, передаче и усилении.

Цифровое представление электрическихсигналов призвано внести в них избыточность, предохраняющую от воздействияпаразитных помех. Для этого на несущий электрический сигнал накладываютсясерьезные ограничения — его амплитуда может принимать только два предельныхзначения — 0 и 1.

Вся зона возможных амплитуд в этомслучае делится на три зоны: нижняя представляет нулевые значения, верхняя — единичные, а промежуточная является запрещенной — внутрь нее могут попадатьтолько помехи. Таким образом, любая помеха, амплитуда которой меньше половиныамплитуды несущего сигнала, не оказывает влияния на правильность передачизначений 0 и 1. Помехи с большей амплитудой также не оказывают влияния, еслидлительность импульса помехи ощутимо меньше длительности информационногоимпульса, а на входе приемника установлен фильтр импульсных помех.

Сформированный таким образом цифровойсигнал может переносить любую полезную информацию, которая закодирована в видепоследовательности битов — нулей и единиц; частным случаем такой информацииявляются электрические и звуковые сигналы. Здесь количество информации внесущем цифровом сигнале значительно больше, нежели в кодированном исходном,так что несущий сигнал имеет определенную избыточность относительно исходного,и любые искажения формы кривой несущего сигнала, при которых еще сохраняетсяспособность приемника правильно различать нули и единицы, не влияют надостоверность передаваемой этим сигналом информации. Однако в случаевоздействия значительных помех форма сигнала может искажаться настолько, чтоточная передача переносимой информации становится невозможной — в нейпоявляются ошибки, которые при простом способе кодирования приемник не сможетне только исправить, но и обнаружить. Для еще большего повышения стойкостицифрового сигнала к помехам и искажениям применяется цифровое избыточноекодирование двух типов: проверочные (EDC — Error Detection Code, обнаруживающийошибку код) и корректирующие (ECC — Error Correction Code, исправляющий ошибкукод) коды.

Цифровое кодирование состоит в простомдобавлении к исходной информации дополнительных битов и/или преобразованииисходной битовой цепочки в цепочку большей длины и другой структуры. EDCпозволяет просто обнаружить факт ошибки — искажение или выпадение полезной либопоявление ложной цифры, однако переносимая информация в этом случае такжеискажается; ECC позволяет сразу же исправлять обнаруженные ошибки, сохраняяпереносимую информацию неизменной. Для удобства и надежности передаваемуюинформацию разбивают на блоки (кадры), каждый из которых снабжается собственнымнабором этих кодов.

Кроме целей помехозащиты, информация вцифровом сигнале может быть подвергнута также линейному или канальномукодированию, задача которого — оптимизировать электрические параметры сигнала(полосу частот, постоянную составляющую, минимальное и максимальное количествонулевых/единичных импульсов в серии и т.п.) под характеристики реального каналапередачи или записи сигнала.

Полученный несущий сигнал, в своюочередь, также является обычным электрическим сигналом, и к нему применимылюбые операции с такими сигналами — передача по кабелю, усиление, фильтрование,модуляция, запись на магнитный, оптический или другой носитель и т.п.Единственным ограничением является сохранение информационного содержимого — так, чтобы при последующем анализе можно было однозначно выделить идекодировать переносимую информацию, а из нее — исходный сигнал.

2.2 Способы представления звука в цифровом виде

Исходная форма звукового сигнала- непрерывное изменение амплитуды во времени — представляется в цифровой форме с помощью«перекрестной дискретизации» — по времени и по уровню.

Согласно теореме Котельникова, любойнепрерывный процесс с ограниченным спектром может быть полностью описандискретной последовательностью его мгновенных значений, следующих с частотой,как минимум вдвое превышающей частоту наивысшей гармоники процесса; частота Fdвыборки мгновенных значений (отсчетов) называется частотой дискретизации.

Из теоремы следует, что сигнал счастотой Fa может быть успешно дискретизирован по времени на частоте 2Fa тольков том случае, если он является чистой синусоидой, ибо любое отклонение отсинусоидальной формы приводит к выходу спектра за пределы частоты Fa. Такимобразом, для временной дискретизации произвольного звукового сигнала (обычноимеющего, как известно, плавно спадающий спектр), необходим либо выбор частотыдискретизации с запасом, либо принудительное ограничение спектра входногосигнала ниже половины частоты дискретизации.

Одновременно с временной дискретизациейвыполняется амплитудная — измерение мгновенных значений амплитуды и ихпредставление в виде числовых величин с определенной точностью. Точностьизмерения (двоичная разрядность N получаемого дискретного значения) определяетсоотношение сигнал/шум и динамический диапазон сигнала (теоретически это — взаимно-обратные величины, однако любой реальный тракт имеет также исобственный уровень шумов и помех).

Полученный поток чисел (серий двоичныхцифр), описывающий звуковой сигнал, называют импульсно-кодовой модуляцией илиИКМ (Pulse Code Modulation, PCM), так как каждый импульс дискретизованного повремени сигнала представляется собственным цифровым кодом.

Чаще всего применяют линейное квантование,когда числовое значение отсчета пропорционально амплитуде сигнала. Из-залогарифмической природы слуха более целесообразным было бы логарифмическоеквантование, когда числовое значение пропорционально величине сигнала вдецибелах, однако это сопряжено с трудностями чисто технического характера.

Временная дискретизация и амплитудноеквантование сигнала неизбежно вносят в сигнал шумовые искажения, уровенькоторых принято оценивать по формуле 6N + 10lg (Fдискр/2Fмакс) + C (дБ), гдеконстанта C варьируется для разных типов сигналов: для чистой синусоиды это 1.7дБ, для звуковых сигналов — от -15 до 2 дБ. Отсюда видно, что к снижению шумовв рабочей полосе частот 0..Fмакс приводит не только увеличение разрядностиотсчета, но и повышение частоты дискретизации относительно 2Fмакс, посколькушумы квантования «размазываются» по всей полосе вплоть до частотыдискретизации, а звуковая информация занимает только нижнюю часть этой полосы.

В большинстве современных цифровыхзвуковых систем используются стандартные частоты дискретизации 44.1 и 48 кГц,однако частотный диапазон сигнала обычно ограничивается возле 20 кГц дляоставления запаса по отношению к теоретическому пределу. Также наиболеераспространено 16-разрядное квантование по уровню, что дает предельноесоотношение сигнал/шум около 98 дБ. В студийной аппаратуре используются болеевысокие разрешения — 18-, 20- и 24-разрядное квантование при частотахдискретизации 56, 96 и 192 кГц. Это делается для того, чтобы сохранить высшиегармоники звукового сигнала, которые непосредственно не воспринимаются слухом,но влияют на формирование общей звуковой картины.

Для оцифровки более узкополосных и менеекачественных сигналов частота и разрядность дискретизации могут снижаться;например, в телефонных линиях применяется 7- или 8-разрядная оцифровка счастотами 8..12 кГц.

Представление аналогового сигнала вцифровом виде называется также импульсно-кодовой модуляцией (ИКМ, PCM — PulseCode Modulation), так как сигнал представляется в виде серии импульсовпостоянной частоты (временная дискретизация), амплитуда которых передаетсяцифровым кодом (амплитудная дискретизация). PCM-поток может быть какпараллельным, когда все биты каждого отсчета передаются одновременно понескольким линиям с частотой дискретизации, так и последовательным, когда битыпередаются друг за другом с более высокой частотой по одной линии.

2.3 Особенности восприятия речевых данныхчеловеком.

Некоторые факты о восприятии звука

·

Частотный спектр воспринимаемый человеком (примерно)от 20 Hz до 20 kHz, наибольшая чувствительность в диапазоне от 2 до 4 KHz.

·

Динамический диапазон (от самых тихих воспринимаемыхзвуков до самых громких) около 96 dB (более чем 1 к 30000 по линейной шкале).

·

Общеизвестно, что человек в состоянии различитьизменение частоты на 0.3% на частоте порядка 1kHz.

·

Если два сигнала различаются менее чем на 1дб поамплитуде — они трудноразличимы. Разрешение по амплитуде зависит от частоты, инаибольшая чувствительность наблюдается в диапазоне от 2 до 4 KHz.

·

Пространственное разрешение (способность к локализацииисточника звука) — до 1 градуса.

·

Звуки различной частоты распространяются в воздухе сразной скоростью. В результате высокочастотная часть спектра от источниканаходящегося на удалении от слушателя несколько запаздывает.

·

Человек не в состоянии заметить внезапное исчезновениевысоких частот, если оно не превышает порядка 2ms.

·

Некоторые исследования показывают, что человек всостоянии ощущать частоты выше 20kHz. С возрастом частотный диапазон сужается.

Речь:

·

Частотный спектр, несущий информацию в человеческойречи: от 500 Hz до 2 kHz

o

Низкиечастоты — басы и гласные

o

Высокиечастоты — согласные

·

Лучшее сжатие речи достигается с использованиемпараметрических кодеров (LPC, CELP, и пр.), пытающихся представить речь какнабор параметров некоторой речевой модели. Кодеки общего назначения (MPEG идр.), как правило, дают худшее сжатие.

2.4 Диспетчер сжатия звука

Во всех версиях Windows (начиная сWindows 95) присутствует специальный интерфейс, предназначенный для преобразованияформатов звуковых данных. Он называется Audio Compression Manager (ACM),диспетчер сжатия звука. Этот интерфейс позволяет изменять частоту, разрядность,количество каналов, а также тип сжатия звуковых данных (format tag). Придостаточной мощности процессора преобразование с успехом может выполняться вреальном времени. ACM включает в себя набор кодеков, которые, собственно, ивыполняют необходимые преобразования. Кодек, компрессор/декомпрессор, — исполняемый файл с расширением *.acm. Они находятся в системной папкеWindowssystem. Как правило, кодек позволяет осуществить не только сжатие, нои распаковку звуковых данных, т. е. восстановление исходного сигнала РСМ. (Хотясуществуют кодеки только для воспроизведения). Пользователь может самостоятельноудалять ненужные ему кодеки, и может самостоятельно установить новые, чтопридает системе гибкость. После установки кодека все программы, пользующиесясистемой ACM, получают возможность работать с этим форматом звуковых данных.Приложения непосредственно взаимодействуют только с диспетчером, которыйвыбирает нужные драйверы, передает информацию между приложением и драйверами, ивыполняет прочие функции по координации работы подсистемы

Практически все серьезные звуковыепрограммы осуществляют преобразование форматов средствами интерфейса AudioCompressionManager(ACM): это извуковые редакторы (SoundForge, CoolEdit, GoldWaveи др.); иконвертеры (WaveConvertPRO); и проигрыватели звуковых файлов. WinAmp, например, снастройкой по умолчанию воспроизводит файлы с расширением *.mp3 через свойвнутренний декодер, так называемый NullSoft MPEG Audio Decoder, а файлы срасширением *.wav — через систему ACM, даже если в них тот же самый MP3.

Дальше идет обзор наиболеераспространенных кодеков системы Audio Compression Manager (ACM)и определены те области, в которых их применение могло бы быть оправданным иэффективным.

2.5 Универсальныекодеки

Под универсальностьюподразумевается, прежде всего, пригодность для кодирования

еще рефераты

Еще работы по программированию, базе данных

Реферат по программированию, базе данных

Оптимизация плана работ по отладке программных продуктов

29 Августа 2013

Реферат по программированию, базе данных

Автоматизированная информационная система детского сада "Солнышко"

29 Августа 2013

Реферат по программированию, базе данных

Разработка автоматизированного рабочего места для учёта статистики экзаменационной сессии

29 Августа 2013

Реферат по программированию, базе данных

АИС "Работа с покупателями"

29 Августа 2013