Реферат: Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психолингвистике

Министерствообразования Российской Федерации

ОмскийГосударственный Университет

Математическийфакультет

Горбань Павел Александрович

ТЕХНОЛОГИЯИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ НЕЙРОННЫХ СЕТЕЙ:

АПРОБАЦИЯ,ПРОЕКТИРОВАНИЕ ПО,

ИСПОЛЬЗОВАНИЕВ ПСИХОЛИНГВИСТИКЕ

Дипломнаяработа

Научный руководитель:

Член-корреспондентРАН

В.В. Шайдуров

Омск – 2002

<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»;mso-ansi-language:RU;mso-fareast-language: RU;mso-bidi-language:AR-SA">

Оглавление

 TOC o «1-3» h z Введение… PAGEREF _Toc200625771 h 4

Цель работы… PAGEREF _Toc200625772 h 4

Основные задачи исследования. PAGEREF _Toc200625773 h 4

Основные результаты работы, полученные лично автором… PAGEREF _Toc200625774 h 4

Апробация работы… PAGEREF _Toc200625775 h 5

Публикации… PAGEREF _Toc200625776 h 5

Глава 1. Проблема извлечения знаний и обзор методовизвлечения знаний… PAGEREF _Toc200625777 h 6

1.1 Знание и приобретение знаний… PAGEREF _Toc200625778 h 6

1.1.1 «Знание». PAGEREF _Toc200625779 h 6

1.1.2. Приобретениезнаний. PAGEREF _Toc200625780 h 8

1.2. Методы извлечения и приобретения знаний… PAGEREF _Toc200625781 h 8

1.2.1. Приобретение знаний, обучение и обобщение попримерам в теории классических экспертных систем   PAGEREF _Toc200625782 h 9

1.2.1.1. Трудности при разработке экспертных систем… PAGEREF _Toc200625783 h 11

1.2.2. Методы извлечения знаний из таблиц данных. PAGEREF _Toc200625784 h 12

1.2.2.1. Технология извлечения знаний из таблиц данных. PAGEREF _Toc200625785 h 12

1.2.2.2. Таблица эмпирических данных. PAGEREF _Toc200625786 h 13

1.2.2.3. Статистические методы извлечения знаний изтаблицы данных. PAGEREF _Toc200625787 h 15

1.2.3. Методыидентификации систем… PAGEREF _Toc200625788 h 15

1.2.4. Другие методы обработки данных. PAGEREF _Toc200625789 h 16

1.3. Требования к технологии извлечения знаний… PAGEREF _Toc200625790 h 17

Глава 2. Нейронные сети… PAGEREF _Toc200625791 h 19

2.1. Коннекционизм… PAGEREF _Toc200625792 h 19

2.2. Элементы нейронных сетей… PAGEREF _Toc200625793 h 20

2.3. Основные архитектуры нейронных сетей… PAGEREF _Toc200625794 h 21

2.4. Обучение нейронных сетей как минимизация функцииошибки… PAGEREF _Toc200625795 h 22

Глава 3. Упрощение нейронной сети.PAGEREF _Toc200625796 h 27

3.1. Что такое упрощение нейронной сети и зачем ононужно… PAGEREF _Toc200625797 h 27

3.2. Задача извлечения знаний из нейронной сети… PAGEREF _Toc200625798 h 28

3.3. Методы упрощения нейронных сетей… PAGEREF _Toc200625799 h 29

3.3.1.Контрастирование синапсов нейросети. PAGEREF _Toc200625800 h 30

3.3.2.Контрастирование нейронов нейросети. PAGEREF _Toc200625801 h 32

3.3.3. Контрастирование входных сигналов нейросети. PAGEREF _Toc200625802 h 35

3.3.4. Бинаризация синапсов. PAGEREF _Toc200625803 h 36

3.3.5. Упрощение нелинейных преобразователей нейронов. PAGEREF _Toc200625804 h 37

3.3.6. Дополнительные модификации алгоритмовконтрастирования. PAGEREF _Toc200625805 h 37

3.3.7. Методы модификации структуры обученной сети. PAGEREF _Toc200625806 h 38

3.4. Требования к процессу упрощения сети дляизвлечения знаний… PAGEREF _Toc200625807 h 38

3.5. Упрощающие операции над нейронной сетью… PAGEREF _Toc200625808 h 39

3.6. Процедура комплексного упрощения нейронной сети… PAGEREF_Toc200625809 h 40

Глава 4. Методы извлечения  знаний  из искусственных  нейронных  сетей… PAGEREF _Toc200625810 h 41

4.1. Существующие методы извлечения знаний из обученнойнейросети… PAGEREF _Toc200625811 h 41

4.1.1. Методы на основе квантования сигналов сети. PAGEREF _Toc200625812 h 42

4.1.2. Методы извлечения знаний параллельно собучением нейросети. PAGEREF _Toc200625813 h 44

4.1.3. Методы извлечения знаний из обученной нейросети. PAGEREF _Toc200625814 h 46

4.2. Методы извлечения знаний: требования к методам… PAGEREF _Toc200625815 h 50

4.3. Методология извлечения явных знаний, использующаятехнологию комплексного упрощения нейросети   PAGEREF _Toc200625816 h 52

4.4. Приемы повышения вербализуемости нейронной сети… PAGEREF _Toc200625817 h 56

4.4.1. Добавление синдрома в набор входных симптомов. PAGEREF _Toc200625818 h 56

4.4.2. Построение иерархии продукционных правил. PAGEREF _Toc200625819 h 57

4.4.3. Ручное конструирование сети из фрагментовнескольких логически прозрачных сетей. PAGEREF _Toc200625820 h 59

Глава 5. Нейросетевой анализ структуры индивидуальногопространства смыслов   PAGEREF _Toc200625821 h 60

5.1. Семантический дифференциал. PAGEREF _Toc200625822 h 60

5.2. MAN-многообразия. PAGEREF _Toc200625823 h 63

Литература… PAGEREF _Toc200625824 h 65

Публикации автора по теме диплома… PAGEREF _Toc200625825 h 69

Приложение 1. Плакаты для защиты диплома.PAGEREF _Toc200625826 h 71

Приложение 2. Статья: Горбань П.А. Нейросетевой анализструктуры индивидуального пространства смыслов. «Нейрокомпьютеры»:разработка, применение. 2002, No 4. С. 14-19.PAGEREF _Toc200625833 h 84


ВведениеЦель работы

Целью дипломной работы является апробация гибкой технологииизвлечения знаний из нейронных сетей, настраиваемой с учетом предпочтенийпользователя. Тестирование, пробная эксплуатация и разработка новой версии программныхсредств, реализующих данную технологию. Проведение исследований индивидуальныхпространств смыслов на основе данной технологии.

Основные задачи исследования

1.<span Times New Roman"">      

2.<span Times New Roman"">      

3.<span Times New Roman"">      

4.<span Times New Roman"">      

Основные результаты работы, полученные личноавтором

1.<span Times New Roman"">     

a)<span Times New Roman"">     

b)<span Times New Roman"">     

2.<span Times New Roman"">     

3.<span Times New Roman"">     

ман-многообразия»от немецкого безличного местоимения «man») и сравнительнонебольшого множества индивидуальных отклонений, которые могут быть важны длядиагностики. Каждая культура имеет небольшое количество специфических для нее ман -многообразий (субкультур).Апробация работы

 Основные положения работы докладывались на VI, VII Всероссийских семинарах«Нейроинформатика и ее приложения», (Красноярск, 1998, 2000 гг), I, Всероссийскойнаучно-технической конференции «Нейроинформатика» (Москва, МИФИ, 1999г.), VI Международнойконференции «Математика. Компьютер. Образование» (1999г, Пущино), InternationalJointConferenceonNeuralNetworks(1999г, Washington, DC, USA), XXXVII Международной научной студенческой конференции "Cтудент и научно-техническийпрогресс": Информационные технологии. Новосибирск, НГУ, 1999 (награжденаДипломом 3 степени).

Публикации

По теме диплома авторомопубликована 1 статья в научном журнале и 4 тезиса докладов.

<span Times New Roman",«serif»;mso-fareast-font-family: «Times New Roman»;mso-ansi-language:RU;mso-fareast-language:RU;mso-bidi-language: AR-SA">
Глава 1. Проблема извлечения знаний и обзор методовизвлечения знаний

Введение

Первый параграф определяетпонятия «знание» и «приобретение знания».

Второй параграф посвящен обзорусуществующих методов извлечения и приобретения знаний. Рассматриваютсясуществующие в теории классических экспертных систем методы приобретениязнаний, рассматриваются использующиеся для извлечения знаний из таблиц данныхметоды статистического анализа, математического моделирования и идентификации.

Третий параграф описывает набортребований к направленной на конечного пользователя технологии извлечениязнаний.

1.1 Знание и приобретение знаний1.1.1 «Знание»

Под знанием понимается достаточноширокий спектр информации. В [1, с.430-432] представлена следующая классификациятипов знаний:

1.<span Times New Roman"">      

2.<span Times New Roman"">      

3.<span Times New Roman"">      

4.<span Times New Roman"">      

5.<span Times New Roman"">      

6.<span Times New Roman"">      

7.<span Times New Roman"">      

8.<span Times New Roman"">      

В настоящей работе первому типузнаний будет соответствовать информация об измеримых (или наблюдаемых)свойствах объектов реального мира. Именно эта информация сведена в таблицуданных типа «объект-признак». Остальным типам знаний соответствуютограничения на диапазоны значений, которые могут принимать признаки объекта(второй тип), информация о взаимозависимости признаков и о возможности описанияодних признаков через другие, информация о статистических свойствах значенийпризнаков,… Фактически, нас интересует знание второго и последующих типов –знание, которое человек добывает в процессе анализа информации, рассуждений,обобщений, проведения аналогий.

Естественным является требованиепредставления знаний в виде, допускающем «тиражирование» –возможность передачи знаний другим людям. Для первого типа знаний возможнополучение как объективных (точно измеренных) значений свойств объектовреального мира, так и субъективных, персонализированных, чувственных оценокзначений этих свойств. Для знаний последующих типов для возможности передачивводятся требования объективизации, достоверности, непротиворечивости [1].

Информационные единицы (знания) обладают гиб­кой структурой [2].  Для  них выполняется «принцип матрешки»– рекурсивная вложенность одних информационныхединиц в другие (это наблюдается и на примере вышеприведенной классификации из[1]). Каж­дая информационная единица может быть включена в состав любой другой,и из каждой информационной единицы можно выделить некоторые составляющие ееединицы. Т.е. между отдельными информационными еди­ницами возмож­ноустановление отношений типа «часть–целое», «род– вид» или«элемент– класс».

Для информационных единиц одного уровня иерархии семантика отношенийможет носить декларативный или процедурный характер [2]: две или болееинформационных единицы могут быть связаны декларативными отношениями«одновременно», «причина –следствие» или «быть ря­дом», либопроцедурными отношениями типа «аргу­мент – функция».

Можно различать отношения структу­ризации, процедурные отношения, каузальныеотношения и семантические отношения.С помощью первых задаются иерархии информационных единиц, вторые несут процедурнуюинформацию, позволяющую находить (вычислять) одни информационные единицы черездругие, третьи задают причинно-следст­венные связи, четвертые соответствуютвсем остальным отношениям [2].

1.1.2.Приобретение знаний

Приобретением знаний называется выявление знаний из источников и пре­образование их в нужную форму (например, перенос в базу знанийэкспертной системы) [2]. Источни­ками знаний могут быть книги, архивные документы, содержимое другихбаз знаний и т.п., т.е.некоторые объективизированные знания,переведенные в форму, которая делает их доступными для потребителя. Другимтипом зна­ний являются экспертные знания,которые имеются у специалистов, но не зафи­ксированы во внешних по отношению к ним хранилищах. Экспертные знания являются субъективными. Еще одним видомсубъективных знаний являются эмпирическиезнания, полученные путем наблюдения за окружающей средой.Ввод в базу знаний объективизированных знаний не представляет проблемы,выявление и ввод субъективных экспертных знаний до­статочнотрудны. Для извлечения и формализации экспертных знаний разработано множествостратегий интервьюирования эксперта и множество моделей представления знаний[2].

В когнитивной психологии изучаются формы репрезентации знаний,  характерные для человека: представлениекласса понятий через его элементы; представлениепонятий класса с помощью базового прототипа,отражающего наиболее типичные свойства объектов класса; представ­ление с помощью признаков[3]. Форма репрезентации знаний определяетиспользуемую методологию выявления знаний и модель представления знаний.

1.2. Методы извлечения и приобретения знаний

К настоящему временисформировалось три основных направления извлечения знаний. Эти направлениямогут использовать одни и те же математические методы; подходы, первоначальноразработанные в рамках некоторого направления, могут применяться для решениязадач из другого направления. Вот эти направления:

1.<span Times New Roman"">      

2.<span Times New Roman"">      

3.<span Times New Roman"">      

1.2.1. Приобретение знаний, обучение и обобщение попримерам в теории классических экспертных систем

Исследуется автоматизированный процессполучения знаний, объясняющих имеющиеся факты и способных объяснять,классифициро­вать или предсказывать новые. В общем виде задача формулирует­ся так [2]: посовокупности наблюдений (фактов) F, совокупности требований и допущений к видурезультирующей гипотезы Hи совокупности базовых знаний и предположений,включающих зна­ния об особенностях предметнойобласти, выбранном способе представления знаний,наборе допустимых операторов, эвристик и др.,сформировать гипотезу Н: H<span Times New Roman"; mso-hansi-font-family:«Times New Roman»;mso-ansi-language:EN-US;layout-grid-mode: line;mso-char-type:symbol;mso-symbol-font-family:Symbol">Þ

F(Н«объясняет»F).

Общий вид гипотезы Н зависит отцели обобщения и выбранного способа представления знаний. Методы обобщения,включающие модели классификации, формированияпонятий, распознавания образов, обнаружения закономерностей, определяютсяцелями обобщения, способами представления знаний,общими характеристиками фактов, критериями оценки гипотез.

Для обобщения по выборкамсовокупность фак­товF имеет вид обучающей выборки – множества объектов, каждый изкоторых сопоставляется с именем некоторого класса. Целью обобщения в этом случае может являться:

-<span Times New Roman"">        

формирование понятий: построение по данным обучающей выборки длякаждого класса максимальной совокупности его общих характеристик[4];

-<span Times New Roman"">        

классификация:построение по данным обучающей выборки для каждогокласса минимальной совокупности характеристик, которая отличала бы элементы класса от элементов других классов;

-<span Times New Roman"">        

определениезакономерности последовательногопоявления событий.

К методам обобщения по выборкам относятся лингвистические модели, методы автоматическогосинтеза алгоритмов ипрограмм по при­мерам и другие [2].

В методах обобщения по данным априорноеразделение фактов по классам отсутствует. Здесьмогут ставиться следующие цели:

-<span Times New Roman"">        

формулирование гипотезы, обобщающейданные факты;

-<span Times New Roman"">        

выделение образов на множестве наблюдаемых данных,группировка данных по признакам(задача формиро­вания понятий, определенная в модели обобщения по выборкам,также часто ставится без априорного разбиенияобучающей выборки по классам)[4];

-<span Times New Roman"">        

установление закономерностей, характеризующих совокупность наблюдаемых данных [5].

Рассмотрим кратко связь между задачамиобобщения и классификации и задачами, решаемыми врамках теории вероятностей и математической статистики. В математической статистике ставятся и решаются задачи выводановых знаний на основании анализа совокупности наблюдений, при этом устанавливаются частотные закономерностипоявления событий: определяются общий вид и параметры функций распределения вероятно­стей событий по данным наблюдений,делаются выводы о степени статистиче­ской зависимости наблюдаемых случайных величин, проверяются гипотезы о характеристиках случайного события. Действительно,в задаче формализации и вывода знаний о реальноммире нельзя не учитывать наличия стати­стических закономерностей в егопроявлениях. Общая же задача формирования гипотез по данным наблюдений не ограничивается установлением статистическихзакономерностей. Так, разработаны формально-логические модели выдвижения гипотез [6], которые используются в теории искусственного интеллекта.

С точки зрения способа представления знаний идопущений на общий вид объектов наблюдений, методыобобщения делятся на методы обобщения по признакам и структурно-логические(иликонцептуальные) методы [2]. В первом случае объекты представляются в видесовокупности значенийкосвенных признаков. Методы обоб­щения и распознавания по признакам различаются для качественных (номинальных или порядковых) и количественных (измеримых) значений признаков.Структурно-логические методы, в отличие от признаковых, предназначены длярешения задачи обобщения на множестве объектов, имеющих внутреннюю логическуюструктуру (последовательности событий, иерархически организованные сети,характеризуемые как признаками и свойствами объектов – элементов сети, так иотношениями между ними). В формально-логических системах, использующихструктурно-логические методы обобщения, вывод общих следствий из данных фактовназывают ин­дуктивным выводом.Сформулированы основные вопросы, на которые долж­ны давать ответы индуктивныелогики и методы выдвижения гипотез:

1.<span Times New Roman"">    

Явля­ется ли гипотеза Н обоснованной данным знанием?

2.<span Times New Roman"">    

Существуют ли методы обосно­вания Н при данном знании?

3.<span Times New Roman"">    

Каковы условия для Н при данном знании, такие, что Ндает наиболее разумное и интересное объяснение?

4.<span Times New Roman"">    

Существуют методы для выдвижения гипотез наосновании данного знания, дающих наи­более разумное и интересное объяснениеизучаемого явления?

В экспертных системах (ЭС) для представлениязнаний об объектах используются обычно модификацииязыка исчисления предикатов без ограничения арностипредикатных символов или адекватные им повыразительной мощности семантические сети [2].Моделям обобщения на семантических сетяхсвойственны черты как алгоритмов обобщения по признакам, так ииндуктивной логики. Здесь также определяется набор операторов, используе­мыхпри формировании обобщенного представления (гипотезы) Н, и выдвига­ются критерии оценки «интересности»и обоснованности гипотез. Кроме того, в этихмоделях широко используется характерный дляобобщения по качест­венным признакам [7] аппарат теории покрытий и устанавливаются отношения на множествезначений при­знаков объектов-элементов сети. Методами структурного обобщенияреша­ются обычно задачи классификации, формирования понятий, анализа сцен[2].

Для задачи обобщения по признакам известенследующий результат: каков бы ни был реальный вид разделяющейфункция <span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">y

(в общем случае – индуктив­ной гипотезы Н) и алгоритм ее формирования пообучающей выборке, всегда найдется такая (непустая)обучающая выборка, что сформированная функция <span Times New Roman";mso-hansi-font-family:«Times New Roman»;layout-grid-mode: line;mso-char-type:symbol;mso-symbol-font-family:Symbol">y'(гипотеза Н')явится некорректной (ложной).

В связи с этим гипотезы принято оценивать сточки зрения их «разумности», «рациональности», «интересности».В [6] рациональ­ность ответа на вопрос1 (см. выше) индуктивного вывода понимаетсяследующим обра­зом. Пусть <span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">F

– имеющиесяистинные утверждения, а <span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">j– эмпирическиеданные. Тогда для порождаемой ложной гипотезы <span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">F,<span Times New Roman";mso-hansi-font-family:«Times New Roman»; layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family:Symbol">j<span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">Þ<span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">yвероятностная мера наблюдения <span Times New Roman";mso-hansi-font-family:«Times New Roman»;layout-grid-mode: line;mso-char-type:symbol;mso-symbol-font-family:Symbol">yна <span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">jдолжнабыть мала (например, меньше0,05).

Можно оценивать гипотезы с точки зрениямощностей подмножеств покрываемых ими элементов обучаю­щей выборки. В ряде исследований для подтверждения или отрицаниявыдвигаемой гипотезы используются методыавтоматического порождения новых элементов обучающей выборки, которые выдаются для классификацииэксперту. Решающее правило переопределяется, покане будет достигнута равновесная ситуация [2].

1.2.1.1. Трудности при разработке экспертных систем

К настоящему времени в теории классических экспертных систем разработанаформализованная технология извлечения и представления экспертных знаний.Однако, существует целый ряд трудностей [8]:

-<span Times New Roman"">        

ПостроениеЭС не под силу конечному пользователю, не обладающему экспертными знаниями опроблемной области.

-<span Times New Roman"">        

Необходимостьпривлечения человека-эксперта в проблемной области, который является носителемзнаний. Кроме трудности нахождения эксперта (его может и не быть), необходимодобавить еще и возможные трудности взаимодействия эксперта соспециалистом-когнитологом (именно последний, путем диалога с экспертом,оформляет полученные от эксперта знания в выбранном формализме представлениязнаний).

-<span Times New Roman"">        

Имеющаясяоболочка ЭС и/или используемая ей модель представления знаний могут плохоподходить для выбранной проблемной области, задачи. Это часто вынуждаетразрабатывать программный инструментарий «с нуля».

-<span Times New Roman"">        

Процесс извлечениязнаний из эксперта, их формализация, проверка на непротиворечивость иустранение противоречий очень длителен, несмотря на наличие программных средствавтоматизации. До получения первого прототипа системы проходит длительное время(месяцы), и до этих пор нельзя определить, возможно ли построение ЭС, решающейпоставленную задачу с заданной степенью точности и увеличивающей точностьрешения при дальнейшем пополнении базы знаний, либо достижение заданныххарактеристик системы невозможно. Это может вести к большим материальнымзатратам в последнем случае. Другими словами, один из самых первых этапов приразработке любой информационной системы – анализ реализуемости – при разработкеЭС откладывается до момента построения исследовательского прототипа системы.

Перечисленные трудностипрепятствуют широкому применению теоретических методов и программных оболочекЭС на практике.

1.2.2. Мет
еще рефераты
Еще работы по программированию, базе данных