Реферат: Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психолингвистике
Министерствообразования Российской Федерации
ОмскийГосударственный Университет
Математическийфакультет
Горбань Павел Александрович
ТЕХНОЛОГИЯИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ НЕЙРОННЫХ СЕТЕЙ:
АПРОБАЦИЯ,ПРОЕКТИРОВАНИЕ ПО,
ИСПОЛЬЗОВАНИЕВ ПСИХОЛИНГВИСТИКЕ
Дипломнаяработа
Научный руководитель:
Член-корреспондентРАН
В.В. Шайдуров
Омск – 2002
<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»;mso-ansi-language:RU;mso-fareast-language: RU;mso-bidi-language:AR-SA">Оглавление
TOC o «1-3» h z Введение… PAGEREF _Toc200625771 h 4
Цель работы… PAGEREF _Toc200625772 h 4
Основные задачи исследования. PAGEREF _Toc200625773 h 4
Основные результаты работы, полученные лично автором… PAGEREF _Toc200625774 h 4
Апробация работы… PAGEREF _Toc200625775 h 5
Публикации… PAGEREF _Toc200625776 h 5
Глава 1. Проблема извлечения знаний и обзор методовизвлечения знаний… PAGEREF _Toc200625777 h 6
1.1 Знание и приобретение знаний… PAGEREF _Toc200625778 h 6
1.1.1 «Знание». PAGEREF _Toc200625779 h 6
1.1.2. Приобретениезнаний. PAGEREF _Toc200625780 h 8
1.2. Методы извлечения и приобретения знаний… PAGEREF _Toc200625781 h 8
1.2.1. Приобретение знаний, обучение и обобщение попримерам в теории классических экспертных систем PAGEREF _Toc200625782 h 9
1.2.1.1. Трудности при разработке экспертных систем… PAGEREF _Toc200625783 h 11
1.2.2. Методы извлечения знаний из таблиц данных. PAGEREF _Toc200625784 h 12
1.2.2.1. Технология извлечения знаний из таблиц данных. PAGEREF _Toc200625785 h 12
1.2.2.2. Таблица эмпирических данных. PAGEREF _Toc200625786 h 13
1.2.2.3. Статистические методы извлечения знаний изтаблицы данных. PAGEREF _Toc200625787 h 15
1.2.3. Методыидентификации систем… PAGEREF _Toc200625788 h 15
1.2.4. Другие методы обработки данных. PAGEREF _Toc200625789 h 16
1.3. Требования к технологии извлечения знаний… PAGEREF _Toc200625790 h 17
Глава 2. Нейронные сети… PAGEREF _Toc200625791 h 19
2.1. Коннекционизм… PAGEREF _Toc200625792 h 19
2.2. Элементы нейронных сетей… PAGEREF _Toc200625793 h 20
2.3. Основные архитектуры нейронных сетей… PAGEREF _Toc200625794 h 21
2.4. Обучение нейронных сетей как минимизация функцииошибки… PAGEREF _Toc200625795 h 22
Глава 3. Упрощение нейронной сети.PAGEREF _Toc200625796 h 27
3.1. Что такое упрощение нейронной сети и зачем ононужно… PAGEREF _Toc200625797 h 27
3.2. Задача извлечения знаний из нейронной сети… PAGEREF _Toc200625798 h 28
3.3. Методы упрощения нейронных сетей… PAGEREF _Toc200625799 h 29
3.3.1.Контрастирование синапсов нейросети. PAGEREF _Toc200625800 h 30
3.3.2.Контрастирование нейронов нейросети. PAGEREF _Toc200625801 h 32
3.3.3. Контрастирование входных сигналов нейросети. PAGEREF _Toc200625802 h 35
3.3.4. Бинаризация синапсов. PAGEREF _Toc200625803 h 36
3.3.5. Упрощение нелинейных преобразователей нейронов. PAGEREF _Toc200625804 h 37
3.3.6. Дополнительные модификации алгоритмовконтрастирования. PAGEREF _Toc200625805 h 37
3.3.7. Методы модификации структуры обученной сети. PAGEREF _Toc200625806 h 38
3.4. Требования к процессу упрощения сети дляизвлечения знаний… PAGEREF _Toc200625807 h 38
3.5. Упрощающие операции над нейронной сетью… PAGEREF _Toc200625808 h 39
3.6. Процедура комплексного упрощения нейронной сети… PAGEREF_Toc200625809 h 40
Глава 4. Методы извлечения знаний из искусственных нейронных сетей… PAGEREF _Toc200625810 h 41
4.1. Существующие методы извлечения знаний из обученнойнейросети… PAGEREF _Toc200625811 h 41
4.1.1. Методы на основе квантования сигналов сети. PAGEREF _Toc200625812 h 42
4.1.2. Методы извлечения знаний параллельно собучением нейросети. PAGEREF _Toc200625813 h 44
4.1.3. Методы извлечения знаний из обученной нейросети. PAGEREF _Toc200625814 h 46
4.2. Методы извлечения знаний: требования к методам… PAGEREF _Toc200625815 h 50
4.3. Методология извлечения явных знаний, использующаятехнологию комплексного упрощения нейросети PAGEREF _Toc200625816 h 52
4.4. Приемы повышения вербализуемости нейронной сети… PAGEREF _Toc200625817 h 56
4.4.1. Добавление синдрома в набор входных симптомов. PAGEREF _Toc200625818 h 56
4.4.2. Построение иерархии продукционных правил. PAGEREF _Toc200625819 h 57
4.4.3. Ручное конструирование сети из фрагментовнескольких логически прозрачных сетей. PAGEREF _Toc200625820 h 59
Глава 5. Нейросетевой анализ структуры индивидуальногопространства смыслов PAGEREF _Toc200625821 h 60
5.1. Семантический дифференциал. PAGEREF _Toc200625822 h 60
5.2. MAN-многообразия. PAGEREF _Toc200625823 h 63
Литература… PAGEREF _Toc200625824 h 65
Публикации автора по теме диплома… PAGEREF _Toc200625825 h 69
Приложение 1. Плакаты для защиты диплома.PAGEREF _Toc200625826 h 71
Приложение 2. Статья: Горбань П.А. Нейросетевой анализструктуры индивидуального пространства смыслов. «Нейрокомпьютеры»:разработка, применение. 2002, No 4. С. 14-19.PAGEREF _Toc200625833 h 84
Целью дипломной работы является апробация гибкой технологииизвлечения знаний из нейронных сетей, настраиваемой с учетом предпочтенийпользователя. Тестирование, пробная эксплуатация и разработка новой версии программныхсредств, реализующих данную технологию. Проведение исследований индивидуальныхпространств смыслов на основе данной технологии.
Основные задачи исследования1.<span Times New Roman"">
2.<span Times New Roman"">
3.<span Times New Roman"">
4.<span Times New Roman"">
Основные результаты работы, полученные личноавтором1.<span Times New Roman"">
a)<span Times New Roman"">
b)<span Times New Roman"">
2.<span Times New Roman"">
3.<span Times New Roman"">
ман-многообразия»от немецкого безличного местоимения «man») и сравнительнонебольшого множества индивидуальных отклонений, которые могут быть важны длядиагностики. Каждая культура имеет небольшое количество специфических для нее ман -многообразий (субкультур).Апробация работыОсновные положения работы докладывались на VI, VII Всероссийских семинарах«Нейроинформатика и ее приложения», (Красноярск, 1998, 2000 гг), I, Всероссийскойнаучно-технической конференции «Нейроинформатика» (Москва, МИФИ, 1999г.), VI Международнойконференции «Математика. Компьютер. Образование» (1999г, Пущино), InternationalJointConferenceonNeuralNetworks(1999г, Washington, DC, USA), XXXVII Международной научной студенческой конференции "Cтудент и научно-техническийпрогресс": Информационные технологии. Новосибирск, НГУ, 1999 (награжденаДипломом 3 степени).
ПубликацииПо теме диплома авторомопубликована 1 статья в научном журнале и 4 тезиса докладов.
<span Times New Roman",«serif»;mso-fareast-font-family: «Times New Roman»;mso-ansi-language:RU;mso-fareast-language:RU;mso-bidi-language: AR-SA">Глава 1. Проблема извлечения знаний и обзор методовизвлечения знаний
Введение
Первый параграф определяетпонятия «знание» и «приобретение знания».
Второй параграф посвящен обзорусуществующих методов извлечения и приобретения знаний. Рассматриваютсясуществующие в теории классических экспертных систем методы приобретениязнаний, рассматриваются использующиеся для извлечения знаний из таблиц данныхметоды статистического анализа, математического моделирования и идентификации.
Третий параграф описывает набортребований к направленной на конечного пользователя технологии извлечениязнаний.
1.1 Знание и приобретение знаний1.1.1 «Знание»Под знанием понимается достаточноширокий спектр информации. В [1, с.430-432] представлена следующая классификациятипов знаний:
1.<span Times New Roman"">
2.<span Times New Roman"">
3.<span Times New Roman"">
4.<span Times New Roman"">
5.<span Times New Roman"">
6.<span Times New Roman"">
7.<span Times New Roman"">
8.<span Times New Roman"">
В настоящей работе первому типузнаний будет соответствовать информация об измеримых (или наблюдаемых)свойствах объектов реального мира. Именно эта информация сведена в таблицуданных типа «объект-признак». Остальным типам знаний соответствуютограничения на диапазоны значений, которые могут принимать признаки объекта(второй тип), информация о взаимозависимости признаков и о возможности описанияодних признаков через другие, информация о статистических свойствах значенийпризнаков,… Фактически, нас интересует знание второго и последующих типов –знание, которое человек добывает в процессе анализа информации, рассуждений,обобщений, проведения аналогий.
Естественным является требованиепредставления знаний в виде, допускающем «тиражирование» –возможность передачи знаний другим людям. Для первого типа знаний возможнополучение как объективных (точно измеренных) значений свойств объектовреального мира, так и субъективных, персонализированных, чувственных оценокзначений этих свойств. Для знаний последующих типов для возможности передачивводятся требования объективизации, достоверности, непротиворечивости [1].
Информационные единицы (знания) обладают гибкой структурой [2]. Для них выполняется «принцип матрешки»– рекурсивная вложенность одних информационныхединиц в другие (это наблюдается и на примере вышеприведенной классификации из[1]). Каждая информационная единица может быть включена в состав любой другой,и из каждой информационной единицы можно выделить некоторые составляющие ееединицы. Т.е. между отдельными информационными единицами возможноустановление отношений типа «часть–целое», «род– вид» или«элемент– класс».
Для информационных единиц одного уровня иерархии семантика отношенийможет носить декларативный или процедурный характер [2]: две или болееинформационных единицы могут быть связаны декларативными отношениями«одновременно», «причина –следствие» или «быть рядом», либопроцедурными отношениями типа «аргумент – функция».
Можно различать отношения структуризации, процедурные отношения, каузальныеотношения и семантические отношения.С помощью первых задаются иерархии информационных единиц, вторые несут процедурнуюинформацию, позволяющую находить (вычислять) одни информационные единицы черездругие, третьи задают причинно-следственные связи, четвертые соответствуютвсем остальным отношениям [2].
1.1.2.Приобретение знанийПриобретением знаний называется выявление знаний из источников и преобразование их в нужную форму (например, перенос в базу знанийэкспертной системы) [2]. Источниками знаний могут быть книги, архивные документы, содержимое другихбаз знаний и т.п., т.е.некоторые объективизированные знания,переведенные в форму, которая делает их доступными для потребителя. Другимтипом знаний являются экспертные знания,которые имеются у специалистов, но не зафиксированы во внешних по отношению к ним хранилищах. Экспертные знания являются субъективными. Еще одним видомсубъективных знаний являются эмпирическиезнания, полученные путем наблюдения за окружающей средой.Ввод в базу знаний объективизированных знаний не представляет проблемы,выявление и ввод субъективных экспертных знаний достаточнотрудны. Для извлечения и формализации экспертных знаний разработано множествостратегий интервьюирования эксперта и множество моделей представления знаний[2].
В когнитивной психологии изучаются формы репрезентации знаний, характерные для человека: представлениекласса понятий через его элементы; представлениепонятий класса с помощью базового прототипа,отражающего наиболее типичные свойства объектов класса; представление с помощью признаков[3]. Форма репрезентации знаний определяетиспользуемую методологию выявления знаний и модель представления знаний.
1.2. Методы извлечения и приобретения знанийК настоящему временисформировалось три основных направления извлечения знаний. Эти направлениямогут использовать одни и те же математические методы; подходы, первоначальноразработанные в рамках некоторого направления, могут применяться для решениязадач из другого направления. Вот эти направления:
1.<span Times New Roman"">
2.<span Times New Roman"">
3.<span Times New Roman"">
1.2.1. Приобретение знаний, обучение и обобщение попримерам в теории классических экспертных системИсследуется автоматизированный процессполучения знаний, объясняющих имеющиеся факты и способных объяснять,классифицировать или предсказывать новые. В общем виде задача формулируется так [2]: посовокупности наблюдений (фактов) F, совокупности требований и допущений к видурезультирующей гипотезы Hи совокупности базовых знаний и предположений,включающих знания об особенностях предметнойобласти, выбранном способе представления знаний,наборе допустимых операторов, эвристик и др.,сформировать гипотезу Н: H<span Times New Roman"; mso-hansi-font-family:«Times New Roman»;mso-ansi-language:EN-US;layout-grid-mode: line;mso-char-type:symbol;mso-symbol-font-family:Symbol">Þ
F(Н«объясняет»F).Общий вид гипотезы Н зависит отцели обобщения и выбранного способа представления знаний. Методы обобщения,включающие модели классификации, формированияпонятий, распознавания образов, обнаружения закономерностей, определяютсяцелями обобщения, способами представления знаний,общими характеристиками фактов, критериями оценки гипотез.
Для обобщения по выборкамсовокупность фактовF имеет вид обучающей выборки – множества объектов, каждый изкоторых сопоставляется с именем некоторого класса. Целью обобщения в этом случае может являться:
-<span Times New Roman"">
формирование понятий: построение по данным обучающей выборки длякаждого класса максимальной совокупности его общих характеристик[4];-<span Times New Roman"">
классификация:построение по данным обучающей выборки для каждогокласса минимальной совокупности характеристик, которая отличала бы элементы класса от элементов других классов;-<span Times New Roman"">
определениезакономерности последовательногопоявления событий.К методам обобщения по выборкам относятся лингвистические модели, методы автоматическогосинтеза алгоритмов ипрограмм по примерам и другие [2].
В методах обобщения по данным априорноеразделение фактов по классам отсутствует. Здесьмогут ставиться следующие цели:
-<span Times New Roman"">
формулирование гипотезы, обобщающейданные факты;-<span Times New Roman"">
выделение образов на множестве наблюдаемых данных,группировка данных по признакам(задача формирования понятий, определенная в модели обобщения по выборкам,также часто ставится без априорного разбиенияобучающей выборки по классам)[4];-<span Times New Roman"">
установление закономерностей, характеризующих совокупность наблюдаемых данных [5].Рассмотрим кратко связь между задачамиобобщения и классификации и задачами, решаемыми врамках теории вероятностей и математической статистики. В математической статистике ставятся и решаются задачи выводановых знаний на основании анализа совокупности наблюдений, при этом устанавливаются частотные закономерностипоявления событий: определяются общий вид и параметры функций распределения вероятностей событий по данным наблюдений,делаются выводы о степени статистической зависимости наблюдаемых случайных величин, проверяются гипотезы о характеристиках случайного события. Действительно,в задаче формализации и вывода знаний о реальноммире нельзя не учитывать наличия статистических закономерностей в егопроявлениях. Общая же задача формирования гипотез по данным наблюдений не ограничивается установлением статистическихзакономерностей. Так, разработаны формально-логические модели выдвижения гипотез [6], которые используются в теории искусственного интеллекта.
С точки зрения способа представления знаний идопущений на общий вид объектов наблюдений, методыобобщения делятся на методы обобщения по признакам и структурно-логические(иликонцептуальные) методы [2]. В первом случае объекты представляются в видесовокупности значенийкосвенных признаков. Методы обобщения и распознавания по признакам различаются для качественных (номинальных или порядковых) и количественных (измеримых) значений признаков.Структурно-логические методы, в отличие от признаковых, предназначены длярешения задачи обобщения на множестве объектов, имеющих внутреннюю логическуюструктуру (последовательности событий, иерархически организованные сети,характеризуемые как признаками и свойствами объектов – элементов сети, так иотношениями между ними). В формально-логических системах, использующихструктурно-логические методы обобщения, вывод общих следствий из данных фактовназывают индуктивным выводом.Сформулированы основные вопросы, на которые должны давать ответы индуктивныелогики и методы выдвижения гипотез:
1.<span Times New Roman"">
Является ли гипотеза Н обоснованной данным знанием?2.<span Times New Roman"">
Существуют ли методы обоснования Н при данном знании?3.<span Times New Roman"">
Каковы условия для Н при данном знании, такие, что Ндает наиболее разумное и интересное объяснение?4.<span Times New Roman"">
Существуют методы для выдвижения гипотез наосновании данного знания, дающих наиболее разумное и интересное объяснениеизучаемого явления?В экспертных системах (ЭС) для представлениязнаний об объектах используются обычно модификацииязыка исчисления предикатов без ограничения арностипредикатных символов или адекватные им повыразительной мощности семантические сети [2].Моделям обобщения на семантических сетяхсвойственны черты как алгоритмов обобщения по признакам, так ииндуктивной логики. Здесь также определяется набор операторов, используемыхпри формировании обобщенного представления (гипотезы) Н, и выдвигаются критерии оценки «интересности»и обоснованности гипотез. Кроме того, в этихмоделях широко используется характерный дляобобщения по качественным признакам [7] аппарат теории покрытий и устанавливаются отношения на множествезначений признаков объектов-элементов сети. Методами структурного обобщениярешаются обычно задачи классификации, формирования понятий, анализа сцен[2].
Для задачи обобщения по признакам известенследующий результат: каков бы ни был реальный вид разделяющейфункция <span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">y
(в общем случае – индуктивной гипотезы Н) и алгоритм ее формирования пообучающей выборке, всегда найдется такая (непустая)обучающая выборка, что сформированная функция <span Times New Roman";mso-hansi-font-family:«Times New Roman»;layout-grid-mode: line;mso-char-type:symbol;mso-symbol-font-family:Symbol">y'(гипотеза Н')явится некорректной (ложной).В связи с этим гипотезы принято оценивать сточки зрения их «разумности», «рациональности», «интересности».В [6] рациональность ответа на вопрос1 (см. выше) индуктивного вывода понимаетсяследующим образом. Пусть <span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">F
– имеющиесяистинные утверждения, а <span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">j– эмпирическиеданные. Тогда для порождаемой ложной гипотезы <span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">F,<span Times New Roman";mso-hansi-font-family:«Times New Roman»; layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family:Symbol">j<span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">Þ<span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">yвероятностная мера наблюдения <span Times New Roman";mso-hansi-font-family:«Times New Roman»;layout-grid-mode: line;mso-char-type:symbol;mso-symbol-font-family:Symbol">yна <span Times New Roman";mso-hansi-font-family: «Times New Roman»;layout-grid-mode:line;mso-char-type:symbol;mso-symbol-font-family: Symbol">jдолжнабыть мала (например, меньше0,05).Можно оценивать гипотезы с точки зрениямощностей подмножеств покрываемых ими элементов обучающей выборки. В ряде исследований для подтверждения или отрицаниявыдвигаемой гипотезы используются методыавтоматического порождения новых элементов обучающей выборки, которые выдаются для классификацииэксперту. Решающее правило переопределяется, покане будет достигнута равновесная ситуация [2].
1.2.1.1. Трудности при разработке экспертных системК настоящему времени в теории классических экспертных систем разработанаформализованная технология извлечения и представления экспертных знаний.Однако, существует целый ряд трудностей [8]:
-<span Times New Roman"">
ПостроениеЭС не под силу конечному пользователю, не обладающему экспертными знаниями опроблемной области.-<span Times New Roman"">
Необходимостьпривлечения человека-эксперта в проблемной области, который является носителемзнаний. Кроме трудности нахождения эксперта (его может и не быть), необходимодобавить еще и возможные трудности взаимодействия эксперта соспециалистом-когнитологом (именно последний, путем диалога с экспертом,оформляет полученные от эксперта знания в выбранном формализме представлениязнаний).-<span Times New Roman"">
Имеющаясяоболочка ЭС и/или используемая ей модель представления знаний могут плохоподходить для выбранной проблемной области, задачи. Это часто вынуждаетразрабатывать программный инструментарий «с нуля».-<span Times New Roman"">
Процесс извлечениязнаний из эксперта, их формализация, проверка на непротиворечивость иустранение противоречий очень длителен, несмотря на наличие программных средствавтоматизации. До получения первого прототипа системы проходит длительное время(месяцы), и до этих пор нельзя определить, возможно ли построение ЭС, решающейпоставленную задачу с заданной степенью точности и увеличивающей точностьрешения при дальнейшем пополнении базы знаний, либо достижение заданныххарактеристик системы невозможно. Это может вести к большим материальнымзатратам в последнем случае. Другими словами, один из самых первых этапов приразработке любой информационной системы – анализ реализуемости – при разработкеЭС откладывается до момента построения исследовательского прототипа системы.Перечисленные трудностипрепятствуют широкому применению теоретических методов и программных оболочекЭС на практике.
1.2.2. Мет