Реферат: Модели знаний и данных

Содержание.

1.Введение.

2.Особенности знаний (Основные понятия).

3.Модели представления знаний.

4.Фреймовые и сетевые модели.

5.Представление знаний в системе распределенных баз знаний в INTERNET/INTRANET.

6.Списоклитературы.

Введение.

Информация скоторой имеют дело ЭВМ, разделяется на процедурную и декларативную. Процедурнаяинформация овеществлена в программах, которые выполняются в процессе решениязадач, декларативная – вданных с которыми эти программы работают. Стандартной формой представленияинформации в ЭВМ является машинное слово, состоящее из определенного дляданного типа ЭВМ числа двоичных разрядов – битов. Однако  в ряде случаевмашинные слова разбиваются на группы по восемь двоичных разрядов которыеназываются байтами.

Параллельно с развитиемструктуры ЭВМ происходило развитие информационных структур для представленияданных. Появились способы описания данных в виде векторов и матриц, возниклисписочные структуры, иерархические структуры. В настоящее время в языкахпрограммирования высокого уровня используются абстрактные типы данных,структура которых задается программистом. Появление баз данных (БД) знаменовалособой еще один шаг на пути организации работы с декларативной информацией. В базахданных могут одновременно хранится большие обьемы информации, а специальныесредства образующие систему управления базами данных (СУБД), позволяют эффективно манипулировать сданными, по необходимости извлекать их из базы данных и записывать их в нужномпорядке в базу.

По мере развитияисследований  в области ИС возникла концепция знаний, которая объединила в себемногие черты процедурной и декларативной информации.

Итак, что же такоепредставление информации? Врамках этого направления решаются задачи, связанные с формализацией ипредставлением знаний в памяти интеллектуальной системы (ИС). Для этогоразрабатываются специальные модели представления знаний, выделяются различныетипы знаний. Изучаются источники, из которых ИС может черпать знания, и создаютсяпроцедуры и приемы с помощью которых возможно приобретение знаний для ИС.Проблема представления знаний для ИС чрезвычайно актуальна, так как ИС — этосистема функционирование которой опирается на знания о предметной области,которые хранятся в её памяти.

Вывод: представление знаний – это одно изнаправлений в исследованиях по искусственному интеллекту. Другие направленияэто – манипулирование знаниями, общение, восприятие, обучение и поведение. Нона них я далее останавливаться не буду.

Особенностизнаний.

 

Перечислим рядособенностей присущих различным формам представления знаний в ЭВМ.

1.Внутренняяинтерпретируемость. Каждая информационная единица должна иметьуникальное имя, по которому ИС находит её, а также отвечает на запросы, в которыхэто имя упомянуто. Когда данные, хранящиеся в памяти, были лишены имен, то отсутствовалавозможность их идентификации системой. Данные могла идентифицировать лишьпрограмма, извлекающая их из памяти по указанию программиста, написавшегопрограмму. Что скрывается за тем или иным двоичным кодом машинного слова,системе было неизвестно.

2.Структурированность.Информационные единицы должны были обладать гибкой структурой. Для них долженвыполняться “принцип матрешки”, т.е. рекурсивная вложенность однихинформационных единиц в другие. Каждая информационная единица может бытьвключена в состав любой другой, и из каждой единицы можно выделить некоторые еёсоставляющие. Другими словами должна существовать возможность   произвольного установления между отдельными информационнымиединицами отношений типа “часть– целое”,” род – вид” или “элемент – класс”.

3.Связность.В информационной базе между информационными единицами должна быть предусмотренавозможность установления связей различного типа. Прежде всего эти связи могутхарактеризовать отношения между информационными единицами. Например: две или более информационные единицымогут быть связаны отношением  «одновременно», две информационные единицы  — отношением «причина – следствие» или отношением «быть рядом». Приведенныеотношения характеризуют декларативные знания. Если между двумя информационнымиединицами установлено отношение «аргумент – функция», то он характеризуетпроцедурное знание, связанное с вычислением определенных функций. Существуют — отношения структуризации, функциональные отношения, каузальные отношенияи семантические отношения. С помощью первых задаются иерархии информационныхединиц, вторые несут процедурную информацию, позволяющие вычислять (находить)одни информационные единицы через другие, третьи задают причинно следственные связи, четвертые соответствуют всем остальным отношениям.

Перечисленные триособенности знаний позволяют ввести общую модель представления знаний, которуюможно назвать семантической сетью, представляющей собой иерархическуюсеть в вершинах которой находятся информационные единицы.

4.Семантическаяметрика. На множестве информационных единиц в некоторых случаях полезнозадавать отношение, характеризующее информационную близость информационныхединиц, т.е. силу ассоциативной связи между информационными единицами. Егоможно было бы назвать отношением релевантности для информационных единиц. Такоеотношение дает возможность выделять в информационной базе некоторые типовыеситуации (например «покупка», «регулирование движения»). Отношение релевантностипри работе с информационными  единицами позволяет находить знания близкие к уженайденным.

5.Активность.Смомента появления ЭВМ  и разделения используемых  в ней информационных единиц наданные и команды создалась ситуация, при которой данные пассивны а командыактивны. Все процессы протекающие в ЭВМ инициируются командами, а данныеиспользуются этими командами лишь в случае необходимости. Для ИС эта ситуациянеприемлема. Как и у человека, в ИС актуализации тех или иных действийспособствуют знания, имеющиеся в системе. Таким образом, выполнение программ вИС должно инициироваться текущим состоянием информационной базы. Появление вбазе фактов или описание событий, установление связей может стать источникомактивности системы.

Перечисленные пятьособенностей информационных единиц определяют ту грань, за которой данныепревращаются в знания, а базы данных перерастают в базы знаний (БЗ).Совокупность средств, обеспечивающих работу со знаниями, образуют системууправления базой знаний (СУБЗ). В настоящее время не существует баз знаний, вкоторых в полной мере были бы реализованы перечисленные вше особенности.

Модели представлениязнаний.

 

Во многих случаях дляпринятия решений в той или иной области человеческой деятельности неизвестеналгоритм решения, т.е. отсутствует четкая последовательность действий, заведомоприводящих к необходимому результату. Например:

-    проектирование развития тяжелой промышленности;

-    оптимальное размещение персонала внутри здания;

-    лечение больного человека.

Припринятии решения в таких случаях необходимо иметь некоторую сумму знаний осамой этой области. Например: при выборе наилучшегохода в конкретной шахматной позиции необходимы знания о правилах игры, силешахматных фигур, стратегии и тактике  и многое другое. Под знаниями понимаетсято, что стало известно после изучения. Совокупность знаний нужных для принятиярешений, принято называть предметной областью или знаниями о предметнойобласти.

В любойпредметной области есть свои понятия и связи между ними, своя терминология,свои законы, связывающие между собой объекты данных предметной области, своипроцессы и события. Кроме того, каждая предметная область имеет свои методырешения задач.

Решаязадачи такого вида на ЭВМ используют ИС, ядром которых являются базы знаний,содержащие основные характеристики предметных областей.

Припостроении баз знаний традиционные языки, основанные на численном представленииданных являются неэффективными. Для этого используются специальные языкипредставления знаний, основанные на символьном представлении данных. Ониделятся на типы по формальным моделям представления знаний. Различные авторы по-разному эти модели классифицируют. Вообще их четыре:

-    продукционные модели

-    логические модели

-    сетевые модели

-    фреймовые модели

Кто-тообъединяет продукционные и логические, а кто-то сетевые и фреймовые.

Сначалавкратце рассмотрим продукционные и логические модели:

Знания втаких моделях представляются в следующей форме: «ЕслиА, то В». Вместо А и В могут стоять некоторые утверждения, факты, приказы ит.д. Например: «Если диагонали четырехугольникапересекаются под прямым углом, то  этот четырехугольник ромб», «Если сделаешьработу то получишь зарплату» и т.д.

Изпримеров видно что правило состоит из двух частей:посылки (условия) и следствия (заключения). Если А (посылка) имеет место, тоВ(следствие) также реализуется или может быть реализовано. Посылка можетсостоять и из нескольких частей т.е: «Если А1, А2,.., АN то В».

Записьправила означает, что  «Если все посылки от А1 до АNистинны, то следствие В также истинно». Посылки А1… АNесть простые посылки они соединяются с помощью союзов: и, или  и могут содержать отрицание не. Приреализации правил такого вида из одной или нескольких посылок  (знаний)могут быть получены новые знания, поэтому они называются продукционными. Примеромможет служить следующее правило:

Есличеловек Х является сыном человека У, и

человекУ является сыном человека Z, и

человек Z является мужчиной,

точеловек Х является внуком человека Z.

Далеерассмотрим сетевые модели.

В основесетевых моделей представления знаний лежит идея о том, что любые знания можнопредставить в виде совокупности объектов (понятий) и связей (отношений) междуними. В отличие от продукционных эти модели более наглядны, поскольку любой примерможно представить в виде ориентированного (направленного) графа.

В основемоделей этого типа лежит конструкция, названная семантической сетью. Сетевыемодели формально можно задать в виде Н=[I,C1,C2,..,CN,G].Здесь I множество информационных единиц; С1,.., СN – множество типов связеймежду информационными единицами. Отображение G задаетмежду информационными единицами, входящими в I связи иззаданного набора типов связей.

Взависимости от типов связей, используемых в модели, различают классифицирующиесети, функциональные сети и сценарии.

Пример: Рассмотрим набор из нескольких фраз.

Попугай Кеша является птицей, и он умеет говорить.

/> /> /> /> /> /> /> /> />

/>                              Зовут                               является

/>


/>                                       умеет

 

Фреймовые и сетевые модели.

 

 Ранеебыли рассмотрены семантические сети. Понятия, входящие в сеть, описываются ввиде фреймов. А что такое фрейм?

Фрейм– это минимально возможное описание сущности какого-либо события, ситуации,процесса или объекта. Существует и другое понимание фрейма – это ассоциативныйсписок атрибутов. Понятие минимально возможное означает, что при дальнейшем упрощенииописания теряется его полнота, и оно перестает определять ту единицу знаний,для которой было предназначено. Представление знаний с помощью фреймовпонимается как один из способов представления знаний о ситуациях. Фрейм имеетимя (название) и состоит из слотов. Слоты – это незаполненные (нулевые)позиции фрейма. Если у фрейма все слоты заполнены – это описание конкретной ситуации.В переводе с английского слово «фрейм» означает «рамка», а слово «слот» –«щель». В отличие от моделей других типов во фреймовых моделях фиксируетсяжесткая структура информационных единиц, которая называется протофреймом.В общем виде структура информационных единиц выглядит следующим образом:

(Имяфрейма:

      имя слота1 (значение слота1);

      имяслота2 (значение слота2);

     ..… .

      имяслотаК (значение слотаК)).

Значениемслота может быть практически что угодно (числа, математические соотношения,тексты на естественном языке или на языке программ, ссылки на другие слотыданного фрейма).Значением слота может выступать и отдельный фрейм, что являетсяочень удобным для упорядочивания знаний по степени общности. Исключение изфрейма любого слота делает его неполным, а иногда и бессмысленным.

Приконкретизации фрейма ему и слотам приписываются конкретные имена и происходитзаполнение слотов. Таким образом из протофреймов получаются фреймы – экземпляры.Переход от исходного протофрейма к фрейму – экземпляру может быть многошаговым,за счет постепенного уточнения значений слотов.

Рассмотримнекоторый протофрейм:

(Списоксотрудников:

         Фамилия (значение слота1);

          Год рождения (значение слота2);

          Специальность (значение слота3);

          Стаж (значение слота4)).

Если вкачестве значений слотов использовать конкретные данные, то получим фрейм –экземпляр:

(Списоксотрудников:

        Фамилия (Попов – Сидоров – Иванов – Петров);

        Год рождения (1965 – 1975 – 1980 – 1978);

         Специальность (директор – бухгалтер – техник – курьер);

         Стаж (15 – 7 – 3 – 4)).

Связимежду фреймами задаются значениями специального слота с именем «связь». Как яуже ранее писал часть специалистов по ИС считает, что нет необходимости специальновыделять фреймовые в представлении знаний, так как в них объединены  все основныеособенности остальных типов.

Теперьрассмотрим несколько примеров:

1. Пусть дана некоторая фраза «Кассир выдает деньгирабочим». Запишем её в виде фрейма:

(Выдает:

    служащий (кассир);

    получатель (рабочий);

    объект (деньги)).

Изпримера видно что фрейм имеет следующую протоструктуру

(Выдает:

    служащий (Значение слота1);

    получатель (Значение слота2);

    объект (Значение слота3)).

№2. Пустьдан некоторый фрейм. Сформулируем на естественном языке те знания которыезаложены в этом фрейме.

(Список учеников:

        Фамилия (Иванов – Петров – Сидоров);

        Год рождения (1987 – 1985 – 1990);

         Класс (5 – 7 – 2)).

1.  Иванов родился в 1987 и учится в 5-м классе.

2.  Петров родился в1985 и учится в 7-м классе.

3.  Сидоров родился в 1990 и учится во 2-м классе.

Еще рассмотрим пример вложенного фрейма т.е.

(План недели:

            мероприятие1 (Собрание);

            мероприятие2 (Празднование);

            мероприятие3 (Футбольный матч)).

  (Собрание:

            Тема (Начало учебного года);

            Время (Понедельник, 14.00);

            Место (Актовый зал);

            Присутствуют (Коллектив школы)).

  (Празднование:

            Тема (День рождения);

            Время (Среда, 17.00);

            Место (Столовая);

            Присутствуют (Ученики класса)).

  (Футбольный  матч:

            Тема (болеть за «наших»);

            Время (Пятница, 18.30);

            Место (Стадион);

            Присутствуют (болельщики команд)).

Для сетевых моделей стоит выделить следующие проблемы:

1.Сетевые модели не имеют общейтеории.

2.Много эвристики.

3.Проблема эффективности процедурработы с сетями.

4.Многовидов сетей, в том числе рассчитанных на аппаратную реализацию.

ПРЕДСТАВЛЕНИЕЗНАНИЙ В СИСТЕМЕ РАСПРЕДЕЛЕННЫХ БАЗ ЗНАНИЙ И ДАННЫХ В INTERNET / INTRANET.

 

Постановка задачи.

В настоящее время в основном триизобретения в области информатики определяют пути ее развития;

экспертные системы,

системы управления базами данных,

сеть Internet.

        В последние два десятилетияширокое распространение в различных областях деятельности получили экспертныесистемы. Отличительной чертой компьютерных программ, называемых экспертнымисистемами, является их способность накапливать знания и опыт высококвалифицированных специалистов в какой-либо узкой предметной области. Затем спомощью этих знаний пользователи экспертных систем, имеющие не очень высокуюквалификацию, могут решать свои текущие задачи столь же успешно, как этосделали бы сами эксперты. На данный момент экспертные системы должны удовлетворятьследующим требованиям:

1.Необходимо использовать в них не поверхностные знания в видеэвристических      правил, а глубинные, представляющиесобой теории предметных областей и общие стратегии решения проблем.

2.Знания должны быть организованы в виде составныхиерархических представлений, включающих сети фреймов, продукции и логическиемодели.

3.Экспертная система должна решать задачи из динамическихпредметных областей, то есть областей, знания о которых могут изменятьсянепосредственно в процессе вывода.

4.Одним из компонентов экспертной системы должна являться базаданных с неполной информацией.

5.Система должна быть способна анализировать имеющиеся у неезнания, обнаруживая противоречия между старыми знаниями и вновь полученными отэксперта, устанавливать факт их неполноты или ошибочности.

     В большинстве случаев современные экспертные системыне удовлетворяют этим требованиям. Следует сказать о таком важном, недостаткеэкспертных систем, как отсутствие возможности хранить большие объемы данных.Конечно, в принципе база знаний экспертной системы может хранить любоеколичество данных в виде правил-продукций или просто фактов. Но механизм ееработы в общем виде таков, что при работе с большими объемами похожих фактовили правил скорость работы резко падает.

Остановимся теперь на средствахуправления базами данных. Не секрет, что в связи с ростом объемов носителей искоростей передачи данных человечество просто тонет в огромном количествеинформации. Все знания, которыми когда-либо обладал человек если уже нехранятся, то в ближайшем будущем будут храниться в компьютеризированном виде.Таким образом, если человеку нужна какая-либо конкретная информация, он можетбыть уверен, что где-то, на каком-то сервере и в какой-то базе данных эта информацияуже хранится. Нужно только извлечь ее. Дальше начинаются сложности. Пользовательдолжен знать не только точный адрес нужного сервера, но и представлять себе,где именно на этом сервере и в каком виде хранится нужная ему информация. И этоеще не все. Человек должен суметь сформулировать свой вопрос на языке, прямоскажем, далеком от естественного, например, на языке SQL. Только тогда онсможет добраться до нужной информации.

Примерно тем же недостатком обладаютсредства поиска информации в сети Internet. Поисковые машины Internet ни в коеймере не используют семантику предметной области при поиске информации, а могутискать информацию только по ключевым словам, подбор которых является для пользователяотнюдь не тривиальной задачей. Кроме того, даже зная какие слова нужно искать,пользователь не гарантирует себе успешный поиск, т.к. не знает в каком падежеиспользуются эти слова.

     Итак: Экспертнаясистема способна выдавать ответы, выбирая их из собственной базы знаний иливыводя с помощью правил-продукций, но не имеет доступ к огромным массиваминформации, хранящимся в базах данных различного типа.

Средства управления базами данных,например, SQL-сервера, способны выдавать только конкретную информацию поконкретным запросам, сформулированным на соответствующем языке. Делать выводы исамообучаться они не могут.

Средства поиска информации в Internetне способны гарантировать успех, т.к. не используют при поиске семантикупредметной области.

     Таким образом, мы пришли к выводу, что ни базы знанийс инструментарием экспертной системы, ни базы данных с языками запросов, нипоисковые машины Internet неискушенного человека удовлетворить не могут. Тогдаи возникла идея объединить базы данных и базы знаний едиными концепциями иединым инструментарием и погрузить их в среду Internet / Intranet.

    Язык представления данных и знанийIRL.

В качестве модели представленияданных и знаний была выбрана сеть фреймов. Понятие фрейма широко используется вобластях, связанных с искусственным интеллектом. Фрейм позволяет описывать какабстрактные объекты и понятия, так и конкретные объекты, имеющие точныечисловые характеристики. Также представляется очень существенной возможностьпредставления в виде фреймов иерархических объектов. Фрейм, как известно,состоит из слотов, описывающих конкретные свойства понятия или объекта. Для работыс фреймами был разработан специальный язык, названный нами Intelligent RequestLanguage, или сокращенно IRL. Грамматика этого языка представлена ниже. Онаотносится к классу Q-грамматик, так как содержит правила вида N:empty.Грамматики этого типа допускают нисходящий грамматический разбор. Общий видграмматики представлен ниже.

<ОписаниеПонятия>:<ИмяПонятия> <Предок> <Источник> <Состав><ОписанияСлотов> { <Источник> <Состав> <ОписанияСлотов>

<Предок>: :<ИмяПредка> {{

<Источник>:<ИсточникДанных>=<ОписаниеИсточника> empty

<ОписаниеИсточника>:"<ИмяФайла>"; "<IP-адрес>";

<Состав>: <Состоит> {<ОписаниеСостава>

<ОписаниеСостава>:<ОписаниеПонятия> <ОписаниеКоличества> <ОписаниеСостава> }

<ОписаниеКоличества>::<ЧислоВхождений>; ;

<ОписанияСлотов>:<ИмяСлота> <ЗначениеСлота> <ОписанияСлотов> }

<ЗначениеСлота>: <Число><ЕдиницаИзмерения> <Продолжение> [<Число>,<Граница>]<ЕдиницаИзмерения> <Продолжение> "<Строка>" <Продолжение>~<ОписаниеСтолбца> <ЕдиницаИзмерения> <Продолжение>#<ИмяСлота> <Продолжение> <ОписаниеПонятия><Продолжение> ?;

<ЕдиницаИзмерения>:(<ИмяЕдиницы>) empty

<Граница>: <Число> ><

<Продолжение>:; |<ЗначениеСлота>

<ОписаниеСтолбца>:<Столбец><ПродолжениеОписанияСтолбца>

<ПродолжениеОписанияСтолбца>::<ИмяФайла>:<Столбец>=<Столбец><ПродолжениеОписанияСтолбца>empty

Достоинством языка IRL можно считатьвозможность описания двух таких важных сущностей, как наследование и включение.По нашему мнению, машинный язык может адекватно представлять устройство мира счеловеческой точки зрения только в том случае, если он отображает эти понятия.Как видно из грамматики, в частном случае фрейм языка IRL может иметь толькоимя, и ничего больше. В этом случае он является описанием базового понятия, тоесть, понятия, не имеющего предка. В качестве базовых понятий используются:

1.  Действие (Action).

2.   Свойство (Property).

3.   Отношение (Relation).

4.   Объект (Object).

Некоторые из базовых понятий имеютсвойства (слоты), другие — нет. К числу первых относятся действие и отношение,к числу вторых — свойство и объект. Базовое действие имеет следующие слоты:

Название.

Объект действия.

Субъект действия.

Время действия.

Место действия.

Что имеется в начале действия.

Что имеется в конце действия.

Последние два слота предназначены длятого, чтобы система могла анализировать действие не только по названию, но и посути. Базовое отношение в свою очередь имеет слоты:

Объект.

Субъект.

При описании конкретного действия илиотношения каждый слот получает соответствующее значение. Все остальные понятиянаследуются из базовых. По умолчанию фрейм-потомок наследует все слотыфрейма-предка, а к ним уже может добавлять любое количество своих слотов. Кроменаследования, грамматика языка IRL позволяет реализовать такую важную вещь, какпонятие включения. Для этого введен специальный слот <Состоит>. Объект можетсостоять из любого числа других объектов, которые, в свою очередь, могут бытьсоставными. Если характеристика объекта может быть выражена с помощью чисел, тоязык предоставляет следующие возможности:

        Использование единиц измерения поусмотрению пользователя. Единицы измерения, используемые пользователем, спомощью таблиц преобразования приводятся к унифицированным.

          Использование числовых диапазонов.Для них предусмотрен специальный синтаксис. Кромепонятий и объектов система  может хранить отдельные факты и правила-продукции,или, говоря другими словами, каждый фрейм является своего родаправилом-продукцией. Остановимся для начала на фактах. Факт любого рода можетбыть представлен в виде фрейма, описывающего конкретное действие. Например,если мы хотим занести в базу знаний системы тот факт, что Колумб открыл Америкув 1492 году, это будет выглядеть следующим образом:

Открыл: Действие { Объект =«Колумб» Субъект = «Америка» Время действия = «1492год» }

        Фреймов с одинаковым названием всистеме может храниться сколь угодно много. Нужно лишь, чтобы они отличалисьдруг от друга. Благодаря уникальной конструкции файловой системы поиск нужногофрейма происходит очень быстро. Обратимся вновь к грамматике языка IRL. Слот<Источник> может присутствовать в любом фрейме, но он не является обязательным.Это значит, что если данные хранятся в конкретной базе данных, то мы ееуказываем, а если нет — это будет факт общего вида, пример которого и был приведенвыше. Следует остановиться еще на одном важном моменте. В реальной практикедовольно редко встречаются обособленные файлы баз данных. Как правило, для увеличениябыстродействия систем обработки данных информация хранится во множестве различныхфайлов, связанных между собой. Язык IRL позволяет описывать связанные базыданных. Мы не будем касаться конкретного синтаксиса. Приведем лишь общий виднекоторого факта, а именно: описание объекта «Фирма», данные окотором хранятся в одной базе данных, а данные о продукции, выпускаемой фирмой- в другой базе данных. Естественно, что эти базы должны быть связаны междусобой.

Список литературы:

1.”Искусственныйинтеллект”. 2-й том под редакцией Поспелова.

2.

еще рефераты
Еще работы по информатике, программированию