Реферат: Классификация объектов нечисловой природы на основе непараметрических оценок плотности

/>

           

            ВСССР в середине 70-х годов активно ведутся работы по статистическому анализунечисловых данных  [1]. В настоящее время во Всесоюзном центрестатистических методов и информатики мы при разработке методических документови программных продуктов по прикладной статистике делим ее на четыре частисоответственно виду обрабатываемых статистических данных: на статистикуслучайных величин, многомерный статистический анализ, статистику временныхрядов и случайных процессов, статистику объектов нечисловой природы (другимисловами, статистику нечисловых данных).

            Вероятностныйи статистический анализ нечисловых данных сопровождали теорию вероятностей иматематическую статистику с самого начала их развития. Типичными примерамиявляются урновые схемы и изучение рождаемости. Испытание Бернулли-вероятностная модель простейшего объекта нечисловой природы. Наиболее массовымприменением статистических методов является, видимо, выборочный контролькачества продукции по альтернативному признаку (т. е. по признаку «годен”- “не годен»), относящийся, очевидно, к статистике объектов нечисловойприроды [2].

            Развитиеприкладных исследований привело к необходимости рассмотрения в качествестатистических данных различных объектов нечисловой природы. Этот терминприменяем к объектам, которые нецелесообразно рассматривать как описанныечислами. Другими словами, речь идет об элементах пространства, не являющихсялинейными (векторными). Примеры: бинарные отношения (ранжировки, разбиения,толерантности и т. д.); множества; нечеткие множества; результаты измерений вшкалах, отличной от абсолютной; как обобщение перечисленных объектов — элементыпространств общей природы. Для результатов наблюдений, являющихся объектаминечисловой природы, рассматривают [1] классические задачи статистики: описаниеданных (включая классификацию) оценивание (параметров, характеристик, плотностираспределения, регрессионной зависимости и т. д.).

            Математическийаппарат статистики объектов нечисловой природы основан не на свойствелинейности пространства, а на применении симметрик и метрик в нем, поэтомусущественно отличается от классического.

            Вприкладных работах наиболее распространенный пример объектов нечисловой природы- разнотипные данные. В этом случае реальный объект описывается вектором, частькоординат которого — значения количественных признаков, а часть — качественных(номинальных и порядковых).

            Основнаяцель настоящего раздела — обосновать новый подход [3] к классификации впространствах произвольной природы, основанный на построении не параметрическихоценок плотности распределений вероятности в таких пространствах [4].

"Пусть /> - измеримое пространство,. /> и />. суть /> -конечные меры на />., причем /> абсолютно непрерывнаотносительно />, т. е. из равенства. />. =0 следует равенство />=0, где />… В этом случае на /> существуетнеотрицательная измеримая функция  такая, что

/>

длялюбого /> Функция называетсяпроизводной Родона-Никодима меры /> по мере />, а в случае, когда /> - вероятностная мера,также плотностью вероятности />  по отношению к />. " [5]

                                          Будемсчитать, что в пространстве объектов нечисловой природы фиксирована некотораямера />, амера /> соответствуетраспределению Р случайного элемента /> сознаниями в измеримом пространстве />, т. е.

/>

Если — /> пространство из конечногочисла точек, то в качестве меры /> можно использовать считающую меру(приписывающую единичный вес каждой точке), т. е. />,или

/>

                                          Вслучае считающей меры значение плотности в точке /> совпадает с вероятностью попасть вточку />, т.е. />

              Многиеметоды классификации используют расстояния или меры близости между объектамиили признаками. Такие методы пригодны и для классификации объектов нечисловойприроды, лишь бы в соответствующем пространстве было определено расстояние илимера близости. Таким образом, широко известные иерархические агломеративныеалгоритмы ближайшего соседа, дальнего соседа, средней связи и др., результатомработы которых являются дендрограммы, на самом деле относятся к статистикеобъектов нечисловой природы.

              Непытаясь рассмотреть все многообразие методов классификации в статистикеобъектов нечисловой природы (см., например, [6, 7]), сосредоточимся на тех изних, которые используют плотности распределения и их оценки. Зная плотностираспределения классов, можно решать основные задачи классификации — как задачивыделения кластеров, так и задачи диагностики. В задачах кластер-анализа можнонаходить моды плотности и принимать их за центры кластеров или за начальныеточки итерационных методов типа динамических сгущений. В задачах диагностики(дискриминации, распознавания образов с учителя) можно принимать решения оклассификации объектов на основе отношения плотностей, соответствующих классам.При неизвестных плотностях представляется естественным использовать ихсостоятельные оценки. Корректность такой постановки, как правило, нетруднообосновать, например, в стиле [8]. Таким образом, для переноса на пространствапроизвольной природы основных методов классификации рассматриваемого типадостаточно уметь оценивать плотность распределения вероятности в такихпространствах.

              Методыоценивания плотности вероятности в пространствах общего вида предложен ипервоначально изучены в [4]. В частности, в задачах классификации объектовнечисловой природы предлагаем использовать непараметрические ядерные оценкиплотности типа Парзена-Розенблатта (этот вид оценок и его название введены намив [4]):

/>,

где К: /> - ядерная функция /> - выборка по которойоценивается плотностью, /> -расстояние между элементом выборки /> и точкой/>, в которой оцениваетсяплотность последовательность /> показателейразмытости такова, что при />0 и n/>,а /> - нормирующий множитель,обеспечивающий выполнение условия

/>

              Оценкитипа Парзена-Розенблатта — частный случай линейных оценок [4]. В теоретическомплане они выделяются тем, что удается получать результаты такого же типа, что вклассическом одномерном случае (/>), но, разумеется, с помощью совсеминого математического аппарата.

              Однаиз основных идей состоит в том, чтобы согласовать между собой расстояние /> и меры />. А именно, рассмотрим шарырадиуса />

/>

и ихмеры

/>

              Предположим,что /> как функция /> при фиксированном /> непрерывна истрого возрастает. Введем функцию

/>

              Это- монотонное преобразование расстояния, а потому /> -метрика или симметрика (т. е. неравенство треугольника может быть невыполнено), которую, как и />, можнорассматривать как меру близости между /> и/>.

              Введем

/>.

              Поскольку/> определена однозначно, то

/>^

где />., а потому

/>

              Переходот /> к /> напоминает классическоепреобразование, использованное Н. В. Смирновым, />,переводящее случайную величину /> снепрерывной функцией распределения /> вслучайную величину />, равномернораспределенную на [ 0, 1]. Оба рассматриваемых преобразования существенноупрощают дальнейшие рассмотрения.

              Преобразование/> зависит от точки />, что не влияет надальнейшие рассуждения, поскольку ограничиваемся изучением сходимости в точке.

              Функцию/>, для которой мера шарарадиуса /> равна />, называют [4]естественным показателем различия или естественной метрикой. В случаепространства /> и евклидовой метрики /> имеем

/>

где />-объем шара единичногорадиуса в />.

              Посколькуможно записать, что

/>

где

/>

топереход от /> к /> соответствует переходу от /> к />. Выгода от такого переходазаключается в том, что утверждения приобретают более простую формулировку.

              ТЕОРЕМА1. Пусть /> - естественная метрика,

/>/>

Плотность/> непрерывна в /> и ограничена на />, причем />. Тогда />, оценка /> является состоятельной, т.е. />по вероятности при />,

/>

Теорема1 доказана в [4]. Однако остается открытым вопрос о скорости сходимости ядерныхоценок, т. е. о поведении величины

/>

и обоптимальном выборе показателей размытости />.

              Введемкруговое распределение /> икруговую плотность />.

              ТЕОРЕМА2. Пусть ядерная функция /> непрерывнаи />при />. Пусть круговая плотностьдопускает разложение

/>

причемостаточный член равномерно ограничен [0, 1,...., />].Пусть

/>

Тогда

/>

              Величина/> достигает минимума, равного

/>

при

/>

чтосовпадает с классическими результатами для />(см. [9, с316]). Заметим, что для уменьшения смещения оценки приходитсяприменять знакопеременные ядра />.

              Вслучае дискретных пространств естественных метрик не существует. Однако можнополучить аналоги теорем 1 и 2 переходя к пределу не только по объему выборки />, но и по параметрудискретности />.

              Пусть/> — последовательностьконечных пространств, /> — расстояния в />

/> для любого />.

              Положим

/>,

/>,

/>,

Тогдафункции /> кусочно постоянны и имеютскачки в некоторых точках />, причем/>.

              ТЕОРЕМА3. Если /> при /> (другими словами, /> при />), то существуетпоследовательность параметров дискретности /> такая,что при />, />, /> справедливы заключениятеорем 1 и 2.

              ПРИМЕР1. Пространство /> всех подмножествконечного множества /> из /> элементовдопускает [10, Пар 4. 3] аксиоматическое введение метрики />, где /> - символ симметрическойразности множеств. Рассмотрим непараметрическую оценку плотности типа Парзена — Розенблатта />, где /> - функция нормальногостандартного распределения. Можно показать, что эта оценка удовлетворяетусловиям теоремы 3 />.

              ПРИМЕР 2.Рассмотрим пространство функций />,определенных на конечном множестве /> со значениями в конечном множестве/>. Это пространство можноинтерпретировать как пространство нечетких множеств [11]. Очевидно, />. Будем использовать расстояние/>. Непараметрическая оценкаплотности имеет вид: />.

Если />, />, то при /> выполнены условия теоремы3, а потому справедливы теоремы 1 и 2.

.             ПРИМЕР3. Рассматривая пространства ранжировок /> объектнепреов, в качестве расстояния /> междуранжировками /> и />. Тогда />. не стремиться к 0 при />., условия теоремы 3 невыполнены.

              Пространстваразнотипных признаков — это декартово произведение непрерывных и дискретныхпространств. Для него возможны различные постановки. Пусть, например, числоградаций качественных признаков остается постоянным. Тогда непараметрическаяоценка плотности сводится к произведению частоты попадания в точку впространстве качественных признаков на классическую оценку Парзена-Розенблаттав пространстве количественных переменных. В общем случае расстояние /> можно, например,рассматривать как сумму евклидова расстояния /> междуколичественными факторами, расстояния /> междуноминальными признаками (/>, если /> и />, если />)и расстояния /> междупорядковыми переменными (если /> и /> -номера градаций., то />.

              Наличиеколичественных факторов приводит к непрерывности и строгому возрастанию />, а потому длянепараметрических оценок плотности в пространствах разнотипных признаковсправедливы теоремы 1 — 3.

/>

Литература

1.ОрловА.И. Устойчивость в социально-экономических моделях.-М.Наука,1979.-296 с.

2.ОрловА.И. Экспертные оценки / Вопросы кибернетики. Вып.58.-М.: Научный Совет СССР покомплексной проблеме «Кибернетика», 1979.С.17-33.

3.ОрловА.И. / Тезисы докладов Четвертой международной Вильнюсской конференции потеории вероятностей и математической статистике: Том 2.-Вильнюс, Вильнюсскийгосуниверситет, 1985.С.278-280.

4.ОрловА.И. / Анализ нечисловой информации в социологических исследованиях.-М.Наука,1985.С.58-92.

5.ОрловА.И. / Статистика. Вероятность. Экономика.-М.Наука,1985. С.99-107.

6.ОрловА.И. / Заводская лаборатория. 1987.Т.58. N3.С.90-91.

7.ОрловА.И. /Надежность и контроль качества. 1987.N6.С.54-59.

8.Рекомендации.Прикладная статистика. Методы обработки данных. Основные требования ихарактеристики.- М.: ВНИИС,1987.-64 с.

9.КривцовВ.С., Фомин В.Н., Орлов А.И. / Стандарты и качество. 1988.N3.С.32-36.

11.КолмогоровА.Н. Статистический приемочный контроль при допустимом числе дефектных изделий,равном нулю. — Л.: ДНТП, 1951. — 22 с.

12.Гнеденко Б.В. Математика и контроль качества продукции.- М.: Знание, 1978. — 64с.

13.Беляев Ю.К. Вероятностные методы выборочного контроля.-М.: Наука, 1975. — 408с.

14.Лумельский Я.П. Статистические оценки результатов контроля качества. — М.:Из-во стандартов, 1979. — 200 с. 

15.Орлов А.И. Современные проблемы кибернетики: Прикладная статистика. — М.:Знание, 1981. с 3-14.

16.Статистические методы анализа экспертных оценок / Ученые записки по статистике,т. 29, -М.: Наука, 1977-384 с. 17.

17.Экспертныеоценки в системных исследованиях / Сборник трудов. — Вып. 4. — М.: ВНИИСИ, 1970- 120 с.

18.Экспертные оценки / Вопросы кибернетики. — Вып. 58. — М.: Научный Совет АН СССРпо комплексной проблеме / «Кибернетика». 1979. — 200 с.

еще рефераты
Еще работы по науке и технике