Реферат: Корреляционный анализ

Корреляционный анализ
Корреляционныйанализ — математико-статистический метод выявления взаимозависимостикомпонент многомерной случайной величины и оценки тесноты их связи.Предпосылкикорреляционного анализа

При построении корреляционных моделейисходят из выполнения условий случайности результатов наблюдений и нормальностизакона распределения анализируемой h-мерной генеральной совокупности, что обеспечивает линейный характер изучаемойзависимости между наблюдаемыми признаками /> ипозволяет использовать в качестве показателей силы стохастической (вероятностной)связи парные, частные и множественные коэффициенты корреляции и детерминации.

Понятие «корреляционнаязависимость»

В статистических исследованиях выделяют два вида связимежду случайными величинами: функциональную и стохастическую.

Зависимость признаков /> называетсяфункциональной, если каждое наблюдаемое значение /> зависимойпеременной /> однозначно определяется пополученным в том же самом наблюдении значениям /> остальныхпеременных /> согласно некоторому правилу:/>, единому для всехнаблюдений.

Стохастической зависимостью переменной /> от переменных /> называется такое отношениемежду случайными величинами />, прикотором каждой реализации /> случайноговектора /> однозначно соответствуетнекоторое условное распределение вероятностей случайной величины />, при этом, по крайнеймере, двум возможным различным реализациям отвечают неодинаковые распределения.

В отличие от функциональной зависимости, когда каждомунабору значений объясняющих переменных /> соответствуеттолько одно значение объясняемой переменной />,при стохастической зависимости любой допустимой совокупности значений /> отвечает множествовозможных значений зависимой переменной />.

Корреляционной зависимостью переменной /> от переменных /> называется функциональнаязависимость условного математическим ожидания /> случайнойвеличины /> от реализации /> случайного вектора />.

Корреляционная зависимость является лишь одной из частныхформ стохастической связи между случайными величинами и не исчерпывает в общемслучае весь объем понятия «стохастическая зависимость».

Функция />,устанавливающая зависимость условного математического ожидания /> от возможных значений /> случайных величин />, называется функциейрегрессии случайной величины /> наслучайный вектор />.

Если функция регрессии /> представимакак линейная комбинации своих аргументов:

/>,

где /> - некоторыеконстанты, то соответствующая корреляционная зависимость называется линейной.

Аналитическое задание корреляционной зависимости ввиде

/>

называется уравнением регрессии случайной величины /> на случайный вектор />.

Двумерная корреляционнаямодель

Анализируется корреляционнаязависимость между двумя признаками />, />.

Предполагается, что распределение вероятностейдвумерной случайной величины /> подчиненозакону Гаусса, т.е. плотность совместного распределения />, /> определяется формулой:


/>

содержащей пятьпараметров:

/>

/> - математическое ожидание />;

/> - математическое ожидание />;

/> - дисперсия />;

/> - дисперсия />;

/> - коэффициент корреляции между />,/>.


Коэффициент корреляции как мера тесноты стохастической связимежду двумя случайными величинами

Из условия нормальности совместного распределенияпризнаков />, /> непосредственно вытекает,что распределение каждого их них также подчинено закону Гаусса ссоответствующими параметрами:

/>;

/>.

Если />, то извыражений, задающих двумерную и одномерные плотности распределения вероятностей/>, />, /> следует, что />, т.е. />, /> есть независимые междусобой случайные величины.

Для случайных величин />, />, совместное распределениекоторых является нормальным, понятия «некоррелированность» и«стохастическая независимость» эквивалентны.

Таким образом, для решаемой задачи коэффициенткорреляции /> может служить мерой силы стохастическойвзаимосвязи рассматриваемых случайных величин.

Вне рамок корреляционной модели равенство нулю коэффициентакорреляции указывает лишь на некоррелированность исходных переменных, но неподтверждает отсутствие иной формы стохастической зависимости.

Коэффициент корреляции не имеет размерности и,следовательно, его можно использовать при анализе зависимости признаков, различающихсяпо мерным шкалам.

Значение /> поабсолютной величине не превосходит единицы.

Если />,линейная связь между переменными /> и /> отсутствует.

Значение /> указываетна наличие функциональной линейной зависимости между ними.

По мере приближения /> кединице условные дисперсии /> стремятсяк нулю, что свидетельствует о меньшем рассеянии значений переменных />, /> относительно соответствующихлиний регрессии и о более тесной связи между данными переменными.

Положительный знак коэффициента корреляции означает,что прямые регрессии имеют в координатной плоскости /> положительныйтангенс угла наклона, с увеличением (или уменьшением) значения любой изпеременных />, /> пропорционально в среднемвозрастает (соответственно убывает) значение другой переменной.

Отрицательный знак коэффициента корреляции указываетна обратную тенденцию.

Уравнениялинейной парной регрессии

Функции регрессии /> на/> и /> на /> находятся с помощьюформул, определяющих условные математические ожидания:

/>,


При этом условные плотности распределения вероятностей случайных величин />, /> представляются в видеотношений известных безусловных плотностей распределения:

/>

Дальнейшее интегрирование функций />,/> по x, соответственно по y, непосредственно дает уравнение регрессии /> на />, а также уравнениерегрессии /> на />:

/>;

/>,

/>; />,

где

/> - коэффициент регрессии /> на/>;

/> - коэффициент регрессии /> на />.

Линейный характер корреляционной зависимости междусовместно нормально распределенными случайными величинами проявляется в том,что с изменением одной величины пропорционально изменяется условноематематическое ожидание другой величины. Графики функций регрессии (именуемые линиямирегрессии) представляют собой прямые.

В случае некоррелированности />, />, т.е. при />, прямые регрессии /> на /> и /> на /> параллельны соответственнокоординатным осям /> и />.

Парный коэффициент детерминации

Степень рассеяния значений /> (или/>) относительно линиирегрессии /> на /> (или /> на />) характеризуют (в среднем)условные дисперсии:

/>

Расчетные формулы для /> и/> находятся подобно тому,как определялись функции регрессии /> на /> и /> на />.

В итоге,

/>.

Квадрат коэффициента корреляции называется парнымкоэффициентом детерминации.

Из приведенных выражений для условных дисперсийследует, что величина /> указывает долюдисперсии одной случайной величины, обусловленную вариацией другой случайнойвеличины.


Эмпирические характеристики корреляционной зависимости

В практике статистических исследований параметры совместногораспределения вероятностей случайных величин, включенных в анализ, как правило,неизвестны, и тесноту связи между переменными оценивают по статистическимданным и выборочным аналогам корреляционных характеристик.

С этой целью в двумерном корреляционном анализе используют «полекорреляции», строят корреляционную таблицу, рассчитывают точечные оценкипараметров корреляционной модели, проверяют значимость параметров связи и находятинтервальные оценки для значимых параметров, оценивают уравнения регрессии.

Корреляционное поле

Корреляционным полем называется совокупность нанесенных на координатнуюплоскость /> реализаций случайноговектора />, т.е. выборочных точек />.

По расположению точек корреляционного поля можно составитьпредварительное мнение о характерных особенностях зависимости случайных величин(например, о том, что значение какой-либо из этих величин в среднем возрастаетили убывает при возрастании значения другой величины).

/>

Наиболее точную информацию о направлении и силе связи между величинами />, /> дают коэффициенткорреляции и уравнения регрессии.

Корреляционная таблица

В понятийном смысле — представляет собой обобщение понятия «вариационныйряд», с прикладной точки зрения — является формой компактной записи выборочныхданных /> двумерной случайнойвеличины />:

/> />

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

n

где

/>; />

— упорядоченные по возрастанию последовательности всехразличных значений />, соответственно />, имеющихся в выборке />.

/> - количество пар />.

/> - сумма элементов />-гостолбца, соответственно — />-ойстроки корреляционной таблицы. При этом

/>.

Точечные оценки параметров двумерного распределения

Для получения приближенных значений параметров корреляционной модели используют,как правило, метод моментов, расчеты производят согласно следующим формулам.

Характеристики распределения случайного вектора />

теоретические

оценки по выборочным данным />

сгруппированным

не сгруппированным

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

Приведенные эмпирические характеристики двумерногонормального закона распределения случайного вектора /> обладают свойствомсостоятельности, />, /> являются, кроме того, несмещеннымии эффективными оценками.

Аппроксимация уравнений регрессии

/>; />.

 

Проверка гипотезы об отсутствии корреляционнойзависимости между случайными величинами

Выборочный парный коэффициент корреляции r,найденный по конечному числу статистических данных, практически всегда отличенот нуля, однако, отсюда не всегда следует, что неизвестный генеральный парный коэффициенткорреляции ρ также не равен нулю, т.е. что корреляционнаязависимость действительно имеет место. Требуется дополнительно осуществитьпроверку предположения о значимости коэффициента корреляции.

При справедливости основной гипотезы /> («корреляционнаязависимость между />, /> отсутствует») статистикаприменяемого критерия

/>

имеет распределениеСтьюдента с числом степеней свободы, равным />.

При уровне значимости /> гипотеза /> отвергается, есливыполняется неравенство />, вкотором под символом /> понимаетсякритическое значение, удовлетворяющее уравнению

/>.

При отвержении основнойгипотезы заключают, что признаки />, /> связаны линейнымкорреляционным соотношением, в ином случае делают вывод, что на основе имеющейсявыборки корреляционная зависимость между ними не установлена.

Если в результатепроверки гипотеза /> будетотвергнута, то полагают, что коэффициент корреляции /> значимо(существенно) отличается от нуля, а рассчитанное по статистическим даннымзначение r может быть использовано в качестве его точечнойоценки.

Интервальнаяоценка коэффициента корреляции

корреляционная регрессия уравнениематематический

При построении доверительного интервала длянеизвестного коэффициента корреляции /> используетсяспециальная функция — />-преобразованиеФишера (гиперболический арктангенс) выборочного коэффициента корреляции r:

/>.

/> - возрастающая нечетная функция: z(-r) = -z(r).

Распределение вероятностей значений /> приближается(тем более точно, чем больше объем выборки n) нормальнымраспределением вероятностей />с параметрами:

/> и />.

Статистика /> имеет асимптотическоестандартное нормальное распределение />.

Асимптотически точныйдоверительный интервал надежности /> длянормированного отклонения z:

/>,

где /> - квантиль уровня /> распределения />, т.е. корень уравнения />.

Доверительный интервалдля математического ожидания />:

/>.

Величиной /> в выражении /> можно пренебречь, принимаяво внимание, что она при /> естьбесконечно малая более высокого порядка в сравнении с />.

Доверительный интервалдля гиперболического арктангенса коэффициента корреляции />:

/>.

Решение относительно /> данного двойногонеравенства приводит к искомому доверительному интервалу для коэффициентакорреляции:

/>,

с границами,определяемыми как значения гиперболического тангенса /> для значений />, равных соответственно /> и />.

Функция /> задает преобразование,обратное />-преобразованию Фишера.Следовательно, />.

Этапы определения ДИ длякоэффициента корреляции

- находится выборочный коэффициенткорреляции r;

- выполняется прямое преобразованиеФишера значения r: />;

- выбирается квантиль />, исходя из условия />;

- вычисляются значения /> и />;

- с помощью обратного преобразованияФишера находятся границы ДИ:

/> и />.

Доверительныеинтервалы для коэффициентов регрессии

Их построение осуществляется в соответствии с общейсхемой. При этом используются статистики:

/>; />,

имеющие распределение Стьюдента с числом степенейсвободы, равном />.

/>;

/>,

где /> - корень уравнения />.

Многомерная корреляционная модель

Предполагается, что совместное распределениеанализируемых случайных переменных (признаков) /> подчиненоh-мерному нормальному закону.

Типовые задачи

¨ определение тесноты связи междунекоторыми переменными при фиксировании или исключении влияния остальных переменных;

¨ определение тесноты связи одной израссматриваемых переменных с совокупностью всех остальных переменных,включенных в анализ.

Корреляционнаяматрица

Начальный этап многомерного корреляционного анализаколичественных признаков состоит в оценке (приближении) на основе выборочныхданных матрицы

/>,

элементы которой /> - парные коэффициентыкорреляции переменных />.

Выборочнаякорреляционная матрица

В качестве статистического аналога корреляционнойматрицы /> принимается матрица

/>,


здесь /> - выборочные парныекоэффициенты корреляции переменных />.

Свойствокорреляционных матриц

Матрицы />, qh симметричныотносительно главной диагонали.

Вся имеющаяся дляанализа статистическая информация о зависимостях между случайными величинами /> содержится в выборочнойкорреляционной матрице />.

Однако раскрытиемногообразия взаимосвязей данных переменных непосредственно по их парнымкоэффициентам корреляции невозможно. Для проведения исследования при решенииуказанных типовых задач необходимо вычислять также частные и множественныекоэффициенты корреляции, представляющие собой определенные действительныефункции матрицы />.

Частный коэффициенткорреляции

/>,

где /> - минорэлемента /> матрицы />, т.е. определительматрицы, получающейся из корреляционной матрицы удалением />-ой строки и />-го столбца.


Свойства частногокоэффициента корреляции

 

/> обладает всеми свойствами парного коэффициента корреляции />, т.к. являетсякоэффициентом корреляции /> для ихусловного двумерного распределения. В отличие от парного коэффициентакорреляции />, на величине которогосказывается не только влияние переменных /> другна друга, но и воздействие остальных /> переменных,частный коэффициент корреляции /> позволяетхарактеризовать тесноту связи между признаками /> в«чистом» виде, исключая при анализе зависимости влияние других переменных. Еслипарный коэффициент корреляции /> большесоответствующего частного коэффициента />,то можно заключить, что остальные рассматриваемые переменные усиливаютвзаимосвязь между изучаемыми величинами />.Уменьшение значения парного коэффициента корреляции, в сравнении с отвечающимему частным коэффициентом корреляции, свидетельствует об ослаблении связи междуисследуемыми величинами />врезультате воздействия других переменных.

Выборочный частныйкоэффициент корреляции

Точечная оценка /> определяетсяпо формуле:

/>,


здесь /> - минор элемента /> выборочной корреляционнойматрицы />.

В случае трехмерной корреляционной модели дляпеременных /> находятся три частныхкоэффициента корреляции:

/>;

/>;

/>.

/> называется частным коэффициентом детерминации.

Величина /> естьдоля дисперсии переменной />,обусловленная вариацией /> прификсированных остальных рассматриваемых переменных.

Множественныйкоэффициент корреляции

Мерой тесноты линейной взаимосвязи между переменной /> и совокупностью остальныхпеременных /> служит множественныйкоэффициент корреляции:

/>,


Где/> - определитель матрицы />;

/> - минор />-го элементаглавной диагонали матрицы />.

Если />, томножественный коэффициент корреляции /> совпадаетс абсолютным значением парного коэффициента корреляции />, т.е. /> есть обобщение />.

По величине множественного коэффициента корреляцииделается вывод о тесноте, но не о направлении взаимосвязи.

Свойствамножественного коэффициента корреляции

- Численное значение множественногокоэффициента корреляции заключено между нулем и единицей:

/>.

- Если />,то переменная /> связана состальными рассматриваемыми случайными величинами /> линейнойфункциональной зависимостью.

Например, для трехмерной корреляционной модели, если />, то точки /> расположены в плоскостирегрессии /> на />.

- Если />,то случайная величина /> стохастическинезависима от других переменных, входящих в анализ.

В частности, если />,то одномерная случайная величина /> идвумерная случайная величина /> являютсянезависимыми (в силу нормальности их совместного распределения).

- Множественный коэффициенткорреляции не уменьшается при введении в модель дополнительных признаков и неувеличивается при исключении отдельных признаков из модели.

- По величине множественныйкоэффициент корреляции переменной /> неменьше абсолютной величины частного коэффициента корреляции данной и любойдругой переменной />:

/>.

Выборочный множественныйкоэффициент корреляции

В качестве точечной оценки /> принимается

/>.

где /> - минор />-го элемента главнойдиагонали выборочной корреляционной матрицы />.

В случае трехмерной корреляционной модели дляпеременных /> вычисляются тримножественных коэффициента корреляции:

/>;

/>;

/>.


/> называется множественным коэффициентом детерминации.

Множественный коэффициент детерминации /> показывает долю дисперсииисследуемой случайной величины />,обусловленную изменением остальных переменных />.

Уравнения регрессии длятрехмерной корреляционной модели

I. При фиксировании значенияодной случайной величины в системе случайных величин /> трехмерное нормальноераспределение данных величин становится условным двумерным нормальнымраспределением, определяемым пятью параметрами.

Если фиксировано, например, значение /> случайной величины />, то условное двумерноенормальное распределение /> характеризуетсяследующими параметрами:

/>; />;

/>; />;

/>.

Линейная корреляционная зависимость между величинами /> при фиксированном значении/> случайной величины /> графически выражаетсяпрямыми регрессии в плоскости />:


/>;

/>.

II. При фиксированных значенияхдвух переменных в системе случайных величин /> трехмерноенормальное распределение есть определяемое двумя параметрами условноеодномерное нормальное распределение соответствующей переменной.

В частности, при фиксированных значениях /> компонент двумерногослучайного вектора /> совместноераспределение переменных /> становитсяусловным одномерным нормальным распределением случайной величины />, параметрами которогоявляются условное математическое ожидание

/>

и условная дисперсия />,совпадающая с /> - остаточнойдисперсией относительно плоскости регрессии /> на/>:

/>.

Уравнение регрессии /> на /> может быть представлено ввиде:

/>,


где />; /> - частные коэффициентырегрессии.

Длярасчета условных средних квадратических отклонений используются формулы:

/>; />;

/>; />.

Функция регрессии линейно зависит от двух переменных />. Соответствующая ейповерхность представляет собой плоскость.

Для рассматриваемой модели имеют место три уравнениярегрессии и три отвечающие им плоскости регрессии.

Необходимые для расчетов коэффициентов уравнений регрессииоценки девяти определяющих совместное распределение /> параметровтрехмерной корреляционной модели по выборочным данным /> осуществляются поформулам:

/>; />; />;

/>; />; />;

/>; />; />.


Проверказначимости коэффициентов связиа)длячастного коэффициента корреляции

Если верна основная гипотеза />, то статистика

/>

имеет распределениеСтьюдента с числом степеней свободы, равным />.

При уровне значимости /> исходнаягипотеза отвергается, если справедливо неравенство />,где /> - критическое значение,удовлетворяющее условию />.

б)длямножественного коэффициента корреляции

При справедливости основной гипотезы /> статистика

/>

имеет распределениеФишера-Снедекора с /> и /> степенями свободы.

При уровне значимости /> гипотеза отвергается, есливыполняется неравенство />, где /> - критическое значение,удовлетворяющее условию />.


Интервальная оценкачастных коэффициентов корреляции

- выполняется прямое преобразованиеФишера значения

/>: />;

- выбирается квантиль />, исходя из условия />;

- вычисляются значения /> и />;

- с помощью обратного преобразованияФишера находятся границы ДИ:

/> и />.

еще рефераты
Еще работы по математике