Реферат: Автоматизированный априорный анализ статистической совокупности в среде MS Excel

--PAGE_BREAK--Таблица 9
Распределение значений признака по диапазонам рассеяния признака относительно <img width=«17» height=«21» src=«ref-1_1243375306-174.coolpic» v:shapes="_x0000_i1040">



Границы диапазонов, млн. руб.

Количество значений xi, находящихся в диапазоне

Процентное соотношение рассеяния значений xi по диапазонам, %



Первый признак

Второй признак

Первый признак

Второй признак

Первый признак

Второй признак

А

1

2

3

4

5

6

<img width=«146» height=«25» src=«ref-1_1243375480-443.coolpic» v:shapes="_x0000_i1041">

[3709,01; 5230,99]

[3266,07; 5081,66]

20

19

66,66

63,33

<img width=«173» height=«25» src=«ref-1_1243375923-538.coolpic» v:shapes="_x0000_i1042">

[2948,02; 5991,98]

[2358,27; 5989,46]

28

28

93,33

93,33

<img width=«173» height=«25» src=«ref-1_1243376461-539.coolpic» v:shapes="_x0000_i1043">

[2187,03; 6752,97]

[1450,48; 6897,25]

30

30

100,00

100,00



На основе данных табл.9 структура рассеяния значений признака по трем диапазонам (графы 5 и 6) сопоставляется со структурой  рассеяния по правилу «трех сигм», справедливому для нормальных и близких к нему распределений:

68,3%значений располагаются в диапазоне (<img width=«52» height=«23» src=«ref-1_1243372932-278.coolpic» v:shapes="_x0000_i1044">),

95,4%значений располагаются в диапазоне (<img width=«63» height=«23» src=«ref-1_1243373210-328.coolpic» v:shapes="_x0000_i1045">),

99,7%значений располагаются в диапазоне (<img width=«63» height=«23» src=«ref-1_1243373538-327.coolpic» v:shapes="_x0000_i1046">).

Если полученная в табл. 9 структура рассеяния хi по 3-м диапазонам незначительно расходится с правилом «трех сигм», можно предположить, что распределение единиц совокупности по данному признаку близко к нормальному.

Расхождение с правилом «трех сигм»может быть существенным. Например, менее 60% значений хiпопадают в центральный диапазон (<img width=«52» height=«23» src=«ref-1_1243372932-278.coolpic» v:shapes="_x0000_i1047">) или значительно более 5% значения хiвыходит за диапазон (<img width=«63» height=«23» src=«ref-1_1243373210-328.coolpic» v:shapes="_x0000_i1048">). В этих случаях распределение нельзя считать близким к нормальному.

Вывод:

Сравнение данных графы 5 табл.9 с правилом «трех сигм» показывает на их незначительное (существенное) расхождение, следовательно, распределение единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов можно (нельзя) считать близким к нормальному.

Сравнение данных графы 6 табл.9 с правилом «трех сигм» показывает на незначительное (существенное) расхождение, следовательно, распределение единиц совокупности по признаку Выпуск продукции можно (нельзя) считать близким к нормальному.
Задача 4
Для ответа на вопросы 4а) – 4в) необходимо воспользоваться табл.8 и сравнить величины показателей для двух признаков.

Для сравнения степени колеблемости значений изучаемых признаков, степени однородности совокупности по этим признакам, надежности их средних значений используются коэффициенты вариации Vsпризнаков.

Вывод:

Так как V для первого признака больше (меньше), чем V для второго признака, то колеблемость значений первого признака больше (меньше) колеблемости значений второго признака, совокупность более однородна по первому (второму) признаку, среднее значение первого признака является более (менее) надежным, чем у второго признака.
Задача 5
Интервальный вариационный ряд распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов представлен в табл.7, а его гистограмма и кумулята – на рис.2.

Возможность отнесения распределения признака «Среднегодовая стоимость основных производственных фондов» к семейству нормальных распределений устанавливается путем анализа формы гистограммы распределения. Анализируются количество вершин в гистограмме, ее асимметричность и выраженность «хвостов», т.е. частоты появления в распределении значений, выходящих за диапазон (<img width=«63» height=«23» src=«ref-1_1243373210-328.coolpic» v:shapes="_x0000_i1049">).

1. При анализе формы гистограммы прежде всего следует оценить распределение вариантов признака по интервалам (группам). Если на гистограмме четко прослеживаются два-три «горба» частот вариантов, это говорит о том, что значения признака концентрируются сразу в нескольких интервалах, что не соответствует нормальному закону распределения.

Если гистограмма имеет одновершинную форму, есть основания предполагать, что выборочная совокупность может иметь характер распределения, близкий к нормальному.

2. Для дальнейшего анализа  формы распределения используются описательные параметры выборки – показатели центра распределения (<img width=«19» height=«23» src=«ref-1_1243372350-188.coolpic» v:shapes="_x0000_i1050">, Mo, Me) и вариации (<img width=«25» height=«31» src=«ref-1_1243372742-190.coolpic» v:shapes="_x0000_i1051">). Совокупность этих показателей позволяет дать качественную оценку близости эмпирических данных к нормальной форме распределения.

Нормальное распределение является симметричным, и для него выполняются соотношения:
<img width=«19» height=«23» src=«ref-1_1243372350-188.coolpic» v:shapes="_x0000_i1052">=Mo=Me



Нарушениеэтих соотношений свидетельствует о наличии асимметрии распределения. Распределения с небольшой или умеренной асимметрией в большинстве случаев относятся к нормальному типу.

3. Для  анализа  длины «хвостов» распределения используется правило «трех сигм». Согласно этому правилу в нормальном и близким к нему распределениях крайние значения признака (близкие к хmin и хmax) встречаются много реже (5-7 % всех случаев), чем лежащие в диапазоне (<img width=«63» height=«23» src=«ref-1_1243373210-328.coolpic» v:shapes="_x0000_i1053">). Следовательно, по проценту выхода значений признака за пределы диапазона (<img width=«63» height=«23» src=«ref-1_1243373210-328.coolpic» v:shapes="_x0000_i1054">) можно судить о соответствии длины «хвостов» распределения нормальному закону.

Вывод:

1. Гистограмма является одновершинной (многовершинной).

2. Распределение приблизительно симметрично (существенно асимметрично), так как параметры  , Mo, Me  отличаются незначительно (значительно):
= 4470,00,            Mo=4630,00,          Me=4518,00.
3. “Хвосты” распределения не очень длинны (являются длинными), т.к. согласно графе 5 табл.9 6,67% вариантов лежат за пределами интервала ( )=(2948,02; 5991,98) млн. руб.

Следовательно, на основании п.п. 1,2,3, можно (нельзя) сделать заключение о близости изучаемого распределения к нормальному.


II
. Статистический анализ  генеральной совокупности

Задача 1
Рассчитанные в табл.3 генеральные показатели представлены в табл.10.

    продолжение
--PAGE_BREAK--Таблица 10
Описательные статистики генеральной совокупности

Обобщающие статистические

 показатели совокупности

по изучаемым признакам

Признаки

Среднегодовая стоимость

 основных производственных

 фондов

Выпуск продукции


Стандартное отклонение <img width=«29» height=«32» src=«ref-1_1243374082-195.coolpic» v:shapes="_x0000_i1055">, млн. руб.

774,00

923,32

Дисперсия <img width=«29» height=«31» src=«ref-1_1243373865-217.coolpic» v:shapes="_x0000_i1056">

599075,31

852510,60

Асимметричность As

-0,15

0,04

Эксцесс Ek

-0,34

-0,21



Для нормального распределения справедливо равенство
R
N
=6
s
N
.

В условиях близости распределения единиц генеральной совокупности к нормальному это соотношение используется для прогнозной оценки размаха вариации признака в генеральной совокупности.

Ожидаемый размах вариации признаков RN:

— для первого признака RN =4644,00,

— для второго признака RN  =5539,92.

Соотношение между генеральной и выборочной дисперсиями:

— для первого признака  1,03, т.е. расхождение между дисперсиями незначительное (значительное);

-для второго признака  1,03, т.е. расхождение между дисперсиями незначительное (значительное).
Задача2
Применение выборочного метода наблюдения связано с измерением степени достоверности статистических характеристик генеральной совокупности, полученных по результатам выборочного наблюдения. Достоверность генеральных параметров зависит от репрезентативности выборки, т.е. от того, насколько полно и адекватно представлены в выборке статистические свойства генеральной совокупности.

Как правило, статистические характеристики выборочной и генеральной совокупностей не совпадают, а отклоняются на некоторую величину ε, которую называют ошибкой выборки (ошибкой репрезентативности). Ошибка выборки – это разность между значением показателя, который был получен по выборке, и генеральным значением этого показателя. Например, разность
<img width=«24» height=«27» src=«ref-1_1243380501-187.coolpic» v:shapes="_x0000_i1057">= |<img width=«19» height=«23» src=«ref-1_1243372350-188.coolpic» v:shapes="_x0000_i1058">-<img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1059">|
определяет ошибку репрезентативности для средней величины признака.

Так как ошибки выборки всегда случайны, вычисляют среднюю и предельную ошибки выборки.

1. Для среднего значения признака средняя ошибка выборки <img width=«28» height=«28» src=«ref-1_1243381047-222.coolpic» v:shapes="_x0000_i1060"> (ее называют также стандартной ошибкой)  выражает среднее квадратическое отклонение s
выборочной средней <img width=«19» height=«23» src=«ref-1_1243372350-188.coolpic» v:shapes="_x0000_i1061"> от математического ожидания M[<img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1062">] генеральной средней <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1063">.

Для изучаемых признаков средние ошибки выборки <img width=«28» height=«28» src=«ref-1_1243381047-222.coolpic» v:shapes="_x0000_i1064"> даны в табл. 3:

— для признака Среднегодовая стоимость основных производственных фондов



<img width=«28» height=«28» src=«ref-1_1243381047-222.coolpic» v:shapes="_x0000_i1065">=141,31,
— для признака Выпуск продукции


<img width=«28» height=«28» src=«ref-1_1243381047-222.coolpic» v:shapes="_x0000_i1066">
=
168,57.
2.Предельная ошибка выборки <img width=«29» height=«27» src=«ref-1_1243382465-221.coolpic» v:shapes="_x0000_i1067"> определяет границы, в пределах которых  лежит генеральная средняя <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1068">. Эти границы задают так называемый доверительный интервал генеральной средней <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1069"> – случайную область значений, которая с вероятностью P, близкой к 1,  гарантированно содержит значение генеральной средней. Эту вероятность называют доверительной вероятностью или уровнем надежности.

Для уровней надежности P=0,954; P=0,683 оценки предельных ошибок выборки <img width=«29» height=«27» src=«ref-1_1243382465-221.coolpic» v:shapes="_x0000_i1070"> даны в табл. 3 и табл. 4.

Для генеральной средней предельные значения и доверительные интервалы определяются выражениями:
<img width=«99» height=«27» src=«ref-1_1243383249-386.coolpic» v:shapes="_x0000_i1071">,

<img width=«143» height=«25» src=«ref-1_1243383635-483.coolpic» v:shapes="_x0000_i1072">
Предельные ошибки выборки и ожидаемые границы для генеральных средних представлены в табл. 11.
Таблица 11

Предельные ошибки выборки и ожидаемые границы для генеральных средних

Доверительная

вероятность

Р

Коэффи

иент

доверия

t

Предельные ошибки

 выборки, млн. руб.

Ожидаемые границы для средних <img width=«16» height=«24» src=«ref-1_1243384118-168.coolpic» v:shapes="_x0000_i1073">, млн. руб.

для первого

признака

для второго

признака

для первого

признака

для второго

признака

0,683

1

143,88

171,64

4326,12<img width=«44» height=«24» src=«ref-1_1243384286-238.coolpic» v:shapes="_x0000_i1074">4613,88

4002,22<img width=«44» height=«24» src=«ref-1_1243384286-238.coolpic» v:shapes="_x0000_i1075">4345,51

0,954

2

294,61

351,44

4175,39<img width=«44» height=«24» src=«ref-1_1243384286-238.coolpic» v:shapes="_x0000_i1076">4764,61

3822,42<img width=«44» height=«24» src=«ref-1_1243384286-238.coolpic» v:shapes="_x0000_i1077">4525,31



Вывод:


Увеличение уровня надежности ведет к расширению (сужению) ожидаемых границ для генеральных средних.
Задача 3
Рассчитанныев табл.3значения коэффициентов асимметрии Asи эксцесса Ekданы в табл.10.

1.Показатель асимметрии
As
оценивает смещение ряда распределения влево или вправо по отношению к оси симметрии нормального распределения.

Если асимметрия правосторонняя (As>0) то правая часть эмпирической кривой оказывается длиннее левой, т.е. имеет место неравенство <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1078">>Me>Mo, что означает преимущественное появление в распределении более высоких значений признака (среднее значение <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1079"> больше серединного Me и модальногоMo).

Если асимметрия левосторонняя (As<0), то левая часть эмпирической кривой оказывается длиннее правой и выполняется неравенство <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1080"><Me<Mo, означающее, что в распределении чаще встречаются более низкие значения признака (среднее значение <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1081"> меньше серединного Me и модальногоMo).

Чем больше величина |As|, тем более асимметрично распределение. Оценочная шкала асимметрии:

|As|<img width=«16» height=«19» src=«ref-1_1243385922-152.coolpic» v:shapes="_x0000_i1082">0,25            — асимметрия незначительная;

0,25<|As|<img width=«16» height=«19» src=«ref-1_1243385922-152.coolpic» v:shapes="_x0000_i1083">0,5      — асимметрия заметная (умеренная);

|As|>0,5                — асимметрия существенная.

Вывод:

Для признака Среднегодовая стоимость основных производственных фондов наблюдается незначительная (заметная, существенная) левосторонняя (правосторонняя) асимметрия. Следовательно, в распределении преобладают более низкие значения признака.

Для признака Выпуск продукции наблюдается незначительная (заметная, существенная) левосторонняя (правосторонняя) асимметрия. Следовательно, в распределении преобладают более высокие значения признака.

2.Показатель эксцессаEk характеризует крутизну кривой распределения — ее заостренность или пологость по сравнению с нормальной кривой.

Как правило, коэффициент эксцесса вычисляется только для симметричных или близких к ним распределений.

Если Ek>0, то вершина кривой распределения располагается выше  вершины нормальной кривой, а форма кривой является более островершинной, чем нормальная. Это говорит о скоплении значений признака в центральной зоне ряда распределения, т.е. о преимущественном появлении в данных значений, близких к средней величине.

Если Ek<0, то вершина кривой распределения лежит ниже вершины нормальной кривой, а форма кривой более пологая по сравнению с нормальной. Это означает, что значения признака не концентрируются в центральной части ряда, а рассеяны по всему диапазону от xmax до xmin.

Для нормального распределения Ek=0. Чем больше абсолютная величина |Ek|, тем существеннее распределение отличается от нормального.

Принезначительном отклонении Ekот нуля форма кривой эмпирического распределения незначительно отличается от формы нормального распределения.

Вывод:

1. Так как для признака Среднегодовая стоимость основных производственных фондов Ek>0 (Ek<0), то кривая распределения является более островершинной (пологовершинной) по сравнению с нормальной кривой. При этом Ek незначительно (значительно) отличается от нуля (Ek=|0,34|) Следовательно, по данному признаку форма кривой эмпирического распределения значительно (незначительно) отличается от формы нормального распределения.

2.Так как для признака Выпуск продукции Ek>0 (Ek<0), то кривая распределения является более островершинной (пологовершинной) по сравнению с нормальной кривой. При этом Ek незначительно (значительно) отличается от нуля (Ek=|0,21|). Следовательно, по данному признаку форма кривой эмпирического распределения значительно (незначительно) отличается от формы нормального распределения.

III
. Экономическая интерпретация результатов статистического исследования предприятий[2]


1.               
Типичны ли образующие выборку предприятия по значениям изучаемых экономических показателей?


Предприятия с резко выделяющимися значениями показателей приведены в табл.2. После их исключения из выборки, оставшиеся 30 предприятий являются типичными (нетипичными) по значениям изучаемых экономических показателей.

2.               
Каковы наиболее характерные для предприятий значения показателей среднегодовой стоимости основных производственных фондов и выпуска продукции?


Ответ на вопрос следует из анализа данных табл.9, где приведен диапазон значений признака  (<img width=«52» height=«23» src=«ref-1_1243372932-278.coolpic» v:shapes="_x0000_i1084">), содержащий наиболее характерные для предприятий значения показателей.

Для среднегодовой стоимости основных производственных фондов наиболее характерные значения данного показателя находятся в пределах от 3709,01 млн. руб.  до 5230,99 млн. руб. и составляют 66,66% от численности совокупности.

 Для выпуска продукции  наиболее характерные значения данного показа-теля находятся в пределах от 3266,07 млн. руб.  до 5081,66 млн. руб. и составляют 63,33% от численности совокупности.

3.               
Насколько сильны различия в экономических характеристиках предприятий выборочной совокупности? Можно ли утверждать, что выборка сформирована из предприятий с достаточно близкими значениями по каждому из показателей?


Ответы на вопросы следуют из значения коэффициента вариации (табл.8), характеризующего степень однородности совокупности (см. вывод к задаче 3б).  Максимальное расхождение в значениях показателей определяется размахом вариации Rn
.
(табл.8).

Для среднегодовой стоимости основных производственных фондов различия в значениях показателя значительны (незначительны). Максимальное расхождение в значениях данного показателя 3200,00 млн. руб.

4.               
Какова структура предприятий выборочной совокупности по среднегодовой стоимости основных производственных фондов? Каков удельный вес предприятий с наибольшими, наименьшими и типичными значениями данного показатели? Какие именно это предприятия?


Структура предприятий представлена в табл.7 Рабочего файла.

Предприятия с наиболее типичными значениями показателя входят в интервал от 3709,01 млн. руб.  до 5230,99 млн. руб.  Их удельный вес 66,66%. Это предприятия №№ 22, 19, 2, 3, 13, 26, 9,  4, 28, 17, 6, 14, 25, 7, 31, 18, 10, 20, 24, 29.

Предприятия с наибольшими значениями показателя входят в интервал от 5430,00 млн. руб.  до 6070,00 млн. руб.  Их удельный вес 100,00 %. Это предприятия №№ 12, 21, 16.

Предприятия с наименьшими значениями показателя входят в интервал от 2870,00 млн. руб.  до 3510,00 млн. руб.  Их удельный вес 13,33%. Это предприятия №№ 5, 23, 27, 1.

5.               
Носит ли распределение предприятий по группам закономерный характер и какие предприятия (с более высокой или более низкой стоимостью основных фондов) преобладают в совокупности?


Ответ на вопрос следует из вывода к задаче 5 и значения коэффициента асимметрии (табл.8).

Распределение предприятий на группы по среднегодовой стоимости основных производственных фондов носит закономерный характер, близкий к нормальному (незакономерный характер). В совокупности преобладают предприятия с более высокой (низкой) стоимостью основных фондов.

6.               
Каковы ожидаемые средние величины среднегодовой стоимости основных фондов и выпуска продукции на предприятиях корпорации в целом? Какое максимальное расхождение в значениях каждого показателя можно ожидать?


Ответ на первый вопрос следует из данных табл.11. Максимальное расхождение в значениях показателя определяется величиной размаха вариации RN
.


По корпорации в целом ожидаемые с вероятностью 0,954 средние величины показателей находятся в интервалах:

для среднегодовой стоимости основных производственных фондов – от 4175,39 млн. руб. до 4764,61 млн. руб.;

для выпуска продукции — от 3822,42 млн. руб. до 4525,31 млн. руб.;

Максимальные расхождения в значениях показателей:

для среднегодовой стоимости основных производственных фондов -3200,00 млн. руб.;

для выпуска продукции -  3840,00 млн. руб.


ПРИЛОЖЕНИЕ
Результативные таблицы и графики









Таблица 6

Карман

Частота



1

3510

3

4150

5

4790

11

5430

7

6070

3

 

 






Таблица 7

Интервальный ряд распределения предприятий
 по стоимости основных производственных фондов

Группа предприятий по стоимости основных фондов

Число предприятий в группе

Накопленная частость группы.%

2870-3510

4

13,33%

3510-4150

5

30,00%

4150-4790

11

66,67%

4790-5430

7

90,00%

5430-6070

3

100,00%

 

 

 

Итого

30




<img width=«584» height=«260» src=«ref-1_1243386504-5446.coolpic» v:shapes="_x0000_i1085">
<img width=«510» height=«243» src=«ref-1_1243391950-4328.coolpic» v:shapes="_x0000_i1086">


ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ
КАФЕДРА СТАТИСТИКИ
О Т Ч Е Т

о результатах выполнения

компьютерной лабораторной работы
Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде MS Excel
Вариант № 62
Выполнил:

Проверил:


Брянск 2009 г.

    продолжение
--PAGE_BREAK--1. Постановка задачи статистического исследования


Корреляционно-регрессионный анализ взаимосвязи признаков является составной частью проводимого статистического исследования деятельности 30-ти предприятий и частично использует результаты ЛР-1.

В ЛР-2 изучается взаимосвязь между факторным признаком Среднегодовая стоимость основных производственных фондов (признак Х) и результативным признаком Выпуск продукции (признак Y), значениями которых являются исходные данные ЛР-1 после исключения из них аномальных наблюдений.





В процессе статистического исследования необходимо решить ряд задач.

1.      Установить наличие статистической связи между факторным признаком Х и результативным признаком Yграфическим методом.

2.      Установить наличие корреляционной связи между признаками Х и Y
методом аналитической группировки.

3.      Оценить тесноту связи признаков Х и Yна основе эмпирического корреляционного отношения η.

4.      Построить однофакторную линейную регрессионную модель связи признаков Х и Y, используя инструмент Регрессия надстройкиПакет анализа, и оценить тесноту связи признаков Х и Yна основе линейного коэффициента корреляции r.

5.      Определить адекватность и практическую пригодность построенной линейной регрессионной модели, оценив:

а) значимость и доверительные интервалы коэффициентов а0, а1;

б) индекс детерминации R
2
и его значимость;

в) точность регрессионной модели.

6.      Дать экономическую интерпретацию:

а) коэффициента регрессии а1;

б) коэффициента эластичности КЭ;

в) остаточных величин εi.

7.      Найти наиболее адекватное нелинейное уравнение регрессии с помощью средств инструмента Мастер диаграмм.


2. Выводы по результатам выполнения лабораторной работы[3]

Задача 1
Установление наличия статистической связи между факторным признаком Х и результативным признаком Y
графическим методом.

Статистическая связь является разновидностью стохастической (случайной) связи, при которой с изменением факторного признака Xзакономернымобразом изменяется какой–либо из обобщающих статистических показателей распределения результативного признака Y.

Вывод:

Точечный график  связи признаков  (диаграмма рассеяния, полученная в ЛР-1 после удаления аномальных наблюдений) позволяет сделать вывод, что имеет (не имеет) место статистическая связь. Предположительный вид связи – линейная (нелинейная) прямая (обратная).
Задача 2
Установление наличия корреляционной связи между признаками Х и Y
методом аналитической группировки.

Корреляционная связь – важнейший частный случай стохастической статистической связи, когда под воздействием вариации факторного признака Х закономерно изменяются от группы к группе средние групповые значения <img width=«27» height=«33» src=«ref-1_1243396278-229.coolpic» v:shapes="_x0000_i1087"> результативного признака Y
(усредняются результативные значения <img width=«125» height=«29» src=«ref-1_1243396507-428.coolpic» v:shapes="_x0000_i1088">, полученные под воздействием фактора <img width=«23» height=«27» src=«ref-1_1243396935-181.coolpic» v:shapes="_x0000_i1089">). Для выявления наличия корреляционной связи используется метод аналитической группировки.

Вывод:

Результаты выполнения аналитической группировки предприятий по факторному признаку Среднегодовая стоимость основных производственных фондов даны в табл. 2.2 Рабочего файла, которая показывает, что с увеличением значений факторного признака Х закономерно (незакономерно) увеличиваются (уменьшаются) средние групповые значения  результативного признака  . Следовательно, между признаками Х и Y существует корреляционная связь.
Задача 3

Оценка тесноты связи признаков Х и Yна основе эмпирического корреляционного отношения.

Для анализа тесноты связи между факторным и результативным признаками рассчитывается показатель η – эмпирическое корреляционное отношение, задаваемое формулой
<img width=«97» height=«68» src=«ref-1_1243397116-582.coolpic» v:shapes="_x0000_i1090">,
где <img width=«25» height=«31» src=«ref-1_1243397698-244.coolpic» v:shapes="_x0000_i1091"> и <img width=«44» height=«33» src=«ref-1_1243397942-249.coolpic» v:shapes="_x0000_i1092">  — соответственно межгрупповая и общая дисперсии результативного признака Y-Выпуск продукции (индекс х дисперсии <img width=«25» height=«31» src=«ref-1_1243397698-244.coolpic» v:shapes="_x0000_i1093"> означает, что оценивается мера влияния признака Х на Y
)
.

Для качественной оценки тесноты связи на основе показателя эмпирического корреляционного отношения служит шкала Чэддока:



Значениеη

0,1 – 0,3

0,3 – 0,5

0,5 – 0,7

0,7 – 0,9

0,9 – 0,99

Сила связи

Слабая

Умеренная

Заметная

Тесная

Весьма тесная


Результаты выполненных расчетов представлены в табл. 2.4 Рабочего файла.

Вывод:

Значение коэффициента η =0,9028, что в соответствии с оценочной шкалой Чэддока говорит о весьма тесной степени связи изучаемых признаков.
Задача 4
Построение однофакторной линейной регрессионной модели связи изучаемых признаков с помощью инструмента Регрессия надстройки Пакет анализа и оценка тесноты связи на основе линейного коэффициента корреляции r.
4.1.Построение регрессионной модели заключается в нахождении аналитического выражения связи между факторным признаком X
и результативным признаком Y
.

Инструмент Регрессия на основе исходных данных (xi

,
yi
), производит расчет параметров а0и а1 уравнения однофакторной линейной регрессии <img width=«104» height=«32» src=«ref-1_1243398435-472.coolpic» v:shapes="_x0000_i1094">, а также вычисление ряда показателей, необходимых для проверки адекватности построенного уравнения исходным (фактическим) данным.

Примечание.
В результате работы инструмента Регрессия получены четыре результативные таблицы (начиная с заданной ячейки А75). Эти таблицы выводятся в Рабочий файл без нумерации, поэтому необходимо присвоить им номера табл.2.5 – табл.2.8 в соответствии с их порядком.


Вывод:

Рассчитанные в табл.2.7 (ячейки В91 и В92) коэффициенты а0 и а1 позволяют построить линейную регрессионную модель связи изучаемых признаков в виде уравнения  -695,5510+1,0894х.
4.2.В случае линейности функции связи для оценки тесноты связи признаков X и Y
,
устанавливаемой по построенной модели, используется линейный коэффициент корреляции r.
Значение коэффициента корреляции rприводится в табл.2.5 в ячейке В78 (термин "Множественный R").

Вывод:

Значение коэффициента корреляции r =0,9132, что в соответствии с оценочной шкалой Чэддока говорит о весьма тесной степени связи изучаемых признаков.
Задача 5
Анализ адекватности и практической пригодности построенной линейной регрессионной модели.

Анализ адекватности регрессионной модели преследует цель оценить, насколько построенная теоретическая модель взаимосвязи признаков отражает фактическую зависимость между этими признаками, и тем самым оценить практическую пригодность синтезированной модели связи.

Оценка соответствия построенной регрессионной модели исходным (фактическим) значениям признаков X
иYвыполняется в 4этапа:

1)                оценка статистической значимости коэффициентов уравнения а0, а1 и определение их доверительных интервалов для заданного уровня надежности;

2)                определение практической пригодности построенной модели на основе оценок линейного коэффициента корреляции  r  и индекса детерминации R2;

3)                проверка значимости уравнения регрессии в целом по F-критерию Фишера;

4)                оценка погрешности регрессионной модели.
5.1 Оценка статистической значимости коэффициентов уравнения и определение их доверительных интервалов


Так как коэффициенты уравненияа0, а1 рассчитывались, исходя из значений признаков только для 30-ти пар (xi

,
yi
), то полученные значения коэффициентов являются лишь приближенными оценками фактических параметров связи а0, а1. Поэтому необходимо:

1.                  проверить значения коэффициентов на неслучайность (т.е. узнать, насколько они типичны для всей генеральной совокупности предприятий отрасли);

2.                  определить (с заданной доверительной вероятностью 0,95 и 0,683) пределы, в которых могут находиться значения а0, а1для генеральной совокупности предприятий.

Для анализа коэффициентов а0, а1линейного уравнения регрессии используется табл.2.7, в которой:

 – значения коэффициентов а0, а1приведены в ячейках В91 и В92 соответственно;

 – рассчитанный уровень значимости коэффициентов уравнения приведен в ячейках Е91 и Е92;

 – доверительные интервалы коэффициентов с уровнем надежности Р=0,95 и Р=0,683 указаны в диапазоне ячеек F91:I92.


5.1.1Определение значимости коэффициентов уравнения

Уровень значимости – это величина α=1–Р, где Р – заданный уровень надежности (доверительная вероятность).

Режим работы инструмента Регрессия использует по умолчанию уровень надежности Р=0,95. Для этого уровня надежности уровень значимости равен α = 1 –0,95 = 0,05. Этот уровень значимости считается заданным.

В инструменте Регрессия надстройки Пакет анализа для каждого из коэффициентова0иа1 вычисляется уровень его значимости αр, который указан в результативной таблице (табл.2.7 термин «Р-значение»). Если рассчитанный для коэффициентов а0, а1уровень значимости αр, меньше заданного уровня значимости α= 0,05, то этот коэффициент признается неслучайным (т.е. типичным для генеральной совокупности), в противном случае – случайным.

Примечание.
В случае, если признается случайным свободный член а0, то уравнение регрессии целесообразно построить заново без свободного члена а0. В этом случае в диалоговом окне
Регрессиянеобходимо задать те же самые параметры за исключением лишь того, что следует активизировать флажок Константа-ноль
(это означает, что модель будет строиться при условии а0=). В лабораторной работе такой шаг не предусмотрен.


Если незначимым (случайным) является коэффициент регрессии а1, то взаимосвязь  между признаками X
иY
в принципе
не может аппроксимироваться  линейной моделью.


Вывод:

Для свободного члена а0 уравнения регрессии рассчитанный уровень значимости есть αр =0,1061. Так как он меньше (больше) заданного уровня значимости α=0,05, то коэффициент а0 признается типичным (случайным).

Для коэффициента регрессии  а1  рассчитанный  уровень  значимости есть αр =0. Так как он меньше (больше) заданного уровня значимости α=0,05, то коэффициент а1 признается типичным (случайным).
5.1.2 Зависимость доверительных интервалов коэффициентов уравнения от заданного уровня надежности

Доверительные интервалы коэффициентов а0, а1 построенного уравнения регрессии при уровнях надежности Р=0,95 и Р=0,683 представлены в табл.2.7, на основе которой формируется табл.2.9.
Таблица 2.9

Границы доверительных интервалов коэффициентов уравнения

Коэффициенты

Границы доверительных интервалов

Для уровня надежности Р=0,95

Для уровня надежности Р=0,683

нижняя

верхняя

нижняя

верхняя

а0

-1548,8999

157,7979

-1119,9924

-271,1096

а1


0,9012

1,2776

0,9957

1,1830



Вывод:


В  генеральной  совокупности  предприятий  значение  коэффициента  а0 следует ожидать с надежностью Р=0,95 в пределах -1548,8999 а0  157,7979, значение коэффициента а1 в пределах 0,9012 а1 1,2776. Уменьшение уровня надежности ведет к расширению (сужению) доверительных интервалов коэффициентов уравнения.

                       
Определение практической пригодности построенной регрессионной модели.


Практическую пригодность построенной модели <img width=«113» height=«28» src=«ref-1_1243398907-440.coolpic» v:shapes="_x0000_i1095">можно охарактеризовать по величине линейного коэффициента корреляции r:

·                   близость <img width=«20» height=«28» src=«ref-1_1243399347-189.coolpic» v:shapes="_x0000_i1096"> к единице свидетельствует о хорошей аппроксимации исходных (фактических) данных с помощью построенной линейной функции связи <img width=«113» height=«28» src=«ref-1_1243398907-440.coolpic» v:shapes="_x0000_i1097">;

·                   близость <img width=«20» height=«32» src=«ref-1_1243399976-194.coolpic» v:shapes="_x0000_i1098"> к нулю означает, что связь между фактическими данными Х и Yнельзя аппроксимировать как построенной, так и любой другой линейной моделью, и, следовательно, для моделирования связи следует использовать какую-либо подходящую нелинейную модель.

Пригодность построенной регрессионной модели для практического использования можно оценить и по величине индекса детерминации R2, показывающего, какая часть общей вариации признака Yобъясняется в построенной модели вариацией фактораX.

В основе такой оценки лежит равенствоR= r(имеющее место для линейных моделей связи), а также шкала Чэддока, устанавливающаякачественную характеристику тесноты связи в зависимости от величины r.

Согласно шкале Чэддока высокая степень тесноты связи признаков достигается лишь при <img width=«19» height=«28» src=«ref-1_1243400170-181.coolpic» v:shapes="_x0000_i1099">>0,7, т.е. при <img width=«24» height=«28» src=«ref-1_1243400351-200.coolpic» v:shapes="_x0000_i1100"> >0,7. Для индекса детерминации R2это означает выполнение неравенстваR2>0,5.

При недостаточно тесной связи признаков X, Y(слабой, умеренной, заметной) имеет место неравенство <img width=«20» height=«28» src=«ref-1_1243399347-189.coolpic» v:shapes="_x0000_i1101"><img width=«17» height=«21» src=«ref-1_1243400740-167.coolpic» v:shapes="_x0000_i1102">0,7, а следовательно, и неравенство <img width=«69» height=«25» src=«ref-1_1243400907-324.coolpic» v:shapes="_x0000_i1103">.

С учетом вышесказанного, практическая пригодность построенной модели связи <img width=«113» height=«28» src=«ref-1_1243398907-440.coolpic» v:shapes="_x0000_i1104"> оценивается по величине R2следующим образом:

·     неравенство R2 >0,5 позволяет считать, что построенная модель пригодна для практического применения, т.к. в ней достигается высокая степень тесноты связи признаков X и Y, при которой более 50% вариации признака Y объясняется влиянием фактора Х;

·      неравенство <img width=«69» height=«25» src=«ref-1_1243400907-324.coolpic» v:shapes="_x0000_i1105"> означает, что построенная модель связи практического значения не имеет ввиду недостаточной тесноты связи между признаками X и Y, при которойменее 50% вариации признака Y объясняется влиянием фактора Х, и, следовательно, фактор Х влияет на вариацию Y в значительно меньшей степени, чем другие (неучтенные в модели) факторы.

Значение индекса детерминации R2 приводится в табл.2.5 в ячейке В79 (термин "R
квадрат").

Вывод:

Значение линейного коэффициента корреляции r и значение индекса детерминации R2 согласно табл. 2.5 равны: r =0,9132, R2 =0,8339. Поскольку     и    , то построенная линейная регрессионная модель связи  пригодна (не пригодна) для практического использования.

                       
Общая оценка адекватности  регрессионной модели по F-критерию Фишера


Адекватность построенной регрессионной модели фактическим данным (xi
,
yi
) устанавливается по критерию Р.Фишера, оценивающему статистическую значимость (неслучайность) индекса детерминации R2.

Рассчитанная для уравнения регрессии оценка значимости R2 приведена в табл.2.6 в ячейке F
86
(термин "Значимость F"). Если она меньше заданного уровня значимости α=0,05, то величина R2 признается неслучайной и, следовательно, построенное уравнение регрессии <img width=«113» height=«28» src=«ref-1_1243398907-440.coolpic» v:shapes="_x0000_i1106"> может быть использовано как модель связи между признаками Х и Y для генеральной совокупности предприятий отрасли.

Вывод:

Рассчитанный уровень значимости αр индекса детерминации R2 есть αр=0. Так как он меньше(больше) заданного уровня значимости α=0,05, то значение R2 признается типичным (случайным) и модель связи между признаками Х и Y       -695,5510+1,0894х применима (неприменима) для генеральной совокупности предприятий отрасли в целом.

                       
Оценка погрешности регрессионной модели


Погрешность регрессионной модели можно оценить по величине стандартной ошибки <img width=«24» height=«27» src=«ref-1_1243402435-189.coolpic» v:shapes="_x0000_i1107"> построенного линейного уравнения регрессии <img width=«113» height=«28» src=«ref-1_1243398907-440.coolpic» v:shapes="_x0000_i1108">. Величина ошибки <img width=«24» height=«27» src=«ref-1_1243402435-189.coolpic» v:shapes="_x0000_i1109"> оценивается как среднее квадратическое отклонение по совокупности отклонений <img width=«69» height=«28» src=«ref-1_1243403253-433.coolpic» v:shapes="_x0000_i1110"> исходных (фактических) значений yiпризнака Y от его теоретических значений <img width=«21» height=«25» src=«ref-1_1243403686-209.coolpic» v:shapes="_x0000_i1111">, рассчитанных по построенной модели.

Погрешность регрессионной модели выражается в процентах и рассчитывается как величина <img width=«31» height=«57» src=«ref-1_1243403895-293.coolpic» v:shapes="_x0000_i1112">.100.

В адекватных моделях погрешность не должна превышать 12%-15%.

Значение <img width=«24» height=«27» src=«ref-1_1243402435-189.coolpic» v:shapes="_x0000_i1113"> приводится в выходной таблице "Регрессионная статистика" (табл.2.5) в ячейке В81 (термин "Стандартная ошибка"), значение  <img width=«16» height=«29» src=«ref-1_1243404377-180.coolpic» v:shapes="_x0000_i1114">  – в таблице  описательных  статистик  (ЛР-1, Лист 1, табл.3, столбец 2).

Вывод:

Погрешность линейной регрессионной модели составляет  .100= .100=9,1749%, что подтверждает (не подтверждает) адекватность построенной модели  -695,5510+1,0894х.
Задача 6
Дать экономическую интерпретацию:

1) коэффициента регрессии а1;

3) остаточных величин <img width=«13» height=«16» src=«ref-1_1243404557-145.coolpic» v:shapes="_x0000_i1115">i.

2) коэффициента эластичности КЭ;
6.1 Экономическая интерпретациякоэффициента регрессии а1
В случае линейного уравнения регрессии <img width=«27» height=«29» src=«ref-1_1243404702-219.coolpic» v:shapes="_x0000_i1116">=a0+a1x величина коэффициента регрессии a1 показывает, на сколько в среднем (в абсолютном выражении) изменяется значение результативного признака Y при изменении фактора Х на единицу его измерения. Знак при a1 показывает направление этого изменения.

Вывод:

Коэффициент регрессии а1 =1,0894 показывает, что при увеличении факторного признака Среднегодовая стоимость основных производственных фондов на 1 млн руб. значение результативного признака Выпуск продукции увеличивается (уменьшается) в среднем на 1,0894 млн руб.



6.2 Экономическая интерпретация коэффициента эластичности



С целью расширения возможностей экономического анализа явления используется коэффициент эластичности <img width=«93» height=«44» src=«ref-1_1243404921-412.coolpic» v:shapes="_x0000_i1117">, который измеряется в процентах и показывает, на сколько процентов изменяется в среднем результативный признак при изменении факторного признака на 1%.

Средние значения <img width=«17» height=«27» src=«ref-1_1243405333-176.coolpic» v:shapes="_x0000_i1118"> и <img width=«16» height=«31» src=«ref-1_1243405509-191.coolpic» v:shapes="_x0000_i1119"> приведены в таблице описательных статистик (ЛР-1, Лист 1, табл.3).

Расчет коэффициента эластичности:
<img width=«93» height=«44» src=«ref-1_1243404921-412.coolpic» v:shapes="_x0000_i1120">=<img width=«139» height=«61» src=«ref-1_1243406112-936.coolpic» v:shapes="_x0000_i1121">=1,1667%
Вывод:

Значение коэффициента эластичности Кэ=1,1667% показывает, что при увеличении факторного признака Среднегодовая стоимость основных производственных фондов на 1% значение результативного признака Выпуск продукции увеличивается (уменьшается) в среднем на 1,1667 %.




6.3 Экономическая интерпретация остаточных величин εi



Каждый их остатков <img width=«89» height=«28» src=«ref-1_1243407048-402.coolpic» v:shapes="_x0000_i1122"> характеризует отклонение фактического значения yiот теоретического значения <img width=«21» height=«28» src=«ref-1_1243407450-248.coolpic» v:shapes="_x0000_i1123">, рассчитанного по построенной регрессионной модели и определяющего, какого среднего значения  <img width=«21» height=«28» src=«ref-1_1243407698-190.coolpic» v:shapes="_x0000_i1124">  следует ожидать, когда фактор Х принимает значение xi.

Анализируя остатки, можно сделать ряд практических выводов, касающихся выпуска продукции на рассматриваемых предприятиях отрасли.

Значения остатков <img width=«13» height=«16» src=«ref-1_1243404557-145.coolpic» v:shapes="_x0000_i1125">i(таблица остатков из диапазона А98: С128) имеют как положительные, так и отрицательные отклонения от ожидаемого в среднем объема выпуска продукции <img width=«21» height=«28» src=«ref-1_1243407450-248.coolpic» v:shapes="_x0000_i1126"> (которые в итоге уравновешиваются, т.е.<img width=«73» height=«47» src=«ref-1_1243408281-380.coolpic» v:shapes="_x0000_i1127">).

Экономический интерес представляют наибольшие расхождения между фактическим объемом выпускаемой продукции yiи ожидаемым усредненным объемом <img width=«23» height=«32» src=«ref-1_1243408661-217.coolpic» v:shapes="_x0000_i1128">.

Вывод:

Согласно таблице остатков максимальное превышение ожидаемого среднего объема выпускаемой  продукции   имеют три предприятия — с номерами 20, 19, 29 а максимальные отрицательные отклонения — три предприятия с номерами 7, 15, 32. Именно эти шесть предприятий подлежат дальнейшему экономическому анализу для выяснения причин наибольших отклонений объема выпускаемой ими продукции от ожидаемого среднего объема и выявления резервов роста производства.
Задача 7
Нахождение наиболее адекватного нелинейного уравнения регрессии с помощью средств инструмента Мастер диаграмм.

Уравнения регрессии и их графики построены для 3-х видов нелинейной зависимости между признаками и представлены на диаграмме 2.1 Рабочего файла.

Уравнения регрессии и соответствующие им индексы детерминации R
2
приведены в табл.2.10 (при заполнении данной таблицы коэффициенты уравнений необходимо указывать не в компьютерном формате, а в общепринятой десятичной форме чисел).


    продолжение
--PAGE_BREAK--
еще рефераты
Еще работы по математике