Реферат: Автоматизированный априорный анализ статистической совокупности в среде MS Excel
--PAGE_BREAK--Таблица 9Распределение значений признака по диапазонам рассеяния признака относительно <img width=«17» height=«21» src=«ref-1_1243375306-174.coolpic» v:shapes="_x0000_i1040">
Границы диапазонов, млн. руб.
Количество значений xi, находящихся в диапазоне
Процентное соотношение рассеяния значений xi по диапазонам, %
Первый признак
Второй признак
Первый признак
Второй признак
Первый признак
Второй признак
А
1
2
3
4
5
6
<img width=«146» height=«25» src=«ref-1_1243375480-443.coolpic» v:shapes="_x0000_i1041">
[3709,01; 5230,99]
[3266,07; 5081,66]
20
19
66,66
63,33
<img width=«173» height=«25» src=«ref-1_1243375923-538.coolpic» v:shapes="_x0000_i1042">
[2948,02; 5991,98]
[2358,27; 5989,46]
28
28
93,33
93,33
<img width=«173» height=«25» src=«ref-1_1243376461-539.coolpic» v:shapes="_x0000_i1043">
[2187,03; 6752,97]
[1450,48; 6897,25]
30
30
100,00
100,00
На основе данных табл.9 структура рассеяния значений признака по трем диапазонам (графы 5 и 6) сопоставляется со структурой рассеяния по правилу «трех сигм», справедливому для нормальных и близких к нему распределений:
68,3%значений располагаются в диапазоне (<img width=«52» height=«23» src=«ref-1_1243372932-278.coolpic» v:shapes="_x0000_i1044">),
95,4%значений располагаются в диапазоне (<img width=«63» height=«23» src=«ref-1_1243373210-328.coolpic» v:shapes="_x0000_i1045">),
99,7%значений располагаются в диапазоне (<img width=«63» height=«23» src=«ref-1_1243373538-327.coolpic» v:shapes="_x0000_i1046">).
Если полученная в табл. 9 структура рассеяния хi по 3-м диапазонам незначительно расходится с правилом «трех сигм», можно предположить, что распределение единиц совокупности по данному признаку близко к нормальному.
Расхождение с правилом «трех сигм»может быть существенным. Например, менее 60% значений хiпопадают в центральный диапазон (<img width=«52» height=«23» src=«ref-1_1243372932-278.coolpic» v:shapes="_x0000_i1047">) или значительно более 5% значения хiвыходит за диапазон (<img width=«63» height=«23» src=«ref-1_1243373210-328.coolpic» v:shapes="_x0000_i1048">). В этих случаях распределение нельзя считать близким к нормальному.
Вывод:
Сравнение данных графы 5 табл.9 с правилом «трех сигм» показывает на их незначительное (существенное) расхождение, следовательно, распределение единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов можно (нельзя) считать близким к нормальному.
Сравнение данных графы 6 табл.9 с правилом «трех сигм» показывает на незначительное (существенное) расхождение, следовательно, распределение единиц совокупности по признаку Выпуск продукции можно (нельзя) считать близким к нормальному.
Задача 4
Для ответа на вопросы 4а) – 4в) необходимо воспользоваться табл.8 и сравнить величины показателей для двух признаков.
Для сравнения степени колеблемости значений изучаемых признаков, степени однородности совокупности по этим признакам, надежности их средних значений используются коэффициенты вариации Vsпризнаков.
Вывод:
Так как V для первого признака больше (меньше), чем V для второго признака, то колеблемость значений первого признака больше (меньше) колеблемости значений второго признака, совокупность более однородна по первому (второму) признаку, среднее значение первого признака является более (менее) надежным, чем у второго признака.
Задача 5
Интервальный вариационный ряд распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов представлен в табл.7, а его гистограмма и кумулята – на рис.2.
Возможность отнесения распределения признака «Среднегодовая стоимость основных производственных фондов» к семейству нормальных распределений устанавливается путем анализа формы гистограммы распределения. Анализируются количество вершин в гистограмме, ее асимметричность и выраженность «хвостов», т.е. частоты появления в распределении значений, выходящих за диапазон (<img width=«63» height=«23» src=«ref-1_1243373210-328.coolpic» v:shapes="_x0000_i1049">).
1. При анализе формы гистограммы прежде всего следует оценить распределение вариантов признака по интервалам (группам). Если на гистограмме четко прослеживаются два-три «горба» частот вариантов, это говорит о том, что значения признака концентрируются сразу в нескольких интервалах, что не соответствует нормальному закону распределения.
Если гистограмма имеет одновершинную форму, есть основания предполагать, что выборочная совокупность может иметь характер распределения, близкий к нормальному.
2. Для дальнейшего анализа формы распределения используются описательные параметры выборки – показатели центра распределения (<img width=«19» height=«23» src=«ref-1_1243372350-188.coolpic» v:shapes="_x0000_i1050">, Mo, Me) и вариации (<img width=«25» height=«31» src=«ref-1_1243372742-190.coolpic» v:shapes="_x0000_i1051">). Совокупность этих показателей позволяет дать качественную оценку близости эмпирических данных к нормальной форме распределения.
Нормальное распределение является симметричным, и для него выполняются соотношения:
<img width=«19» height=«23» src=«ref-1_1243372350-188.coolpic» v:shapes="_x0000_i1052">=Mo=Me
Нарушениеэтих соотношений свидетельствует о наличии асимметрии распределения. Распределения с небольшой или умеренной асимметрией в большинстве случаев относятся к нормальному типу.
3. Для анализа длины «хвостов» распределения используется правило «трех сигм». Согласно этому правилу в нормальном и близким к нему распределениях крайние значения признака (близкие к хmin и хmax) встречаются много реже (5-7 % всех случаев), чем лежащие в диапазоне (<img width=«63» height=«23» src=«ref-1_1243373210-328.coolpic» v:shapes="_x0000_i1053">). Следовательно, по проценту выхода значений признака за пределы диапазона (<img width=«63» height=«23» src=«ref-1_1243373210-328.coolpic» v:shapes="_x0000_i1054">) можно судить о соответствии длины «хвостов» распределения нормальному закону.
Вывод:
1. Гистограмма является одновершинной (многовершинной).
2. Распределение приблизительно симметрично (существенно асимметрично), так как параметры , Mo, Me отличаются незначительно (значительно):
= 4470,00, Mo=4630,00, Me=4518,00.
3. “Хвосты” распределения не очень длинны (являются длинными), т.к. согласно графе 5 табл.9 6,67% вариантов лежат за пределами интервала ( )=(2948,02; 5991,98) млн. руб.
Следовательно, на основании п.п. 1,2,3, можно (нельзя) сделать заключение о близости изучаемого распределения к нормальному.
II
. Статистический анализ генеральной совокупности
Задача 1
Рассчитанные в табл.3 генеральные показатели представлены в табл.10.
продолжение
--PAGE_BREAK--Таблица 10
Описательные статистики генеральной совокупности
Обобщающие статистические
показатели совокупности
по изучаемым признакам
Признаки
Среднегодовая стоимость
основных производственных
фондов
Выпуск продукции
Стандартное отклонение <img width=«29» height=«32» src=«ref-1_1243374082-195.coolpic» v:shapes="_x0000_i1055">, млн. руб.
774,00
923,32
Дисперсия <img width=«29» height=«31» src=«ref-1_1243373865-217.coolpic» v:shapes="_x0000_i1056">
599075,31
852510,60
Асимметричность As
-0,15
0,04
Эксцесс Ek
-0,34
-0,21
Для нормального распределения справедливо равенство
R
N
=6
s
N
.
В условиях близости распределения единиц генеральной совокупности к нормальному это соотношение используется для прогнозной оценки размаха вариации признака в генеральной совокупности.
Ожидаемый размах вариации признаков RN:
— для первого признака RN =4644,00,
— для второго признака RN =5539,92.
Соотношение между генеральной и выборочной дисперсиями:
— для первого признака 1,03, т.е. расхождение между дисперсиями незначительное (значительное);
-для второго признака 1,03, т.е. расхождение между дисперсиями незначительное (значительное).
Задача2
Применение выборочного метода наблюдения связано с измерением степени достоверности статистических характеристик генеральной совокупности, полученных по результатам выборочного наблюдения. Достоверность генеральных параметров зависит от репрезентативности выборки, т.е. от того, насколько полно и адекватно представлены в выборке статистические свойства генеральной совокупности.
Как правило, статистические характеристики выборочной и генеральной совокупностей не совпадают, а отклоняются на некоторую величину ε, которую называют ошибкой выборки (ошибкой репрезентативности). Ошибка выборки – это разность между значением показателя, который был получен по выборке, и генеральным значением этого показателя. Например, разность
<img width=«24» height=«27» src=«ref-1_1243380501-187.coolpic» v:shapes="_x0000_i1057">= |<img width=«19» height=«23» src=«ref-1_1243372350-188.coolpic» v:shapes="_x0000_i1058">-<img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1059">|
определяет ошибку репрезентативности для средней величины признака.
Так как ошибки выборки всегда случайны, вычисляют среднюю и предельную ошибки выборки.
1. Для среднего значения признака средняя ошибка выборки <img width=«28» height=«28» src=«ref-1_1243381047-222.coolpic» v:shapes="_x0000_i1060"> (ее называют также стандартной ошибкой) выражает среднее квадратическое отклонение s
выборочной средней <img width=«19» height=«23» src=«ref-1_1243372350-188.coolpic» v:shapes="_x0000_i1061"> от математического ожидания M[<img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1062">] генеральной средней <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1063">.
Для изучаемых признаков средние ошибки выборки <img width=«28» height=«28» src=«ref-1_1243381047-222.coolpic» v:shapes="_x0000_i1064"> даны в табл. 3:
— для признака Среднегодовая стоимость основных производственных фондов
<img width=«28» height=«28» src=«ref-1_1243381047-222.coolpic» v:shapes="_x0000_i1065">=141,31,
— для признака Выпуск продукции
<img width=«28» height=«28» src=«ref-1_1243381047-222.coolpic» v:shapes="_x0000_i1066">
=168,57.
2.Предельная ошибка выборки <img width=«29» height=«27» src=«ref-1_1243382465-221.coolpic» v:shapes="_x0000_i1067"> определяет границы, в пределах которых лежит генеральная средняя <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1068">. Эти границы задают так называемый доверительный интервал генеральной средней <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1069"> – случайную область значений, которая с вероятностью P, близкой к 1, гарантированно содержит значение генеральной средней. Эту вероятность называют доверительной вероятностью или уровнем надежности.
Для уровней надежности P=0,954; P=0,683 оценки предельных ошибок выборки <img width=«29» height=«27» src=«ref-1_1243382465-221.coolpic» v:shapes="_x0000_i1070"> даны в табл. 3 и табл. 4.
Для генеральной средней предельные значения и доверительные интервалы определяются выражениями:
<img width=«99» height=«27» src=«ref-1_1243383249-386.coolpic» v:shapes="_x0000_i1071">,
<img width=«143» height=«25» src=«ref-1_1243383635-483.coolpic» v:shapes="_x0000_i1072">
Предельные ошибки выборки и ожидаемые границы для генеральных средних представлены в табл. 11.
Таблица 11
Предельные ошибки выборки и ожидаемые границы для генеральных средних
Доверительная
вероятность
Р
Коэффи
иент
доверия
t
Предельные ошибки
выборки, млн. руб.
Ожидаемые границы для средних <img width=«16» height=«24» src=«ref-1_1243384118-168.coolpic» v:shapes="_x0000_i1073">, млн. руб.
для первого
признака
для второго
признака
для первого
признака
для второго
признака
0,683
1
143,88
171,64
4326,12<img width=«44» height=«24» src=«ref-1_1243384286-238.coolpic» v:shapes="_x0000_i1074">4613,88
4002,22<img width=«44» height=«24» src=«ref-1_1243384286-238.coolpic» v:shapes="_x0000_i1075">4345,51
0,954
2
294,61
351,44
4175,39<img width=«44» height=«24» src=«ref-1_1243384286-238.coolpic» v:shapes="_x0000_i1076">4764,61
3822,42<img width=«44» height=«24» src=«ref-1_1243384286-238.coolpic» v:shapes="_x0000_i1077">4525,31
Вывод:
Увеличение уровня надежности ведет к расширению (сужению) ожидаемых границ для генеральных средних.
Задача 3
Рассчитанныев табл.3значения коэффициентов асимметрии Asи эксцесса Ekданы в табл.10.
1.Показатель асимметрии
As
оценивает смещение ряда распределения влево или вправо по отношению к оси симметрии нормального распределения.
Если асимметрия правосторонняя (As>0) то правая часть эмпирической кривой оказывается длиннее левой, т.е. имеет место неравенство <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1078">>Me>Mo, что означает преимущественное появление в распределении более высоких значений признака (среднее значение <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1079"> больше серединного Me и модальногоMo).
Если асимметрия левосторонняя (As<0), то левая часть эмпирической кривой оказывается длиннее правой и выполняется неравенство <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1080"><Me<Mo, означающее, что в распределении чаще встречаются более низкие значения признака (среднее значение <img width=«19» height=«20» src=«ref-1_1243380876-171.coolpic» v:shapes="_x0000_i1081"> меньше серединного Me и модальногоMo).
Чем больше величина |As|, тем более асимметрично распределение. Оценочная шкала асимметрии:
|As|<img width=«16» height=«19» src=«ref-1_1243385922-152.coolpic» v:shapes="_x0000_i1082">0,25 — асимметрия незначительная;
0,25<|As|<img width=«16» height=«19» src=«ref-1_1243385922-152.coolpic» v:shapes="_x0000_i1083">0,5 — асимметрия заметная (умеренная);
|As|>0,5 — асимметрия существенная.
Вывод:
Для признака Среднегодовая стоимость основных производственных фондов наблюдается незначительная (заметная, существенная) левосторонняя (правосторонняя) асимметрия. Следовательно, в распределении преобладают более низкие значения признака.
Для признака Выпуск продукции наблюдается незначительная (заметная, существенная) левосторонняя (правосторонняя) асимметрия. Следовательно, в распределении преобладают более высокие значения признака.
2.Показатель эксцессаEk характеризует крутизну кривой распределения — ее заостренность или пологость по сравнению с нормальной кривой.
Как правило, коэффициент эксцесса вычисляется только для симметричных или близких к ним распределений.
Если Ek>0, то вершина кривой распределения располагается выше вершины нормальной кривой, а форма кривой является более островершинной, чем нормальная. Это говорит о скоплении значений признака в центральной зоне ряда распределения, т.е. о преимущественном появлении в данных значений, близких к средней величине.
Если Ek<0, то вершина кривой распределения лежит ниже вершины нормальной кривой, а форма кривой более пологая по сравнению с нормальной. Это означает, что значения признака не концентрируются в центральной части ряда, а рассеяны по всему диапазону от xmax до xmin.
Для нормального распределения Ek=0. Чем больше абсолютная величина |Ek|, тем существеннее распределение отличается от нормального.
Принезначительном отклонении Ekот нуля форма кривой эмпирического распределения незначительно отличается от формы нормального распределения.
Вывод:
1. Так как для признака Среднегодовая стоимость основных производственных фондов Ek>0 (Ek<0), то кривая распределения является более островершинной (пологовершинной) по сравнению с нормальной кривой. При этом Ek незначительно (значительно) отличается от нуля (Ek=|0,34|) Следовательно, по данному признаку форма кривой эмпирического распределения значительно (незначительно) отличается от формы нормального распределения.
2.Так как для признака Выпуск продукции Ek>0 (Ek<0), то кривая распределения является более островершинной (пологовершинной) по сравнению с нормальной кривой. При этом Ek незначительно (значительно) отличается от нуля (Ek=|0,21|). Следовательно, по данному признаку форма кривой эмпирического распределения значительно (незначительно) отличается от формы нормального распределения.
III
. Экономическая интерпретация результатов статистического исследования предприятий[2]
1.
Типичны ли образующие выборку предприятия по значениям изучаемых экономических показателей?
Предприятия с резко выделяющимися значениями показателей приведены в табл.2. После их исключения из выборки, оставшиеся 30 предприятий являются типичными (нетипичными) по значениям изучаемых экономических показателей.
2.
Каковы наиболее характерные для предприятий значения показателей среднегодовой стоимости основных производственных фондов и выпуска продукции?
Ответ на вопрос следует из анализа данных табл.9, где приведен диапазон значений признака (<img width=«52» height=«23» src=«ref-1_1243372932-278.coolpic» v:shapes="_x0000_i1084">), содержащий наиболее характерные для предприятий значения показателей.
Для среднегодовой стоимости основных производственных фондов наиболее характерные значения данного показателя находятся в пределах от 3709,01 млн. руб. до 5230,99 млн. руб. и составляют 66,66% от численности совокупности.
Для выпуска продукции наиболее характерные значения данного показа-теля находятся в пределах от 3266,07 млн. руб. до 5081,66 млн. руб. и составляют 63,33% от численности совокупности.
3.
Насколько сильны различия в экономических характеристиках предприятий выборочной совокупности? Можно ли утверждать, что выборка сформирована из предприятий с достаточно близкими значениями по каждому из показателей?
Ответы на вопросы следуют из значения коэффициента вариации (табл.8), характеризующего степень однородности совокупности (см. вывод к задаче 3б). Максимальное расхождение в значениях показателей определяется размахом вариации Rn
.(табл.8).
Для среднегодовой стоимости основных производственных фондов различия в значениях показателя значительны (незначительны). Максимальное расхождение в значениях данного показателя 3200,00 млн. руб.
4.
Какова структура предприятий выборочной совокупности по среднегодовой стоимости основных производственных фондов? Каков удельный вес предприятий с наибольшими, наименьшими и типичными значениями данного показатели? Какие именно это предприятия?
Структура предприятий представлена в табл.7 Рабочего файла.
Предприятия с наиболее типичными значениями показателя входят в интервал от 3709,01 млн. руб. до 5230,99 млн. руб. Их удельный вес 66,66%. Это предприятия №№ 22, 19, 2, 3, 13, 26, 9, 4, 28, 17, 6, 14, 25, 7, 31, 18, 10, 20, 24, 29.
Предприятия с наибольшими значениями показателя входят в интервал от 5430,00 млн. руб. до 6070,00 млн. руб. Их удельный вес 100,00 %. Это предприятия №№ 12, 21, 16.
Предприятия с наименьшими значениями показателя входят в интервал от 2870,00 млн. руб. до 3510,00 млн. руб. Их удельный вес 13,33%. Это предприятия №№ 5, 23, 27, 1.
5.
Носит ли распределение предприятий по группам закономерный характер и какие предприятия (с более высокой или более низкой стоимостью основных фондов) преобладают в совокупности?
Ответ на вопрос следует из вывода к задаче 5 и значения коэффициента асимметрии (табл.8).
Распределение предприятий на группы по среднегодовой стоимости основных производственных фондов носит закономерный характер, близкий к нормальному (незакономерный характер). В совокупности преобладают предприятия с более высокой (низкой) стоимостью основных фондов.
6.
Каковы ожидаемые средние величины среднегодовой стоимости основных фондов и выпуска продукции на предприятиях корпорации в целом? Какое максимальное расхождение в значениях каждого показателя можно ожидать?
Ответ на первый вопрос следует из данных табл.11. Максимальное расхождение в значениях показателя определяется величиной размаха вариации RN
.
По корпорации в целом ожидаемые с вероятностью 0,954 средние величины показателей находятся в интервалах:
для среднегодовой стоимости основных производственных фондов – от 4175,39 млн. руб. до 4764,61 млн. руб.;
для выпуска продукции — от 3822,42 млн. руб. до 4525,31 млн. руб.;
Максимальные расхождения в значениях показателей:
для среднегодовой стоимости основных производственных фондов -3200,00 млн. руб.;
для выпуска продукции - 3840,00 млн. руб.
ПРИЛОЖЕНИЕ
Результативные таблицы и графики
Таблица 6
Карман
Частота
1
3510
3
4150
5
4790
11
5430
7
6070
3
Таблица 7
Интервальный ряд распределения предприятий
по стоимости основных производственных фондов
Группа предприятий по стоимости основных фондов
Число предприятий в группе
Накопленная частость группы.%
2870-3510
4
13,33%
3510-4150
5
30,00%
4150-4790
11
66,67%
4790-5430
7
90,00%
5430-6070
3
100,00%
Итого
30
<img width=«584» height=«260» src=«ref-1_1243386504-5446.coolpic» v:shapes="_x0000_i1085">
<img width=«510» height=«243» src=«ref-1_1243391950-4328.coolpic» v:shapes="_x0000_i1086">
ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ
КАФЕДРА СТАТИСТИКИ
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы
Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде MS Excel
Вариант № 62
Выполнил:
Проверил:
Брянск 2009 г.
продолжение
--PAGE_BREAK--1. Постановка задачи статистического исследования
Корреляционно-регрессионный анализ взаимосвязи признаков является составной частью проводимого статистического исследования деятельности 30-ти предприятий и частично использует результаты ЛР-1.
В ЛР-2 изучается взаимосвязь между факторным признаком Среднегодовая стоимость основных производственных фондов (признак Х) и результативным признаком Выпуск продукции (признак Y), значениями которых являются исходные данные ЛР-1 после исключения из них аномальных наблюдений.
В процессе статистического исследования необходимо решить ряд задач.
1. Установить наличие статистической связи между факторным признаком Х и результативным признаком Yграфическим методом.
2. Установить наличие корреляционной связи между признаками Х и Y
методом аналитической группировки.
3. Оценить тесноту связи признаков Х и Yна основе эмпирического корреляционного отношения η.
4. Построить однофакторную линейную регрессионную модель связи признаков Х и Y, используя инструмент Регрессия надстройкиПакет анализа, и оценить тесноту связи признаков Х и Yна основе линейного коэффициента корреляции r.
5. Определить адекватность и практическую пригодность построенной линейной регрессионной модели, оценив:
а) значимость и доверительные интервалы коэффициентов а0, а1;
б) индекс детерминации R
2и его значимость;
в) точность регрессионной модели.
6. Дать экономическую интерпретацию:
а) коэффициента регрессии а1;
б) коэффициента эластичности КЭ;
в) остаточных величин εi.
7. Найти наиболее адекватное нелинейное уравнение регрессии с помощью средств инструмента Мастер диаграмм.
2. Выводы по результатам выполнения лабораторной работы[3]
Задача 1
Установление наличия статистической связи между факторным признаком Х и результативным признаком Y
графическим методом.
Статистическая связь является разновидностью стохастической (случайной) связи, при которой с изменением факторного признака Xзакономернымобразом изменяется какой–либо из обобщающих статистических показателей распределения результативного признака Y.
Вывод:
Точечный график связи признаков (диаграмма рассеяния, полученная в ЛР-1 после удаления аномальных наблюдений) позволяет сделать вывод, что имеет (не имеет) место статистическая связь. Предположительный вид связи – линейная (нелинейная) прямая (обратная).
Задача 2
Установление наличия корреляционной связи между признаками Х и Y
методом аналитической группировки.
Корреляционная связь – важнейший частный случай стохастической статистической связи, когда под воздействием вариации факторного признака Х закономерно изменяются от группы к группе средние групповые значения <img width=«27» height=«33» src=«ref-1_1243396278-229.coolpic» v:shapes="_x0000_i1087"> результативного признака Y
(усредняются результативные значения <img width=«125» height=«29» src=«ref-1_1243396507-428.coolpic» v:shapes="_x0000_i1088">, полученные под воздействием фактора <img width=«23» height=«27» src=«ref-1_1243396935-181.coolpic» v:shapes="_x0000_i1089">). Для выявления наличия корреляционной связи используется метод аналитической группировки.
Вывод:
Результаты выполнения аналитической группировки предприятий по факторному признаку Среднегодовая стоимость основных производственных фондов даны в табл. 2.2 Рабочего файла, которая показывает, что с увеличением значений факторного признака Х закономерно (незакономерно) увеличиваются (уменьшаются) средние групповые значения результативного признака . Следовательно, между признаками Х и Y существует корреляционная связь.
Задача 3
Оценка тесноты связи признаков Х и Yна основе эмпирического корреляционного отношения.
Для анализа тесноты связи между факторным и результативным признаками рассчитывается показатель η – эмпирическое корреляционное отношение, задаваемое формулой
<img width=«97» height=«68» src=«ref-1_1243397116-582.coolpic» v:shapes="_x0000_i1090">,
где <img width=«25» height=«31» src=«ref-1_1243397698-244.coolpic» v:shapes="_x0000_i1091"> и <img width=«44» height=«33» src=«ref-1_1243397942-249.coolpic» v:shapes="_x0000_i1092"> — соответственно межгрупповая и общая дисперсии результативного признака Y-Выпуск продукции (индекс х дисперсии <img width=«25» height=«31» src=«ref-1_1243397698-244.coolpic» v:shapes="_x0000_i1093"> означает, что оценивается мера влияния признака Х на Y
).
Для качественной оценки тесноты связи на основе показателя эмпирического корреляционного отношения служит шкала Чэддока:
Значениеη
0,1 – 0,3
0,3 – 0,5
0,5 – 0,7
0,7 – 0,9
0,9 – 0,99
Сила связи
Слабая
Умеренная
Заметная
Тесная
Весьма тесная
Результаты выполненных расчетов представлены в табл. 2.4 Рабочего файла.
Вывод:
Значение коэффициента η =0,9028, что в соответствии с оценочной шкалой Чэддока говорит о весьма тесной степени связи изучаемых признаков.
Задача 4
Построение однофакторной линейной регрессионной модели связи изучаемых признаков с помощью инструмента Регрессия надстройки Пакет анализа и оценка тесноты связи на основе линейного коэффициента корреляции r.
4.1.Построение регрессионной модели заключается в нахождении аналитического выражения связи между факторным признаком X
и результативным признаком Y
.
Инструмент Регрессия на основе исходных данных (xi
,
yi), производит расчет параметров а0и а1 уравнения однофакторной линейной регрессии <img width=«104» height=«32» src=«ref-1_1243398435-472.coolpic» v:shapes="_x0000_i1094">, а также вычисление ряда показателей, необходимых для проверки адекватности построенного уравнения исходным (фактическим) данным.
Примечание.
В результате работы инструмента Регрессия получены четыре результативные таблицы (начиная с заданной ячейки А75). Эти таблицы выводятся в Рабочий файл без нумерации, поэтому необходимо присвоить им номера табл.2.5 – табл.2.8 в соответствии с их порядком.
Вывод:
Рассчитанные в табл.2.7 (ячейки В91 и В92) коэффициенты а0 и а1 позволяют построить линейную регрессионную модель связи изучаемых признаков в виде уравнения -695,5510+1,0894х.
4.2.В случае линейности функции связи для оценки тесноты связи признаков X и Y
,устанавливаемой по построенной модели, используется линейный коэффициент корреляции r.
Значение коэффициента корреляции rприводится в табл.2.5 в ячейке В78 (термин "Множественный R").
Вывод:
Значение коэффициента корреляции r =0,9132, что в соответствии с оценочной шкалой Чэддока говорит о весьма тесной степени связи изучаемых признаков.
Задача 5
Анализ адекватности и практической пригодности построенной линейной регрессионной модели.
Анализ адекватности регрессионной модели преследует цель оценить, насколько построенная теоретическая модель взаимосвязи признаков отражает фактическую зависимость между этими признаками, и тем самым оценить практическую пригодность синтезированной модели связи.
Оценка соответствия построенной регрессионной модели исходным (фактическим) значениям признаков X
иYвыполняется в 4этапа:
1) оценка статистической значимости коэффициентов уравнения а0, а1 и определение их доверительных интервалов для заданного уровня надежности;
2) определение практической пригодности построенной модели на основе оценок линейного коэффициента корреляции r и индекса детерминации R2;
3) проверка значимости уравнения регрессии в целом по F-критерию Фишера;
4) оценка погрешности регрессионной модели.
5.1 Оценка статистической значимости коэффициентов уравнения и определение их доверительных интервалов
Так как коэффициенты уравненияа0, а1 рассчитывались, исходя из значений признаков только для 30-ти пар (xi
,
yi), то полученные значения коэффициентов являются лишь приближенными оценками фактических параметров связи а0, а1. Поэтому необходимо:
1. проверить значения коэффициентов на неслучайность (т.е. узнать, насколько они типичны для всей генеральной совокупности предприятий отрасли);
2. определить (с заданной доверительной вероятностью 0,95 и 0,683) пределы, в которых могут находиться значения а0, а1для генеральной совокупности предприятий.
Для анализа коэффициентов а0, а1линейного уравнения регрессии используется табл.2.7, в которой:
– значения коэффициентов а0, а1приведены в ячейках В91 и В92 соответственно;
– рассчитанный уровень значимости коэффициентов уравнения приведен в ячейках Е91 и Е92;
– доверительные интервалы коэффициентов с уровнем надежности Р=0,95 и Р=0,683 указаны в диапазоне ячеек F91:I92.
5.1.1Определение значимости коэффициентов уравнения
Уровень значимости – это величина α=1–Р, где Р – заданный уровень надежности (доверительная вероятность).
Режим работы инструмента Регрессия использует по умолчанию уровень надежности Р=0,95. Для этого уровня надежности уровень значимости равен α = 1 –0,95 = 0,05. Этот уровень значимости считается заданным.
В инструменте Регрессия надстройки Пакет анализа для каждого из коэффициентова0иа1 вычисляется уровень его значимости αр, который указан в результативной таблице (табл.2.7 термин «Р-значение»). Если рассчитанный для коэффициентов а0, а1уровень значимости αр, меньше заданного уровня значимости α= 0,05, то этот коэффициент признается неслучайным (т.е. типичным для генеральной совокупности), в противном случае – случайным.
Примечание.
В случае, если признается случайным свободный член а0, то уравнение регрессии целесообразно построить заново без свободного члена а0. В этом случае в диалоговом окне Регрессиянеобходимо задать те же самые параметры за исключением лишь того, что следует активизировать флажок Константа-ноль
(это означает, что модель будет строиться при условии а0=). В лабораторной работе такой шаг не предусмотрен.
Если незначимым (случайным) является коэффициент регрессии а1, то взаимосвязь между признаками X
иY
в принципе
не может аппроксимироваться линейной моделью.
Вывод:
Для свободного члена а0 уравнения регрессии рассчитанный уровень значимости есть αр =0,1061. Так как он меньше (больше) заданного уровня значимости α=0,05, то коэффициент а0 признается типичным (случайным).
Для коэффициента регрессии а1 рассчитанный уровень значимости есть αр =0. Так как он меньше (больше) заданного уровня значимости α=0,05, то коэффициент а1 признается типичным (случайным).
5.1.2 Зависимость доверительных интервалов коэффициентов уравнения от заданного уровня надежности
Доверительные интервалы коэффициентов а0, а1 построенного уравнения регрессии при уровнях надежности Р=0,95 и Р=0,683 представлены в табл.2.7, на основе которой формируется табл.2.9.
Таблица 2.9
Границы доверительных интервалов коэффициентов уравнения
Коэффициенты
Границы доверительных интервалов
Для уровня надежности Р=0,95
Для уровня надежности Р=0,683
нижняя
верхняя
нижняя
верхняя
а0
-1548,8999
157,7979
-1119,9924
-271,1096
а1
0,9012
1,2776
0,9957
1,1830
Вывод:
В генеральной совокупности предприятий значение коэффициента а0 следует ожидать с надежностью Р=0,95 в пределах -1548,8999 а0 157,7979, значение коэффициента а1 в пределах 0,9012 а1 1,2776. Уменьшение уровня надежности ведет к расширению (сужению) доверительных интервалов коэффициентов уравнения.
Определение практической пригодности построенной регрессионной модели.
Практическую пригодность построенной модели <img width=«113» height=«28» src=«ref-1_1243398907-440.coolpic» v:shapes="_x0000_i1095">можно охарактеризовать по величине линейного коэффициента корреляции r:
· близость <img width=«20» height=«28» src=«ref-1_1243399347-189.coolpic» v:shapes="_x0000_i1096"> к единице свидетельствует о хорошей аппроксимации исходных (фактических) данных с помощью построенной линейной функции связи <img width=«113» height=«28» src=«ref-1_1243398907-440.coolpic» v:shapes="_x0000_i1097">;
· близость <img width=«20» height=«32» src=«ref-1_1243399976-194.coolpic» v:shapes="_x0000_i1098"> к нулю означает, что связь между фактическими данными Х и Yнельзя аппроксимировать как построенной, так и любой другой линейной моделью, и, следовательно, для моделирования связи следует использовать какую-либо подходящую нелинейную модель.
Пригодность построенной регрессионной модели для практического использования можно оценить и по величине индекса детерминации R2, показывающего, какая часть общей вариации признака Yобъясняется в построенной модели вариацией фактораX.
В основе такой оценки лежит равенствоR= r(имеющее место для линейных моделей связи), а также шкала Чэддока, устанавливающаякачественную характеристику тесноты связи в зависимости от величины r.
Согласно шкале Чэддока высокая степень тесноты связи признаков достигается лишь при <img width=«19» height=«28» src=«ref-1_1243400170-181.coolpic» v:shapes="_x0000_i1099">>0,7, т.е. при <img width=«24» height=«28» src=«ref-1_1243400351-200.coolpic» v:shapes="_x0000_i1100"> >0,7. Для индекса детерминации R2это означает выполнение неравенстваR2>0,5.
При недостаточно тесной связи признаков X, Y(слабой, умеренной, заметной) имеет место неравенство <img width=«20» height=«28» src=«ref-1_1243399347-189.coolpic» v:shapes="_x0000_i1101"><img width=«17» height=«21» src=«ref-1_1243400740-167.coolpic» v:shapes="_x0000_i1102">0,7, а следовательно, и неравенство <img width=«69» height=«25» src=«ref-1_1243400907-324.coolpic» v:shapes="_x0000_i1103">.
С учетом вышесказанного, практическая пригодность построенной модели связи <img width=«113» height=«28» src=«ref-1_1243398907-440.coolpic» v:shapes="_x0000_i1104"> оценивается по величине R2следующим образом:
· неравенство R2 >0,5 позволяет считать, что построенная модель пригодна для практического применения, т.к. в ней достигается высокая степень тесноты связи признаков X и Y, при которой более 50% вариации признака Y объясняется влиянием фактора Х;
· неравенство <img width=«69» height=«25» src=«ref-1_1243400907-324.coolpic» v:shapes="_x0000_i1105"> означает, что построенная модель связи практического значения не имеет ввиду недостаточной тесноты связи между признаками X и Y, при которойменее 50% вариации признака Y объясняется влиянием фактора Х, и, следовательно, фактор Х влияет на вариацию Y в значительно меньшей степени, чем другие (неучтенные в модели) факторы.
Значение индекса детерминации R2 приводится в табл.2.5 в ячейке В79 (термин "R
— квадрат").
Вывод:
Значение линейного коэффициента корреляции r и значение индекса детерминации R2 согласно табл. 2.5 равны: r =0,9132, R2 =0,8339. Поскольку и , то построенная линейная регрессионная модель связи пригодна (не пригодна) для практического использования.
Общая оценка адекватности регрессионной модели по F-критерию Фишера
Адекватность построенной регрессионной модели фактическим данным (xi
,
yi) устанавливается по критерию Р.Фишера, оценивающему статистическую значимость (неслучайность) индекса детерминации R2.
Рассчитанная для уравнения регрессии оценка значимости R2 приведена в табл.2.6 в ячейке F
86 (термин "Значимость F"). Если она меньше заданного уровня значимости α=0,05, то величина R2 признается неслучайной и, следовательно, построенное уравнение регрессии <img width=«113» height=«28» src=«ref-1_1243398907-440.coolpic» v:shapes="_x0000_i1106"> может быть использовано как модель связи между признаками Х и Y для генеральной совокупности предприятий отрасли.
Вывод:
Рассчитанный уровень значимости αр индекса детерминации R2 есть αр=0. Так как он меньше(больше) заданного уровня значимости α=0,05, то значение R2 признается типичным (случайным) и модель связи между признаками Х и Y -695,5510+1,0894х применима (неприменима) для генеральной совокупности предприятий отрасли в целом.
Оценка погрешности регрессионной модели
Погрешность регрессионной модели можно оценить по величине стандартной ошибки <img width=«24» height=«27» src=«ref-1_1243402435-189.coolpic» v:shapes="_x0000_i1107"> построенного линейного уравнения регрессии <img width=«113» height=«28» src=«ref-1_1243398907-440.coolpic» v:shapes="_x0000_i1108">. Величина ошибки <img width=«24» height=«27» src=«ref-1_1243402435-189.coolpic» v:shapes="_x0000_i1109"> оценивается как среднее квадратическое отклонение по совокупности отклонений <img width=«69» height=«28» src=«ref-1_1243403253-433.coolpic» v:shapes="_x0000_i1110"> исходных (фактических) значений yiпризнака Y от его теоретических значений <img width=«21» height=«25» src=«ref-1_1243403686-209.coolpic» v:shapes="_x0000_i1111">, рассчитанных по построенной модели.
Погрешность регрессионной модели выражается в процентах и рассчитывается как величина <img width=«31» height=«57» src=«ref-1_1243403895-293.coolpic» v:shapes="_x0000_i1112">.100.
В адекватных моделях погрешность не должна превышать 12%-15%.
Значение <img width=«24» height=«27» src=«ref-1_1243402435-189.coolpic» v:shapes="_x0000_i1113"> приводится в выходной таблице "Регрессионная статистика" (табл.2.5) в ячейке В81 (термин "Стандартная ошибка"), значение <img width=«16» height=«29» src=«ref-1_1243404377-180.coolpic» v:shapes="_x0000_i1114"> – в таблице описательных статистик (ЛР-1, Лист 1, табл.3, столбец 2).
Вывод:
Погрешность линейной регрессионной модели составляет .100= .100=9,1749%, что подтверждает (не подтверждает) адекватность построенной модели -695,5510+1,0894х.
Задача 6
Дать экономическую интерпретацию:
1) коэффициента регрессии а1;
3) остаточных величин <img width=«13» height=«16» src=«ref-1_1243404557-145.coolpic» v:shapes="_x0000_i1115">i.
2) коэффициента эластичности КЭ;
6.1 Экономическая интерпретациякоэффициента регрессии а1
В случае линейного уравнения регрессии <img width=«27» height=«29» src=«ref-1_1243404702-219.coolpic» v:shapes="_x0000_i1116">=a0+a1x величина коэффициента регрессии a1 показывает, на сколько в среднем (в абсолютном выражении) изменяется значение результативного признака Y при изменении фактора Х на единицу его измерения. Знак при a1 показывает направление этого изменения.
Вывод:
Коэффициент регрессии а1 =1,0894 показывает, что при увеличении факторного признака Среднегодовая стоимость основных производственных фондов на 1 млн руб. значение результативного признака Выпуск продукции увеличивается (уменьшается) в среднем на 1,0894 млн руб.
6.2 Экономическая интерпретация коэффициента эластичности
С целью расширения возможностей экономического анализа явления используется коэффициент эластичности <img width=«93» height=«44» src=«ref-1_1243404921-412.coolpic» v:shapes="_x0000_i1117">, который измеряется в процентах и показывает, на сколько процентов изменяется в среднем результативный признак при изменении факторного признака на 1%.
Средние значения <img width=«17» height=«27» src=«ref-1_1243405333-176.coolpic» v:shapes="_x0000_i1118"> и <img width=«16» height=«31» src=«ref-1_1243405509-191.coolpic» v:shapes="_x0000_i1119"> приведены в таблице описательных статистик (ЛР-1, Лист 1, табл.3).
Расчет коэффициента эластичности:
<img width=«93» height=«44» src=«ref-1_1243404921-412.coolpic» v:shapes="_x0000_i1120">=<img width=«139» height=«61» src=«ref-1_1243406112-936.coolpic» v:shapes="_x0000_i1121">=1,1667%
Вывод:
Значение коэффициента эластичности Кэ=1,1667% показывает, что при увеличении факторного признака Среднегодовая стоимость основных производственных фондов на 1% значение результативного признака Выпуск продукции увеличивается (уменьшается) в среднем на 1,1667 %.
6.3 Экономическая интерпретация остаточных величин εi
Каждый их остатков <img width=«89» height=«28» src=«ref-1_1243407048-402.coolpic» v:shapes="_x0000_i1122"> характеризует отклонение фактического значения yiот теоретического значения <img width=«21» height=«28» src=«ref-1_1243407450-248.coolpic» v:shapes="_x0000_i1123">, рассчитанного по построенной регрессионной модели и определяющего, какого среднего значения <img width=«21» height=«28» src=«ref-1_1243407698-190.coolpic» v:shapes="_x0000_i1124"> следует ожидать, когда фактор Х принимает значение xi.
Анализируя остатки, можно сделать ряд практических выводов, касающихся выпуска продукции на рассматриваемых предприятиях отрасли.
Значения остатков <img width=«13» height=«16» src=«ref-1_1243404557-145.coolpic» v:shapes="_x0000_i1125">i(таблица остатков из диапазона А98: С128) имеют как положительные, так и отрицательные отклонения от ожидаемого в среднем объема выпуска продукции <img width=«21» height=«28» src=«ref-1_1243407450-248.coolpic» v:shapes="_x0000_i1126"> (которые в итоге уравновешиваются, т.е.<img width=«73» height=«47» src=«ref-1_1243408281-380.coolpic» v:shapes="_x0000_i1127">).
Экономический интерес представляют наибольшие расхождения между фактическим объемом выпускаемой продукции yiи ожидаемым усредненным объемом <img width=«23» height=«32» src=«ref-1_1243408661-217.coolpic» v:shapes="_x0000_i1128">.
Вывод:
Согласно таблице остатков максимальное превышение ожидаемого среднего объема выпускаемой продукции имеют три предприятия — с номерами 20, 19, 29 а максимальные отрицательные отклонения — три предприятия с номерами 7, 15, 32. Именно эти шесть предприятий подлежат дальнейшему экономическому анализу для выяснения причин наибольших отклонений объема выпускаемой ими продукции от ожидаемого среднего объема и выявления резервов роста производства.
Задача 7
Нахождение наиболее адекватного нелинейного уравнения регрессии с помощью средств инструмента Мастер диаграмм.
Уравнения регрессии и их графики построены для 3-х видов нелинейной зависимости между признаками и представлены на диаграмме 2.1 Рабочего файла.
Уравнения регрессии и соответствующие им индексы детерминации R
2приведены в табл.2.10 (при заполнении данной таблицы коэффициенты уравнений необходимо указывать не в компьютерном формате, а в общепринятой десятичной форме чисел).
продолжение
--PAGE_BREAK--
еще рефераты
Еще работы по математике