Реферат: Математическая статистика

математическая статистика

1. Генеральная совокупность ивыборка

Впредыдущем разделе нас интересовала распределение признака в некоторойсовокупности элементов. Совокупность, которая объединяет все элементы, имеющаяэтот признак, называется генеральный. Если признак человеческий (национальность,образование, коэффициент IQ т.п.), то генеральная совокупность — все населениеземли. Это очень большая совокупность, то есть число элементов в совокупности nвелико. Число элементов называется объемом совокупности. Совокупности могутбыть конечными и бесконечными. Генеральная совокупность – все люди хотя и оченьбольшая, но, естественно, конечная. Генеральная совокупность – все звезды,наверное, бесконечно.

Еслиисследователь проводит измерение некоторой непрерывной случайной величины X, токаждый результат измерения можно считать элементом некоторой гипотетическойнеограниченной генеральной совокупности. В этой генеральной совокупностибесчисленная количество результатов распределены по вероятности под влияниемпогрешностей в приборах, невнимательности экспериментатора, случайных помех всамом явлении и др.

Еслимы проведем n повторных измерений случайной величины Х, то есть получимn конкретных различных численных значений />, то этот результатэксперимента можно считать выборкой объема n изгипотетической генеральной совокупности результатов единичных измерений.

Естественносчитать, что действительным значением измеряемой величины является среднееарифметическое от результатов />. Этафункция от n результатов измерений называется статистикой, и онасама является случайной величиной, имеющей некоторое распределение называемаявыборочным распределением. Определение выборочного распределения той или инойстатистики — важнейшая задача статистического анализа. Ясно, что этораспределение зависит от объема выборки n и отраспределения случайной величины Х гипотетической генеральной совокупности.Выборочное распределение статистики />представляетсобой распределение Хq<sub/>в бесконечной совокупности всех возможных выборок объема n изисходной генеральной совокупности.

Можнопроводить измерения и дискретной случайной величины.

Пустьизмерение случайной величины Х представляет собой бросание правильнойоднородной треугольной пирамиды, на гранях которой написаны числа 1, 2, 3, 4.Дискретная, случайная величина Х имеет простое равномерное распределение:

/>

Экспериментможно производить неограниченное число раз. Гипотетической теоретическойгенеральной совокупностью является бесконечная совокупность, в которой имеютсяодинаковые доли (по 0.25) четырех разных элементов, обозначенных цифрами 1, 2,3, 4. Серия из n повторных бросаний пирамиды или одновременное бросание nодинаковых пирамид можно рассматривать как выборку объема n из этой генеральнойсовокупности. В результате эксперимента имеем n чисел />. Можно ввести некоторыефункции этих величин />, которыеназываются статистиками, они могут быть связаны с определенными параметрамигенерального распределения.

Важнейшимичисловыми характеристиками распределений являются вероятности Рi, математическое ожидание М, дисперсия D. Статистикамидля вероятностей Рi являются относительные частоты />, где ni — частота результата i (i=1,2,3,4)в выборке. Математическому ожиданию М соответствует статистика

/>,

котораяназывается выборочным средним. Выборочная дисперсия

/>,

соответствуетгенеральной дисперсии D.

Относительнаячастота любого события /> (i=1,2,3,4)в сериях из n повторных испытаний (или в выборках объема n изгенеральной совокупности) будет иметь биномиальное распределение.

/>

Уэтого распределения математическое ожидание равно 0.25 (не зависит от n), асреднее квадратическое отклонение равно /> (быстроубывает с ростом n). Распределение является выборочным распределениемстатистики, относительная частота любого из четырех возможных результатов единичногобросания пирамиды в n повторных испытаниях. Если бы мы выбрали избесконечной, генеральной совокупности, в которой четыре разных элемента (i=1,2,3,4)имеют равные доли по 0.25, все возможные выборки объемом n (ихчисло также бесконечно), то получили бы так называемую математическую выборкуобъема n. В этой выборке каждый из элементов (i=1,2,3,4)распределен по биномиальному закону.

Допустим,мы выполнили /> бросания этой пирамиды, и число двойка выпало 3 раза(/>). Мы можем найти вероятность этого результата,используя выборочное распределение. Она равна

/>.

Нашрезультат оказался весьма маловероятным; в серии из двадцати четырех кратныхбросаний он встречается примерно один раз. В биологии такой результат обычносчитается практически невозможным. В этом случае у нас появится сомнение:является пирамида правильной и однородной, справедливо ли при одном бросанииравенство />, верно ли распределение и,следовательно, выборочное распределение.

Чтобыразрешить сомнение, надо выполнить еще один раз четырехкратное бросание. Еслиснова появится результат />, то вероятность двух результатов с /> очень мала />. Ясно, что мыполучили практически совершенно невозможный результат. Поэтому исходноераспределение неверное. Очевидно, что, если второй результат окажется ещемаловероятней />, то имеется ещебольшее оснований разобраться с этой «правильной» пирамидой. Если жерезультат повторного эксперимента будет /> и />, тогда можно считать, чтопирамида правильная, а первый результат (/>), тоже верный, но просто маловероятный.

Намможно было и не заниматься проверкой правильности и однородности пирамиды, асчитать априори пирамиду правильной и однородной, и, следовательно, правильнымвыборочное распределение. Далее следует выяснить, что дает знание выборочногораспределения для исследования генеральной совокупности. Но посколькуустановление выборочного распределения является основной задачейстатистического исследования, подробное описание экспериментов с пирамидойможно считать оправданным.

Будемсчитать, что выборочное распределение верное. Тогда экспериментальные значенияотносительной частоты /> в различныхсериях по n бросаний пирамиды будут группироваться около значения0.25, являющегося центром выборочного распределения и точным значениемоцениваемой вероятности. В этом случае говорят, что относительная частота /> является несмещеннойоценкой />. Поскольку, выборочнаядисперсия /> стремиться к нулю с ростомn, то экспериментальные значения относительной частотыбудут все теснее группироваться около математического ожидания выборочногораспределения с ростом объема выборки. Поэтому /> являетсясостоятельной оценкой вероятности />.

Еслибы пирамида оказалась направильной и неоднородной, то выборочные распределениядля различных (i=1,2,3,4) имели бы отличные математические ожидания(разные />) и дисперсии.

Отметим,что полученные здесь биномиальные выборочные распределения при больших n (/>) хорошо апроксимируются нормальным распределением с параметрами/> и />, что значительно упрощаетрасчеты.

Продолжимслучайный эксперимент — бросание правильной, однородной, треугольной пирамиды.Случайная величина Х, связанная с этим опытом, имеет распределение. Математическоеожидание здесь равно

/>.

Проведемn бросаний, что эквивалентно случайной выборке объема n изгипотетической, бесконечной, генеральной совокупности, содержащей равные доли(0.25) четырех разных элементов. Получим n выборочныхзначений случайной величины Х (/>).Выберем статистику, которая представляет собой выборочное среднее. Величина /> сама является случайнойвеличиной, имеющей некоторое распределение, зависящее от объема выборки ираспределения исходной, случайной величины Х. Величина /> является усредненнойсуммой n одинаковых, случайных величин (то есть с одинаковымраспределением). Ясно, что

/>.

Поэтомустатистика /> является несмещеннойоценкой математического ожидания. Она является также состоятельной оценкой,поскольку

/>.

Такимобразом, теоретическое выборочное распределение имеет тоже математическоеожидание, что и у исходного распределения, дисперсия уменьшена в nраз.

Напомним,что /> равна

/>.

Математическая,абстрактная бесконечная выборка, связанная с выборкой объема n изгенеральной совокупности и с введенной статистикой будет содержать в нашемслучае /> элементов. Например, если />, то в математической выборке будут элементы созначениями статистики />. Всего элементовбудет 13. Доля крайних элементов в математической выборке будет минимальной,так как результаты /> и /> имеют вероятности, равные />. Среди множестваэлементарных исходов четырех кратного бросания пирамиды имеются только поодному благоприятному /> и />. При приближении статистикк средним значениям, вероятности будут возрастать. Например, значение /> будет реализоваться приэлементарных исходах />, />, /> и т. д. Соответственновозрастет и доля элемента 1.5 в математической выборке.

Среднеезначение будет иметь максимальную вероятность. С ростом nэкспериментальные результаты будут теснее группироваться около среднего значения.То обстоятельство, что среднее выборочного среднего /> равносреднему исходной совокупности /> частоиспользуется в статистике.

Есливыполнить расчеты вероятностей в выборочном распределении с />, то можно убедиться, что уже при таком небольшомзначении n выборочное распределение будет выглядеть какнормальное. Оно будет симметричным, в котором значение /> будет медианой, модой иматематическим ожиданием. С ростом n оно хорошо апроксимируетсясоответствующим нормальным даже, если исходное распределение прямоугольное.Если же исходное распределение нормально, то распределение /> является распределениемСтьюдента при любом n.

Дляоценки генеральной дисперсии /> необходимо выбрать более сложную статистику, которая дает несмещенную исостоятельную оценку />. В выборочном распределении для S2 математическое ожидание равно />, а дисперсия />. При больших объемахвыборок выборочное распределение можно считать нормальным. При малых n инормальном исходном распределении выборочное распределение для S2будет χ2‑распределение.

Вышемы попытались представить первые шаги исследователя, пытающегося провести простойстатистический анализ повторных экспериментов с правильной однороднойтреугольной призмой (тетраэдром). В этом случае нам известно исходноераспределение. Можно в принципе теоретически получить и выборочныераспределения относительной частоты, выборочного среднего и выборочной дисперсиив зависимости от числа повторных опытов n. При больших n всеэти выборочные распределения будут приближаться к соответствующим нормальнымраспределениям, так как они представляют собой законы распределения сумм независимыхслучайных величин (центральная предельная теорема). Таким образом, нам известныожидаемые результаты.

Повторныеэксперименты или выборки дадут оценки параметров выборочных распределений. Мыутверждали, что экспериментальные оценки будут правильными. Мы не выполняли этиэксперименты и даже не приводили результаты опытов, полученные другимиисследователями. Можно подчеркнуть, что при определении законов распределенийтеоретические методы используются чаще, чем прямые эксперименты.


2. Анализвариационных рядов

Статистическоеисследование может быть полным и выборочным. При полном исследовании измерениеинтересующего вас признака производится у каждого элемента совокупности. Приэтом определяется точное распределение признака. Например, декан получил точноераспределение оценок на экзамене по математике у всех 230 студентов. Он можетопределить точные доли отличников и не успевающих, процент успеваемости,процент качества обучения и т.п. Но это не «настоящая» статистика.

Статистикарешает задачу как, обследовав элементы выборки из генеральной совокупности,получить необходимую информацию о генеральной совокупности. Первое, что долженрешить статистик — это как провести выборку, чтобы она наилучшим образомсоответствовала генеральной совокупности, то есть, чтобы выборка быларепрезентативной. Выборка будет репрезентативной, если отбор элементов ввыборку производится случайно. Это означает, что все элементы генеральной совокупностиимеют одинаковую вероятность попасть в выборку. Один из способов получения случайнойвыборки состоит в том, что каждому элементу генеральной совокупностиприсваивается номер; билеты с номерами помещаются в шляпу или шарики с номерамив барабан; случайно извлекается билет или шарик, а затем выбирается соответствующийэлемент. В настоящее время случайные числа выдают ЭВМ.

Обеспечить случайность выборки не так просто как кажется. Ни в коем случаене следует полагаться на свою интуицию, следует подчеркнуть: если выборкаокажется не репрезентативной (ее называют смещенной), то с ростом ее объема можетуменьшаться точность или могут появляться ошибочные выводы. Закон больших чиселсработает наоборот. По видимому, по этой причине Дизраэли пошутил: «Насвете есть ложь наглая, ложь и статистика».

Разделстатистики, в котором изучаются виды выборок, разрабатываются методики,обеспечивающие репрезентативность выборок, изучается влияние объема выборки наполучаемые результаты и др., называется теорией выборки. Очевидна ее важнаяроль в планировании статистического исследования.

2.1 Дискретный вариационныйряд

Допустим,произведено n измерений случайной дискретной величины Х и получено kразличных значений />. При этом Х1наблюдалось m1 раз, Х2— m2 раз, …, Хk — mk раз. Можно сказать, что из бесконечной гипотетической совокупностирезультатов измерений сделана выборка объемом />.Числа /> являются частотамиизмеренных значений />, которыеназывают вариантами. Величины />, />,…,/> называют относительнымичастотами вариант Хi. Ясно, что />. Будемсчитать, что варианты /> мы расположили ввозрастающем порядке.

Полученныерезультаты удобно представить в виде таблицы.

/>

Втораястрока таблицы представляет собой вариационный ряд для частот, третья — дляотносительных частот, четвертая — для кумулятивных относительных частот. Есличисло вариант k не очень велико, то для того, чтобы получить более наглядноепредставление о распределение случайной величины Х строят полигоны иликумуляты. Для этого на оси абсцисс откладывают значения вариант />, а на оси ординатсоответствующие значения частот /> илиотносительных частот /> или кумулятивныхотносительных частот Fi. Ясно, что полигон относительных частот даетпредставление о распределение вероятностей, а график кумулятивных относительныхчастот можно назвать эмпирической функцией распределения.

Эмпирическаяфункция распределения определена на всей числовой оси. Ясно, что /> для всех /> и /> для всех />. Наинтервале /> функция /> будет иметь вид ступенчатой монотонно возрастающей от0 до 1 функции такой, что />.

Рассмотримпример. Пусть в результате обследования получены следующие значения вариант:

8 8 9 8 10 9 7 7 6 10 5 11 10 8 7 8 5 8 7 7 11 10 11 9 7 8 5 10 8 7 9 6 10 7 8 6 6 10 9 9 9 8 7 6 7 8 9 8 8 5 8 9 7 11 9 9 9 8 6 9 11 10 7 6

Всезначения (/>) вариант целочисленные, />, />. Таблица для этих данныхпринимает следующий вид (таблица ):

/>


3. Интервальныйвариационный ряд

Какуже отмечалось выше, для непрерывной случайной величины всю область еевозможных значений нужно разделить на интервалы, которые называют классами.Обычно ширины всех классов выбирают одинаковыми. Ширину интервалов ΔXопределяют формулой

/>,

где Xmax и Xmin — наибольшее и наименьшее значениепризнака в выборке, а k — количество классов. Оптимальное число классов зависитот объема выборки. При этом используют таблицу

Объем выборки — n 25 ¸ 40 40 ¸ 60 60 ¸ 100 100 ¸ 200 200 ¸ 1000 Число классов — k 5 ¸ 6 6 ¸ 8 7 ¸ 10 8 ¸ 12 10 ¸ 15

Количествовариант в классе есть частота попадания в данный класс. Все классы кромепоследнего представляют собой полуоткрытые справа интервалы (например />), а последний закрытый />. Можно составить таблицуинтервальных вариационных рядов; ее общий вид таков:

/>


Здесьai – границы классовых интервалов.

Еслина оси абсцисс отложить классовые интервалы и над ними построить прямоугольникис высотами, равными соответствующим плотностям fi<sub/>относительнойчастоты, то площадь каждого прямоугольника будет равна относительной частоте />. Полученная таким образомступенчатая фигура называется гистограммой. Площадь под гистограммой равнаединице, так как она равна сумме площадей всех прямоугольников />. Понятно, что линия, котораяидет по оси абсцисс, затем огибает гистограмму и затем снова идет по осиабсцисс является графиком эмпирической функции плотности вероятности.

Интервальныйвариационный ряд можно построить и для дискретной случайной величины, еслиобъем выборки достаточно большой. Нужно, чтобы в каждом классе было не менеетрех вариант. В этом случае мы как бы совершаем переход от дискретной случайнойвеличины к непрерывной.

Рассмотримпример. Измерена частота пульса Xi (число сокращенийсердца за минуту) у 1060 студентов (/> — объем выборки), />, />. Выборка очень большая,поэтому выберем число классов />. Тогда />, то есть в интервале содержится четыре значения Х(здесь у нас дискретная случайная величина). Допустим, на основании имеющихсявариант мы построили таблицу интервальных вариационных рядов.

№ класса Классовый интервал

Частота mi

Отн. частота pi

Плотность отн. частоты fi

Комулятивная отн. частота Fi

1 [43;47[ 1 0.0008 0.0002 0 ¸ 0.0008 2 [47;51[ 3 0.0028 0.0007 0.0008 ¸ 0.0036 3 [51;55[ 6 0.0056 0.0014 0.0036 ¸ 0.0092 4 [55;59[ 22 0.0208 0.0052 0.0092 ¸ 0.0300 5 [59;63[ 52 0.0492 0.0123 0.0300 ¸ 0.0792 6 [63;67[ 79 0.0744 0.0186 0.0792 ¸ 0.1536 7 [67;71[ 118 0.1112 0.0278 0.1536 ¸ 0.2648 8 [71;75[ 165 0.1556 0.0389 0.2648 ¸ 0.4204 9 [75;79[ 186 0.1756 0.0439 0.4204 ¸ 0.5960 10 [79;83[ 165 0.1556 0.0389 0.5960 ¸ 0.7516 11 [83;87[ 103 0.0972 0.0243 0.7516 ¸ 0.8488 12 [87;91[ 82 0.0772 0.0193 0.8488 ¸ 0.9260 13 [91;95[ 45 0.0424 0.0106 0.9260 ¸ 0.9684 14 [95;97[ 19 0.0180 0.0045 0.9684 ¸ 0.9864 15 [99;103[ 11 0.0104 0.0026 0.9864 ¸ 0.9970 16 [103;107[ 3 0.0021 0.0007 0.9970 ¸ 0.9999 Сумма 1060 1 0.25 1

Наосновании этих результатов строим гистограмму и эмпирическую функциюраспределения. Так как мы перешли от дискретной случайной величины кнепрерывной, то мы считаем плотность вероятности постоянной внутри каждогоинтервала, а функция распределения на каждом интервале будет возрастать линейноот начального до конечного ее значения на интервале.

Нарис. представлена гистограмма, которая почти симметрична относительно вертикали/>. Три центральных класса с наибольшими частотами (модальнаягруппа) оказались точно симметричными (см. таблицу). Поэтому хорошей оценкоймоды, медианы и математического ожидания будет значение />. Огибающая гистограммы и сама гистограмма с ростомобъема выборки будут приближаться к кривой нормального распределения (кривойГаусса) с параметрами /> и />, то есть к кривой

/>.


Убеждаемся,что центральная предельная теорема выполняется.

Нарис. представлена эмпирическая функция распределения — кумулята pi. Эта функция приближенно выражается через функцию Лапласа (или интегралвероятностей) />:

/>,

поформуле

/>.

При /> функция распределения F имеет точку перегиба (/>)и />, то есть точка /> является медианой.


4. Точечные оценки параметровраспределения признака

Построениеграфиков эмпирических функций плотности вероятности гистограммы и функциираспределения (кумяляты) дают общее представление о распределении случайнойвеличины. Для уточнения деталей распределения по данным выборки статистики разработаныспециальные методы. Очень помогают исследования, если удается определить типзакона распределения признака в генеральной совокупности (нормальный,биноминальный и др.). Очевидно, что благодаря центральной предельной теоремераспределение генеральной совокупности часто является нормальным. И,следовательно, для уточнения модели остается точнее определить численныезначения математического ожидания и дисперсии. Поэтому были точно рассчитаныраспределения различных статистик для выборок из генеральной нормальнойсовокупности (c2,Стьюдента, Фишера). Теория статистики, построена на расположении о нормальностиисходного распределения, была первой. Ее можно назвать Гауссовской статистикой.

Разделстатистики, в которой изучается проблема получения информации о генеральнойсовокупности по выборочным данным, называется статистические выводы. Этотраздел можно разделить на два отдела: оценивания параметров и проверка гипотез.

Дляоценивания параметра распределения можно использовать несколько выборочныхстатистик. Например, оценка генерального среднего может служить и выборноесреднее />, и медиана />, и мода. Наилучшая оценкадолжна обладать такими свойствами как: несмещенность, эффективность исостоятельность. Для несмещенности необходимо, что бы выборочная статистикаимела математическое ожидание равное оцениваемому параметру. Если имеется двенесмещенные оценки, то из них следует выбирать ту, которая имеет меньшуювыборочную дисперсию (она считается более эффективной). Оценка должна такжебыть состоятельной. Это означает, что с ростом объема выборки, дисперсия оценкидолжна стремится к нулю.

Иногдастановится важным и такое свойство оценки как простота вычислений, малое времяобработки. Можно выбрать такую оценку вместо более эффективной, но и болеедорогой и длительной.

Обычнооценку случайний величины (статистику) обозначают большими латинскими буквами (/>), значение оценки изданных выборки – соответствующими малыми латинскими буквами (/>), действительное значениепараметра генеральной совокупности — малыми буквами греческого алфавита (/>).

Признакикаждого объекта выборки объема n можно считать независимыми случайными величинами Хi (i=1,2,…,n) имеющими одинаковые законыраспределения (одинаковые параметры m и s). Точечной оценкой математического ожидания будет статистика

/>.

Случайнуювеличину /> называют усредненнымзначением признака выборочным средним. Значение /> дляконкретной выборки будет среднее арифметическое из данных выборки />

/>.

Еслиданные выборки сгруппировать в вариационный ряд, то /> находятпо формуле


/>,

где xi — значениеварианты для дискретного вариационного ряда или средина классового интерваладля интервального вариационного ряда; mi – частота вариантаили классовая частота.

Точечнойоценкой дисперсии s2признака, при неизвестной величине математического ожидания m является статистика

/>.

Значениеэтой статистики s2 дляконкретной выборки равно

/>.

Удобнопользоваться формулой

/>,

где /> или />.

Точечнойоценкой стандартного отклонения (среднего квадратического отклонения) s является статистика

/>.


Точечной оценкой стандартного отклонения выборочной средней /> будет статистика

/>

Значениеэтой статистики для конкретной выборки равно

/>.

Подчеркнем,что s является характеристикой отдельного измерения, а /> — характеристикойсовокупности измерений.

Еслиданные выборки представлены интервальным вариационным рядом, то для большегообъема n и малого числа классов k.

Оценкадисперсии признака является завышенной на величину />,называемой поправкой Шеппарда с учетом этой поправки имеем

/>,

где Dx — ширина классового интервала.

Еслиобъем генеральной совокупности N, а объём выборки n соизмерим с N (/>), то дисперсия выборочной средней /> рассчитывается по формуле

/>.


Рассмотримпример. Результаты измерения признака Х из элементов выборки объёма /> представлены интервальнымвариационным рядом с />:

№ интервала, i Интервал

Середина интервала, xi

Частота, mi

mixi

mixi2

1 [76;85] 80 2 160 12800 2 [86;95] 90 5 450 40500 3 [96;105] 100 17 1700 170000 4 [106;115] 110 25 2750 302500 5 [116;125] 120 45 5400 648000 6 [126;135] 130 27 3510 456300 7 [136;145] 140 21 2940 411600 8 [146;155] 150 3 450 67500 9 [156;165] 160 1 160 25600 Сумма 146 17520 2134800

Поформуле находим выборочное среднее />.Среднее от х2 равно />.Стандартные отклонение S находим с учетом поправки Шеппарда

/>

Израсчета видно, что поправка Шеппарда незначительна. По формуле определяемстандартное отклонение выборочной средней />.

Такиевеличины как выборочные мода и медиана также могут служить для оценки среднегогенеральной совокупности (особенно если генеральное распределение симметрично).Разность выборочного среднего /> ивыборочной медианы (или моды) может быть оценкой коэффициента асимметрии.Статистики для моды и медианы определяются выборочными значениями. Например,для доли определенных элементов в генеральной совокупности (это вероятность Рслучайно выбрать такой элемент) наилучшей точечной оценкой будет статистика /> где Х число этих элементовв выборке n, то есть доля тех же элементов в выборке.

Длядвухмерной случайной величины выборка объёма n состоит изпоследовательности n пар чисел />.Точечной оценкой корреляционного момента является статистика

/>

Длякоэффициента корреляции точечной оценкой служит выражение

/>.

Длянахождения точечной оценки неизвестного параметра используется также методнаибольшего правдоподобия. Он состоит в том, что в качестве наиболееправдоподобного значения параметра Q берут то егозначение Q, при котором вероятность получить в nопытах данную выборку /> являетсямаксимально большой. Каждая из величин Xi<sub/>имеетплотность вероятности />. Функция правдоподобияопределяется соотношением

/>.

Этафункция имеет максимум при />, где /> является решением управления


/> или />.

Пусть /> —<sub/>выборка израспределения Пуассона />. Тогда

/>,

/>.

Уравнениедля определения l имеет вид

/>,

решениекоторого даёт известный результат

математический дисперсия выборка дискретный

/>.

еще рефераты
Еще работы по математике