Лекция: Персентили
Персентили — это показатели типа средних по расположению в ряду. Если данные не сгруппированы, они определяются по месту нахождения после того, как все данные будут расположены по восходящей градации по величине изучаемого признака (пятидесятый персентиль известен под именем медианы, в предыдущем примере было показано как он вычисляется). Если данные сгруппированы в равномерно отстоящие друг от друга интервалы, то для получения соответствующих персентилей используется формула:
Pi=LPi+(c/f)*e,
где Lpi — нижняя граница интервала, в котором находится соответствующий персентиль;
с — число случаев, которое требуется прибавить к кумулятивному ряду случаев доперсентильных интервалов, чтобы получить порядковое число персентильного случая;
f — число случаев персентильного интервала;
е — величина персентильного интервала.
В практике обычно пользуются только некоторыми из персентилей: P3, P10, P25, P50, P75, P90, P97. Считается, что если индивидуально наблюдаемый признак находится в границах от Р25 до Р75, то величина его соответствует норме (следовательно, в норму входят 50% всех случаев), если он находится в границах от Р10 до Р25 и от Р75 до Р90, то оценка его соответственно выше или ниже средней (по 15%). Если величина рассматриваемого признака находится в границах от Р3 до Р10 и Р90 до Р97, оценка будет соответственно низкой или высокой (по 7%). В остальных случаях — очень низкая или очень высокая.
Если распределение изучаемого признака отличается от нормального, то при выработке нормативов следует предпочесть метод персентилей.
Имеются следующие данные о истолическом давлении крови у мужчин в возрасте 25-29лет. Необходимо найти персентили P3, P10, P25, P50, P75, P90, P97 и определить интервалы, в границах которых находятся отдельные нормативные группы .
Чтобы выполнить заданную задачу, первоначально находят так называемый начетный ряд (кумулятивные итоги — третий столбец таблицы). Он получается следующим образом, к числу случаев первого интервала прибавляют число случаев второго, к полученному итогу прибавляют число случаев третьего интервала и т.д.
RR в мм. рт. сб. | Число случаев | Куммулятивные суммы |
70-90 | ||
90-110 | ||
110-130 | ||
130-150 | ||
150-170 | ||
170-190 | ||
190-210 | ||
210-230 | ||
230-250 | ||
250-270 |
Затем находим номера соответствующих персентилей по формуле:
Sf/100*Pi, где Sf — сумма всех случаев (в нашем примере 1000), Pi — соответствующий персентиль. По этой формуле номер третьего персентиля будет равен 30=(1000/100)*3, десятого персентиля -100, остальных персентилей соответственно 250, 500, 750, 900, 970.
По куммулятивным суммам определяют, в каком интервале находится каждый из требующихся персентилей. Например, персентиль №30 находится во втором интервале 90-100, №100 — в том же интервале, №250 — в интервале 110-130 и т.д. Затем при помощи формулы 1 находят величины искомых персентилей. В нашем случае: Р3=90+(20/100)*20=94 мм;
Р10=90+(90/100)*20=108 мм; Р25=110+(140/400)*20=117 мм;
Р50=110+(390/400)*20=129.5 мм; Р75=150+(40/100)*20=158 мм;
Р90=190+(20/60)*20=186.67 мм;
Р97=210+(30/30)*20=230 мм;
Следовательно, интервалы нормативов будут следующие:
Персентиль | Р3 | Р10 | Р25 | Р50 | Р75 | Р90 | Р97 |
Давление | |||||||
Очень низкое. Сильно выраженная гипотония | Низкое. Гипото-ния. | Ниже среднего. Слабо выраженная гипотония. | Средние. Нормальные случаи. | Выше среднего. Слабо выраженная гипертония. | Высокие. Гипертония. | Очень высокие. Сильно выраженная гипертония. |
Следует учитывать, что вырабатывать нормативы следует на большом количестве случаев (100-200 и более). Только тогда имеет смысл вычислять персентили.
Мода
Мода (Mo) представляет собой наиболее часто встречающееся в распределении численностей значение. Если к данным таблицы распределения численностей подобрать теоретическую кривую распределения, то мода равна абсциссе точки, имеющей максимальную для этой кривой ординату.
Например, в следующей выборке: {2, 3, 5, 1, 4, 5, 6, 5, 2} модой будет являться значение 5 (обозначатся следующим образом: Мо = 5). Если массив содержит 2 моды, то распределение называется бимодальным. Таким примером может служить выборка {3, 3, 5, 1, 4, 5, 6, 5, 3}. Здесь Мо1 = 5, а Мо2 = 3.
Бимодальное или полимодальное распределение могут рассматриваться как признак неоднородности выборки. Например, школьный класс образован в результате механического слияния двух разных классов, и показатели мод интеллекта были изначально различны. После слияния в объединенной выборке профиль интеллекта будет иметь 2 моды.
Существует несколько приближенных способов оценки моды. Один из них состоит в том, что гистограмма тем или иным способом аппроксимируется непрерывной кривой, и затем находится абсцисса, соответствующая максимальной ординате. Она и будет приближенно равна моде.
В симметричных распределениях х, Mo, Md совпадают, в умеренно асимметричных распределениях Md находится между х и Мо на расстоянии от х, равном примерно одной третьей расстояния от х до Мо. На этом и построено приведенное ниже эмпирическое соотношение:
Mo = x-3*(x-Md).