Непараметрические критерии
Непараметрические методы обладают меньшей чувствительностью, чем параметрические. Применение рассмотренных в предыдущем разделе параметрических критериев было связано с целым рядом допущений. Например, сравнивая выборочные средние значения с помощью t-критерия, принимались следующие предположения: обе выборки являются случайными, т. е. каждая из них получена в результате независимых измерений; обе выборки получены из генеральных совокупностей, имеющих нормальное распределение; дисперсии генеральных совокупностей равны между собой.
На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающей из-за нарушения принятых допущений. В математической статистике в этом случае применяются непараметрические методы, применение которых зависит от меньшего числа допущений.
Условия применения непараметрических методов: 1) несоответствие распределения значений в генеральной выборке нормальному закону; 2) слишком малая выборка, чтобы судить о законе распределения; 3) невыполнение требования о гомогенности дисперсии при сравнении средних значений для независимых выборок; 4) наличие в выборке выбросов (экстремально больших или экстремально малых значений).
Важную группу непараметрических критериев составляют ранговые критерии. Ниже рассматриваются некоторые из ранговых критериев. Но предварительно следует познакомиться с понятием «ранг», играющим здесь ключевую роль.
Ранги
Ранжированная выборка получается, если расположить выборочные данные в порядке возрастания или убывания. Рангом выборочного значения называется порядковый номер этого значения. Ранг однозначно определен порядковым номером, если в выборке нет совпадающих значений. Если же они есть, то их ранги определяются как среднее арифметическое порядковых номеров совпадающих значений. Рангами могут быть представлены данные, выраженные в порядковой шкале, в том числе результаты наблюдения качественных признаков, когда невозможно измерить точное численное значение признака, но можно определить очередность значений по принципу «больше-меньше» (например, места в спортивных состязаниях, результаты судейства в баллах, оценки за экзамен и т. п.).
Пример. Получена выборка (n = 10), после ранжирования она выглядит следующим образом: | Номер п/п | ||||||||||
xi | |||||||||||
R | 8,5 | 8,5 |
Значения с порядковыми номерами 3, 4, 5 и 8, 9 совпали, поэтому их ранги R определяются как R = (3 + 4 + 5)/3 = 4 и R = (8 + 9)/2. Таким образом, ранг не обязательно будет целым числом.
Сравнение двух независимых выборок (критерий U-Манна-Уитни)
Считается, что критерий U-Манна-Уитни самый простой ранговый критерий (в отечественной литературе этот критерий иногда называют также критерий Вилкоксона для независимых выборок или критерием Уайта).
Применение критерия U-Манна-Уитни основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей X и Y никак не оговаривается. Допущение о непрерывности распределений может быть принято, когда исследуемый признак имеет большое число возможных градаций. Гипотеза Но: F(x) = F(y) – это утверждение о том, что функции распределения обеих генеральных совокупностей одинаковы. Иначе говоря, обе выборки получены из одной и той же генеральной совокупности и эффект обработки отсутствует.
Поясним это более подробно. Поскольку функции распределения F(х) и F(у) равны, то, следовательно, равны и характеристики положения этих распределений (среднее значение и медиана). Поэтому, если эффект оценивается по различию средних арифметических двух выборок, то нулевую гипотезу можно было бы записать в виде Но: μx = μy. В этом случае критерий U-Манна-Уитни является непараметрическим аналогом t-критерия для независимых выборок.
Ниже рассматривается применение критерия U-Манна-Уитни на конкретном примере.
´Задача 2.25[17]. Результаты в беге на 100 м контрольной и экспериментальной групп студентов вузов на занятиях по физической культуре:
КГ | xi | 12,6 | 12,3 | 11,8 | 12,1 | 12,8 | 13,2 | 13,8 | 12,8 | 12,6 | 13,0 |
ЭГ | yi | 11,3 | 12,8 | 12,2 | 11,7 | 12,4 | 13,3 | 11,4 | 12,0 | 11,8 | 12,5 |
Номер | xi yi | Ri | Объем выборки для контрольной группы – nх = 10 и для экспериментальной – nу = 10. Проверим гипотезу Но: Мех = Меy против двусторонней альтернативы Н1: Мех=Mеу. Уровень значимости р = 0,05. Порядок применения критерия U-Манна-Уитни: 1. Объединяем обе выборки в одну. Объем объединенной выборки будет n = nх+ nу = 20. 2. Ранжируем объединенную выборку, располагая данные в порядке возрастания. При этом отмечаем полужирным шрифтом данные, относящиеся к одной из выборок (все равно какой), например, КГ. 3. Находим ранги Ri объединенной выборки. Отмечаем ранги, относящиеся, например, к КГ. 4. Суммируем по отдельности ранги, относящиеся к первой и второй выборкам, т. е. находим суммы рангов: RX = ΣRXi = 127,5; RY = ΣRYi = 82,5. RX + RY = 127,5 + 82,5 = 210. |
11,3 | |||
11,4 | |||
11,7 | |||
11,8 | 4,5 | ||
11,8 | 4,5 | ||
12,0 | 6,5 | ||
12,0 | 6,5 | ||
12,1 | |||
12,2 | |||
12,3 | |||
12,4 | |||
12,5 | |||
12,6 | 13,5 | ||
12,6 | 13,5 | ||
12,8 | 15,5 | ||
12,8 | 15,5 | ||
13,0 | |||
13,2 | |||
13,3 | |||
13,8 |
Для проверки правильности этих операций можно использовать тот факт, что сумма всех рангов: RX + RY = n(n + 1)/2 = 20(20+1)/2 = 210.
5. Меньшую из сумм рангов (в данном случае RY = 82,5) принимаем в качестве значения критерия U-Манна-Уитни.
6. Из П 3.6 находим критическое значение критерия U-Манна-Уитни при уровне значимости p = 0,05 и при объемах выборки n1 = 10 и n2 = 10: Up = 78.
7. Вывод: если U ≤ Up различие считается статистически значимым на уровне значимости p (нулевая гипотеза отбрасывается). В противном случае различие статистически незначимо, как в данном случае: 82,5 ≥ 78.
Сравнение двух связанных выборок
(критерий W-Вилкоксона)
Критерий W-Вилкоксона для связанных выборок является непараметрическим аналогом t-критерия.
´Задача 2.26[17]. У группы школьников (n=10) до (xi) и после (yi) пребывания в спортивном лагере измеряли жизненную емкость легких (ЖЕЛ)
Номер п/п | xi мл. | yi мл. | di = xi – yi | R1 | Ранги │di│ | 1. Отбрасываем пары с одинаковыми значениями xi и yi; для дальнейших расчетов объем выборки сокращаем на число отброшенных пар. 2. В нашем примере отбрасывается пара номер 7, и объем выборки станет n = 10 – 1 = 9. 3. У оставшихся пар вычисляем разности di = xi – yi. 4. Находим ранги R |di| абсолютных значений разностей di. | |
3 400 | 3 800 | –400 | 2,5 (+) | ||||
3 600 | 3 700 | –100 | –100 | 2,5 (–) | |||
3 000 | 3 300 | –300 | –100 | 2,5 (–) | |||
3 500 | 3 600 | –100 | –100 | 2,5 (–) | |||
2 900 | 3 100 | –200 | –200 | 5,5 (–) | |||
3 100 | 3 200 | –100 | –200 | 5,5 (–) | |||
3 200 | 3 200 | –300 | 7,5 (–) | ||||
3 400 | 3 300 | –300 | 7,5 (–) | ||||
3 200 | 3 500 | –300 | –400 | 9 (–) | |||
3 400 | 3 600 | –200 |
5. Отмечаем ранги, относящиеся к положительным и отрицательным значениям разностей.
6. Находим по отдельности суммы рангов отрицательных, и положительных разностей R (–) и R (+). Суммы рангов: R (+) = 2,5; R (–) = 42,5.
7. Контроль: R (+) + R (–) = 2,5 + 42,5 = 9(9 + 1)/2 = 45.
8. Меньшую из сумм рангов принимаем в качестве значения критерия W. Для нашего примера W = R (+) = 2,5.
9. Из П 3.7. находим критическое значение Wp критерия W-Вилкоксона при уровне значимости p =0,05 и n =10, W =7.
10. Вывод: если W< Wp, то Н0 отбрасывается и различие связанных выборок является статистически значимым на уровне значимости р. В противном случае различия статистически незначимы. Для нашего примера W < W0,05, поэтому различия статистически значимы на уровне значимости p ≤ 0,05.
Оценка связи
Силу связи между двумя переменными можно определить с помощью коэффициента корреляции (r). Имеется несколько различных формул для вычисления корреляции. Наиболее распространенный метод вычисления корреляции – корреляция как произведение моментов Пирсона, которая требует интервальных или относительных данных для каждой переменной. Однако если хотя бы одна из переменных порядковая, для определения меры связи необходимо использовать ранговый (порядковый) коэффициент корреляции Спирмена (rs) – непараметрический статистический показатель.
Дата добавления: 2020-10-25; просмотров: 655;