Критерий значимости
Понятие гипотез
Гипотеза — определенное представление или предположение относительно объективных свойств изучаемого явления.
Нулевая гипотеза – гипотеза, имеющая в данном случае особенно важное значение, называется нулевой или основной.
Гипотеза обычно обозначается через Н, нулевая гипотеза через Н0.
Если закон распределения задан отдельными параметрами и гипотеза строится именно по этим параметрам (закон распределения рассматриваемых случайных величин предполагается известным), то говорят о параметрических гипотезах. Например, какое-либо допущение о неизвестном параметре распределения а закона Пирсона III типа является параметрической гипотезой. Символически ее можно записать так
Н0 : a =c, (6.1)
где с — предполагаемое действительное значение параметра а.
Статистические гипотезы, в основе которых лежит предположение о конкретном виде распределения, называются непараметрическими. Символически эти гипотезы записываются в следующем виде:
H0: F(x) = Fc(x). (6.2)
Непараметрические гипотезы являются более общими, чем параметрические. Более общими и менее эффективными являются и методы их проверки.
Рассмотрим принципиальную схему статистической проверки гипотез на примере параметрической гипотезы.
Проверка как параметрических, так и непараметрических гипотез чаще всего основывается на использовании хорошо изученных законов распределения некоторых статистик. Например, нормированная разность средних значений рядов Y и X, соответственно и
(6.3)
где – среднее квадратическое отклонение разности , подчиняется закону распределения Стьюдента–Госсета (см. раздел 6.5). С помощью этого закона в данном случае можно определить вероятность равенства действительных значений математического ожидания сопоставляемых выборок Y и X
Таким образом, применение нулевой гипотезы H0:a=с позволяет воспользоваться известным распределением выборочных оценок статистики с и по этому распределению оценить вероятность при условии, что а = с.
Сразу отметим, что в данном случае закон распределения выборочных значений известной статистики с является тойдополнительной информацией, которую получают за счет использования нулевой гипотезы.
Пусть, например, имеются предположения, что математические ожидания рядов Х1 и Х2 (соответственно т1 и т2) совпадают с математическим ожиданием генеральной совокупности X mx = 200 м3/с, т. е.
H01 : m1 =mx = 200 м3/с;
H02 : m2 =mx = 200 м3/с.
Продолжительность периода наблюдений по рядам Х1 и Х2: n1 = n2 = 100 лет. Ряды Х1, Х2 и генеральная совокупность подчиняются нормальному закону распределения. Известно также, что σ1= σ2= σx= 100 м3/с, , . Оценим насколько верны эти гипотезы.
Если эти гипотезы верны, то учитывая одинаковый закон распределения сопоставляемых рядов Х1, Х2, X и равенство средних квадратических отклонений, принимаем, что функции распределения (обеспеченности) средних столетних значений по названным рядам одинаковы, т. е. . Тогдапо функции распределения можно оценить вероятность значений , больших или равных и . Координаты кривой обеспеченности нормального закона распределения заданы в нормированном виде (6.3)
где . Находим теперь t no = 230 м3/с и = 210 м3/с. Получаем = 3,0, 2=1,0 и находим вероятность их превышения по заданным координатам:
,
.
Таким образом, при условии, что тх = 200 м3/с вероятность получить выборочное значение составляет всего 0,11 %, т.е. очень мала. Получить событие с такой вероятностью в одном испытании практически невозможно. А так как оно получено, то, по-видимому, неверно рассчитана его вероятность. В свою очередь вероятность события вычислялась на основе гипотезы Н01. Все это позволяет нам утверждать, что сама гипотеза неверна.
Вероятность получить выборочное значение 2 =210 м3/с составляет 16 %, т. е. достаточно велика, опровергать гипотезу у нас нет оснований. С другой стороны, это еще не означает, что гипотеза верна, так как вероятность события 16 % недостаточна для такого утверждения.
В данном случае бы рассмотрен простейший случай проверки статистической гипотезы, когда сам процесс проверки и интерпретации ее результатов не вызывали особых трудностей. Во многих случаях проверка гипотез имеет гораздо более сложный характер, тогда необходимо создание специальных правил проверки гипотез.
Правило, согласно которому проверяемая гипотеза Hо принимается или опровергается, называется статистическим критерием или просто критерием проверки гипотез.
В заключение необходимо еще раз подчеркнуть причину широкого использования гипотез и в быту и в науке. Основная причина – гипотеза, верная а часто и неверная, дает дополнительную информацию. В приведенном выше примере дополнительной информацией является распределение выборочных значений математического ожидания относительно действительного значения.
Критерий значимости
При проверке статистических гипотез часто встает вопрос о том, мала или нет вероятность рассматриваемого события в предположении, что гипотеза верна. Заслуживающие доверия ответы на этот вопрос даются при помощи критериев значимости, основанных на законах распределения различных статистик.
Критерии значимости применяются для определения, будут ли некоторые статистики, характеризующие расхождение значений случайных величин, отличаться друг от друга или от других статистик более, чем можно было бы ожидать в связи со случайными колебаниями выборочных оценок. Если сравниваемые величины отличаются друг от друга более, чем это можно разумно приписать их случайной вариации, то разность между ними называется значимой или существенной. В противном случае разность называется несущественной или случайной.
Граница между вероятностью существенного и несущественного различия называется уровнем значимости
и обозначается, например, через α. Если вероятность полученной статистики равна или меньше уровня значимости, то гипотеза опровергается. Можно дать другое определение:
Уровень значимости – это вероятность, события, которой решено пренебречь в данной области исследований.
Типичный смысл уровней значимости заключается в следующем. Пусть уровень значимости а равен пяти процентам. Тогда, в предположении, что нулевая гипотеза верна, появление значений статистики, больших, чем при уровне значимости а, можно ожидать не более чем 5 раз на 100 испытаний. Появление такого события в одном испытании практически невозможно.
Значения статистики, при которых гипотеза опровергается, т.е. вероятность которых меньше заданного уровня значимости а, образуют критическую область проверяемой гипотезы.
Значения статистики, при которых гипотеза не опровергается, образуют доверительную область.
Границы между критической и доверительной областью называются доверительными границами.
Задача проверки гипотезы сводится к построению критической области рассматриваемой статистики для данного уровня значимости (рис. 6.1). Если статистика попадает в критическую область, то этот факт указывает на несоответствие гипотезы наблюденным данным, и гипотеза опровергается.
Дата добавления: 2020-10-25; просмотров: 326;