Выбор закона распределения. Постановка задачи


 

В гидрометеорологических исследованиях используется целая группа законов распределения и созданных на их основе кривых обеспеченностей. Из них наибольшее распространение получили кривые обеспеченностей нормального закона распределения; распределения Пирсона III типа, Крицкого-Менкеля, Гумбела, Джонсона; логарифмически нормального закона и некоторых других. Описание этих законов распределения и кривых обеспеченностей дано в главе 4.

По имеющемуся ряду наблюдений необходимо выбрать один из перечисленных законов распределения. Однако для объективного суждения о лучшем или худшем соответствии того или иного закона распределения имеющимся данным наблюдений, особенно при ограниченном объеме выборок, необходимо иметь какой-то количественный показатель, который измерял бы степень случайного расхождения (или согласия) между наблюденным рядом и предполагаемым распределением случайной величины в целом. Такой показатель также, очевидно, должен являться случайной величиной.

Подобные показатели, называемые критериями соответствияили критериями согласия, представляют собой определенную меру расхождения между теоретическим (или гипотетическим) и эмпи рическим распределением и основаны на непараметрической гипотезе вида (6.2). Если расхождение в рассматриваемом случае превосходит установленный предел, то гипотеза опровергается.

Имеется несколько видов критериев согласия, используемых в различных ситуациях.

6.4.2. Критерий согласия Колмогорова

 

В качестве показателя степени согласия эмпирической и теоретической Р(х) кривых обеспеченностей принята величина

 

(6.4)

 

где – наибольшая разность значений эмпирической и теоретической обеспеченности:

 

(6.5)

( и Р(х) — в долях единицы). Очевидно, что , являющееся функцией случайной величины , также представляет собой значение случайной величины. Предельное распределение этой величины вне зависимости от гипотетического распределения, для условия, когда нулевая гипотеза верна, было установлено А. Н. Колмогоровым в следующем виде:

 

(6.6)

Отсюда при достаточно больших п вероятность получить значение , большее, чем λ, равна 1 — k (λ), т. е.

 

(6.7)

 

Значения вероятностей превышения -Р =1k(λ) для случая, если гипотеза (6.3) верна, табулиро­ванны [ ]. Задавая уровень значимости α = Р = 1- k(λ), можно по значению 1- k(λ) определять критические значения λα. Если рассчитанное значение больше критического при данном уровне значимости, то гипотеза H0 опровергается, расхождение эмпирического и гипотетического распределения считается существенным.

Если обеспеченность значения по кривой обеспеченностей λα = f (1-k(λ)) меньше, чем 1% и 0,1 %, то расхождение считается весьма существенным. В противном случае, т. е. , гипотеза не опровергается, но это еще не значит, что она доказана.

На основании формул (6.5) и (6.6) может быть получена формула для доверительных границ относительно гипотетического закона распределения в точке

(6.8)

Если рассчитанное значение попадает в доверительный интервал, то гипотеза (6.2) не опровергается, если это значение попадает в критическую область, то гипотеза опровергается.

Практическое применение критерия согласия Колмогорова для оценки правильности гипотезы H0 состоит в следующем:

1) для отдельных значений ряда xi (i=1, 2, . . , п), расположенных в убывающем порядке, определяются (в долях единицы) эмпирические обеспеченности;

2) для этих же значений определяются обеспеченности по предполагаемой теоретической кривой обеспеченности

3) находится наибольшее значение разности [ формула (6.4)] и

4) по кривой обеспеченностей или таблице значений определяется обеспеченность рассчитанного значения . Если <α, то гипотеза H0 опровергается, в противном случае не опровергается.

Критерий согласия Колмогорова, как следует из формулы(6.5), предназначен для случая, когда п достаточно велико. Однако исследования, выполненные в последнее время, показали, что распределение статистики уже при п≥ 20 практически не зависит от п.

При небольших значениях п необходимо учитывать следующие обстоятельства

1) критерий согласия , определенный фактически по одной точке, в некоторых случаях может не отражать общую согласованность эмпирического и теоретического распределения;

2) наибольшее значение , как правило, отмечается в средней части кривой обеспеченностей. Однако именно в этой части почти все кривые обеспеченностей, используемые в практике, достаточно хорошо совпадают. Поэтому суждение о совпадении теоретических и эмпирических кривых обеспеченностей в краевых частях (именно это и нужно для практических расчетов) на основании критерия Колмогорова следует выносить очень осторожно.

 

6.4.3. Критерий согласия Пирсона P[χ2]

Для оценки согласия эмпирических данных (x1, х2,…, хп) и предполагаемого закона распределения используется расхождение между эмпирической и теоретической Р(х) вероятностью отдельных значений или интервалов значений случайной величины.

Если число значений дискретной случайной величины X ограничено 1, ξ2,…,ξk) и каждое ξj (j=1, 2, …, k) встречается в выборке (имеющегося ряда наблюдений) не менее 5 раз, то расчеты критерия согласия производятся по вероятности, эмпирической и теоретической, каждого значения ξj.

Если X является непрерывной случайной величинойили возможное число значений X велико так, что каждое или некоторые значения ξ встречаются менее 5 раз, то необходимо использовать метод группировки данных и перейти к рассмотрению дискретной системы, в которой рассматриваются вероятности отдельных интервалов значений X.

Пусть имеется выборка x1, x2, ..., хп. Значения выборки оформлены в виде статистического ряда распределения (см. разд. 4.3), в котором указаны эмпирические вероятности (относительная частота) отдельных значений или интервалов значений X. (Отдельные значения или интервалы значений X здесь и дальше обозна­чим через ζj (j=1, 2, …, k), через k- число отдельных значений или интервалов значений). Здесь же приводятся вероятности значений ζ j, определенные по предполагаемому теоретическому закону распределения.

В качестве меры расхождения между теоретической и эмпири­ческой вероятностью принимается сумма квадратов отклонений взятых с некоторыми весами Сj:

 

(6.9)

 

Веса Cj вводятся потому, что в общем случае относящиеся к различным разрядам отклонения нельзя считать равноправными по значимости. Действительно, одно и то же ∆Pj может быть малозначительным, если сама вероятность Pj(ζ) велика, и очень за­метным, если она мала. Поэтому естественно, что Сj берутся об­ратно пропорциональными Pj(ζ). Пирсон показал, что закон распределения

 

 

если нулевая гипотеза верна, обладает рядом интересных свойств: он практически не зависит от закона распределения X и от числа опытов п, а зависит только от числа к. При больших значениях п этот закон приближается к так называемому распределению χ2, т. е. можно принять, что

 

(6.10)

 

Распределением χ2 с v степенями свободы называется распределение суммы квадратов v независимых нормированных случайных величин, каждая из которых подчинена нормальному закону распределения с математическим ожиданием, равным нулю, и дисперсией, равной единице. Это распределение характеризуется плотностью вероятностей

 

(6.11)

 

где v —число степеней свободы

(6.12)

Г (v/2) —значение гамма-функции (см. гл. 4).

На основе формул (6.11) и (6,12) составлены таблицы значений χ2 для различных значений обеспеченности и числа степеней свободы (см., например, работу [ ], прилож. ). По этой таблице можно определить вероятность события , где χ2 – значение, рассчитанное для данной нулевой гипотезы. Если вероятность ока­жется меньше заданного уровня значимости, то гипотеза опровергается. Аналогично можно сравнивать рассчитанное значение χ2 с табличным при данных v и α. Если , то гипотеза опровергается.

Для обоснованного применения критерия согласия χ2 необходимо иметь ввиду, что при выводе закона распределения χ2 пред­полагается, что биномиальное распределение частоты превышения может быть сведено к нормальному. Однако соответствую­щий предельный переход осуществляется достаточно быстро, если ни одна из вероятностей или Pi(x) не очень мала. Поэтому при практическом применении критерия согласия Р (χ2) необходимо частоты крайних разрядов, представляющих обычно малые числа, объединять между собой.

Считается, что использование распределения χ2 в качестве критерия согласия возможно только в тех случаях, когда длина вы­борки п ≥ 50, а частота отдельных значений или интервалов значений X (в том числе полученная за счет объединения крайних интервалов) не меньше 5.

Недостатком метода является то, что группировка данных по интервалам в случае непрерывной случайной величины или большого числа возможных ее значений приводит к некоторой потере информации. Кроме того, элементы неопределенности и возможной неоднозначности решений вносятся при назначении числа ин­тервалов и длины самих интервалов.

К достоинствам критерия χ2 следует отнести универсальность — независимость от закона распределения; возможность использования для данных нечислового характера; состоятельность.

В некоторых случаях, для оценки согласия законов распределения по критеоию Пирсона можно воспользоваться предложением В. А. Романовского. Он предложил простое правило, в значитель­ной степени облегчающее применение критерия согласия Пирсона. Это правило основывается на том, что

 

(6.13)

 

и вероятность значений χ2, отклоняющихся от М(χ2), меньше, чем на 3 , т. е. на 3 в ту или другую сторону, близка к единице. Отсюда, если

  (6.14)

то расхождение можно считать существенным, гипотеза опровергается, в противном случае — гипотеза не опровергается (при уровне значимости 0,3 %).

 

 

6.4.4. Критерий согласия пω2

Критерий согласия пω2 в отличие от критерия χ2 основывается на оценке расхождения обеспеченностей непосредственно наблюденных (несгруппированных) значений рассматриваемой величины X.

Расчет критерия пω2 производится по формуле

 

(6.15)

 

где

, (6.16)

и Pi — соответственно значения обеспеченности по эмпирической и предполагаемой теоретической кривым обеспеченностей для каждого данного хi (i =1, 2, …, п). Математическое ожидание и дисперсия пω2 равны:

 

(6.17)

(6.18)

 

В случае, если гипотеза верна, при увеличении числа опытов ω2 сходится к нулю, а 2 к 1/6 и при п ≥40 распределение про­изведения 2 2 близко к некоторому предельному распределению, для которого определены верхние доверительные границы крите­рия 2 (табл. 6.1).

 

Таблица 6.1 – Значения верхних доверительных границ критерия 2 в зависимости от уровня значимости α, %.

α 0,1
2 0,2412 0,3473 0,4614 0,5489 0,6198 0,7435 1,168

 

Для оценки гипотезы о законе распределения при использовании критерия 2 необходимо:

1) ранжировать исходный ряд в убывающем порядке;

2) рассчитать эмпирические обеспеченности X по формуле (6.18);

3) определить обеспеченности значений xi по предполагаемому закону распределения;

4) рассчитать критерий 2;

5) сопоставить рассчитанное значение 2 с критическим 2α при данном уровне значимости а. Если то гипотеза (6.2) о согласии кривых обеспеченности опровергается.

Критерий 2 обладает рядом преимуществ по сравнению с критерием χ2. Во-первых, при его применении полнее используется информация, заключающаяся в данных выборки, так как его расчет основывается на анализе непосредственно наблюденных величин. Во-вторых, его распределение значительно быстрее схо­дится к предельному закону, особенно при больших значениях 2.

 



Дата добавления: 2020-10-25; просмотров: 386;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.025 сек.