Эмпирическая (статистическая) функция распределения и функция обеспеченности
Эмпирическая (статистическая) функцией распределения F(X) случайной величины X – закон изменения частоты события X < х в данном статистическом материале (выборке)
(3.70)
где =т/п— частота события X < х; т — число событий X < x в данной выборке.
В практике часто (см. разд. 3.1.3) используется обратное соотношение X и х. Преобразованная таким образом функция называется эмпирической функцией обеспеченности:
(3.71)
где — вданном случае частота событий X х.
Графическое изображение эмпирической функции обеспеченности называется эмпирической кривой обеспеченности ( рис. 3.6 б).
При п→∞ эмпирическая обеспеченность сходится по вероятности к действительному значению обеспеченности Р [см. формулу (3.66)], где Р — вероятность события X < х или X ≥ х и, следовательно, (х) сходится к F(x) и (х) к Р(х).
Из формулы (3.71) следует, что для расчета эмпирической функции обеспеченности необходимо для каждого данного значения случайной величины ζj (j = 1, 2, .. ., k) сосчитать число опытов mj в которых случайная величина X приняла значение большее или равное ζj, и разделить на общее число опытов п.
В табл. 3.4 представлен расчет эмпирической функции обеспеченности. В верхней строке таблицы указана нижняя граница этой группы, затем число случаев т, когда значения X больше или равны нижней границе интервала. В нижней строке по формуле (3.71) дана частота события X ≥ х. По данным этой таблицы построен график эмпирической функции обеспеченности (см. рис. 3.6.в).
Таблица 3.4.
Расчет эмпирической функции обеспеченности измеренных значений БПК5 в мг/л , река Великая, г.Псков, верхний створ, за период наблюдений с 1995 по 1998 г.
Нижняя гра-ница группы | 0,6 | 1,1 | 1,6 | 2,1 | 2,6 | 3,1 | 3,6 | 4,1 |
m | ||||||||
0,82 | 0,50 | 0,35 | 0,22 | 0,12 | 0,08 |
Однако построения на основе статистической совокупности дают удовлетворительные результаты только в том случае, когда имеющийся объем выборки достаточен для детального освещения частоты каждого интервала значений. Как отмечалось выше, для этого требуется, чтобы в каждом интервале было не менее семи-восьми точек наблюдений. Продолжительность рядов обычно недостаточна для таких построений. Кроме того, в большинстве случаев потребителей интересует обеспеченность экстремальных значений гидрологических характеристик, а при построении указанным способом эти данные получить невозможно. Поэтому в практике для расчета эмпирической кривой обеспеченности применяется другой прием, заключающийся в ранжировании исходного ряда наблюдений путем расположения его значений в убывающем порядке. При этом принимается, что каждое значение ряда представляет собой определенную группу, частота которой pi равна 1/п. Тогда эмпирическая обеспеченность может быть определена так же, как и в предыдущем случае, путем последовательного суммирования от наибольшего (первого) члена к интересующему нас m-ому значению ранжированного ряда (см. табл. 4.3), т. е.
(3.72)
В гидрологии широко распространилось мнение, что формула (3.72) верна только в том случае, если все возможные значения представлены в данной выборке. Иначе, при оценке по эмпирическим данным в краевых частях распределения возможны большие погрешности. Так, по формуле (3.72) эмпирическая обеспеченность минимального значения ряда Рт=п = 1. Отсюда вероятность значений, меньших минимального, за период наблюдений равна 0. Таким образом, из формулы (3.72) следует, что получить значение X, меньшее, чем наблюденное, невозможно[1], Однако опыт показывает, что какие бы значения, например стока, не отмечались в прошлом, в будущем возможны значения меньше наблюденных, В связи с этим для расчетов эмпирической обеспеченности был предложен ряд приближенных формул, более полно, по мнению авторов, учитывающих особенности гидрологической информации:
формула Хазена
(3.73)
формула Крицкого—Менкеля
(3.74)
формула Чегодаева
(3.75)
Формула Хазена основывается на предположении о том, что обеспеченность каждого интервала значений переменной величины можно отнести к середине этого интервала. Формула Крицкого—Менкеля основывается на представлении, что наиболее надежное значение эмпирической обеспеченности отвечает среднему значению эмпирических обеспеченностей заданной величины по множеству выборок. Если исходить из того, что рассматриваемая выборка занимает медианное положение среди других выборок, то получаем формулу Чегодаева.
Перечисленные формулы в средних частях кривых обеспеченностей дают практически одинаковые результаты, существенные расхождения отмечаются в верхней и нижней части этих кривых.
При этом формула (3.73) дает по сравнению с другими формулами в верхней части кривой обеспеченности при той же обеспеченности завышенные значения Х Формула (3.74) дает заниженные значения Х при той же обеспеченности. Наконец медианная формула (3.75) дает значения Х в верхней части близкие к значениям, вычисленным по формуле Хазена.
Дискуссия о применении различных формул эмпирической обеспеченности продолжалась довольно длительное время (см. работы С. Н. Крицкого и М. Ф. Менкеля, Г. А. Алексеева, В. Ф. Крюкова, Е. Г. Блохинова, Ю. Б. Виноградова и других авторов).
В этой связи можно отметить, что при оценке эмпирической обеспеченности возможны две ситуации.
1. Имеется только ряд значений X (x1, х2, ..., хп). Какая-либо другая информация отсутствует.
Тогда, по-видимому, расчеты эмпирической обеспеченности необходимо производить по формуле (3.72). Действительные значения Р(х) определяются с помощью доверительных интервалов на основе теорем Гливенко и Колмогорова (см. гл. 6). Какие-либо другие паллиативные решения могут только увеличить погрешность расчетов.
2. Имеется ряд значений X. Также известно, что, по крайней мере, одно из возможных значений X может быть меньше имеющихся.
В этом случае вариационный ряд представляется в виде
где x1, х2,…, xn - имеющиеся значения ряда X; хп+1 — член ряда X, относительно которого известно только что хп+1 ≤ хп, и для расчета эмпирической обеспеченности может быть использована формула (3.74).
Однако принимать формулу (3.74) в качестве основной было бы неверно, в частности, в некоторых случаях наблюденное значение хп может быть равно 0. Тогда формула (3.74) теряет всякий смысл.
При использовании эмпирических обеспеченностей необходимо учитывать их выборочный характер, особенно при небольших п. Так, например, эмпирическая обеспеченность наиболее высокого максимума максимального стока р. Зеи у г. Зея за маловодный десятилетний период 1901 — 1910 гг., равный 5440 м3/с, составляет по формуле (3.75) 6,7 %. За период 1901 — 1920 гг. обеспеченность этого максимума составляет 30,9%, а за период 1901 — 1958 гг уже 41,0%.
Таким образом, для анализа эмпирического материала используются три вида табличных и графических построений: статистический ряд, гистограмма, эмпирическая функция распределения. Эти построения дают достаточно наглядное представление о характере имеющегося материала и позволяют выявить некоторые важные особенности исследуемой величины.
Литература
26. Смирнов Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики. М.: Наука, 1969. 511 с.
Вентцель Е.С.
[1] Сам по себе этот вывод недостаточно обоснован, так как эмпирическая обеспеченность только по вероятности сходится к обеспеченности [см. формулу (3.68)].
Дата добавления: 2020-10-25; просмотров: 753;