Проверка гипотез с помощью непараметрических критериев


При решении многих теоретических и прикладных вопросов лингвистики, возникает необходимость рассмотреть характер распределения лигвистической генеральной совокупности. Эта задача решается путём проверки статистических гипотез о тождестве двух эмпирических распределений или об идентичности эмпирического и теоретического распределения. Для проверки непараметрических гипотез могут применяться различные критерии: критерий Пирсона, критерий Колмогорова-Смирнова, критерий асимметрии и эксцесса, графический способ, упрощённые критерии (критерий Романовского, числа Вестергарда, вариационная сетка Турбина) и т п.

Критерий Пирсона

Критерий Пирсона – наиболее часто употребляемый критерий для проверке гипотезы о законе распределения. Критерий основан на оценке отклонений эмпирических частот ni от теоретических . Выборочное значение критерия, вычисляемое на основе выборочных данных, находится по формуле , где – теоретическая вероятность попадания значений нормально распределённой случайной величины в i-тый интервал.

Пример: Статистическое распределение средних длин словоупотреблений 100 языков мира задано интеральным статистическим рядом:

[2,6;3,4)   [3,4;4,2)   [4,2;5,0)   [5,0;5,8)   [5,8;6,6)   [6,6;7,4)   [7,4;8,2)   [8,2;9,0)  

Можно ли среднюю длину словоупотребления использовать в качестве статистической характеристики для различения языков мира?

Если вариационный ряд средних длин словоформ близок к нормальному распределению, то средние длины словоформ плотнее группируются вокруг средней, задаваемой возможностями оперативной памяти человека. Отклонение от этой средней в каждом конкретном языке будет рассматриваться как результат случайных воздействий.

Для проверки степени соответствия полученного статистического распределения теоретическому нормальному закону воспользуемся критерием Пирсона.

1. Сформируем основную гипотезу H0: распределение средних длин словоформ можно считать нормальным. Тогда альтернативной будет гипотеза H1: распределение средних длин словоформ существенно отличается от нормального.

2. Необходимым условием применения критерия Пирсона является наличие в каждом из интервалов не менее 5 наблюдений. Так как число наблюдений в крайних интервалах меньше 5, объединим в статистическом ряде два первых и три последних интервала:

Интервалы [2,6;4,2) [4,2;5,0) [5,0;5,8) [5,8;6,6) [6,6;9,0)
частота ni

3. Для дискретного статистического ряда, значениями которого являются середины интервалов, определимсреднее значение выборки ; ; и исправленное среднее квадратическое отклонение , S=1,11.

4. Так как нормально распределённая случайная величина определена на (-∞;∞), заменим крайние интервалы на интервалы (-∞;4,2) и [6,6;∞):

(-∞;4,2) [4,2;5,0) [5,0;5,8) [5,8;6,6) [6,6;∞)

5. Вычислим теоретические вероятности попадания значений нормально распределённой случайной величины вполученные интервалы по формуле где интегральная функция Лапласа, значения которой находим в таблице. При выполнении вычислений принимаем параметры теоретического распределения равными их оценкам, найденным по выборке, т.е. . Расчёты оформим в виде таблицы:

(-∞; 4,2) [4,2; 5,0) [5,0; 5,8) [5,8; 6,6) [6,6; ∞)
эмпир. частота
теор. вероятность 0,125 0,212 0,285 0,229 0,149
теоретич. частота 12,5 21,2 28,5 22,9 14,9

 

6. Вычислим выборочное значение критерия 7. Выберем уровень значимости α =0,05. Рассчитаем k – число степеней свободы: k= m-r-1, k= 5-2-1, k= 2 (r - число параметров предполагаемого распределения, m – число интервалов). По таблице распределения находим критическую точку (квантиль) .

8. Так как < , то гипотеза H0 принимается, т.е. распределение средних длин словоформ языков мира можно считать нормальным

Ответ. Средняя длина словоформ не может считаться параметром для различения языков мира.

 

Часть 2. Вопросы и задания для практических работ.



Дата добавления: 2016-06-05; просмотров: 2116;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.008 сек.