Элементы теории корреляции.


 

Между различного рода признаками, случайными величинами практически всегда существует взаимосвязь. Только иногда эту связь мы замечаем, но в большинстве случаев эти взаимосвязи ускользают от нашего внимания.

В одних случаях получается функциональная связь, когда между признаками и существует однозначная зависимость: . Например , и т.д.

В других случаях получается корреляционная зависимость, когда одному значению признака соответствуют несколько значений признака . То есть здесь мы имеем дело со статистической связью. Например, связь между ростом человека и его весом, связь между стажем работника и качеством его труда и т.д.

Корреляционная связь между признаками может быть линейной и нелинейной, положительной и отрицательной. Задача корреляционного анализа сводится к установлению формы и направления связи между признаками, измерению ее тесноты и к оценке достоверности выборочных коэффициентов корреляции.

Корреляционным моментом случайных величин и называют математическое ожидание произведения отклонений этих величин от своих математических ожиданий:

Корреляционный момент служит для характеристики связи между величинами и .

Корреляционный момент равен нулю, если и независимы, следовательно, если корреляционный момент не равен нулю, то и — в какой-то степени зависимые случайные вели­чины.

Теорема 1. Корреляционный момент двух независимых случайных величин и равен нулю.

Доказательство: т.к. и — независимые случайные величины, то их отклонения от своих математических ожиданий и также независимы. Пользуясь свойствами ма­тематического ожидания (математическое ожидание про­изведения независимых случайных величин равно произ­ведению математических ожиданий сомножителей) и отклонения (математическое ожидание отклонения равно нулю), получим

Из определения корреляционного момента следует, что он имеет размерность, равную произведению размер­ностей величин и , т.е. величина корреляционного момента зависит от единиц измерения случайных величин. Поэтому для одних и тех же двух величин величина корреляционного момента имеет различные значения в зависимости от того, в каких еди­ницах были измерены величины.

Такая особенность корреляционного мо­мента является недостатком этой числовой характеристи­ки, т.к. сравнение корреляционных моментов различных систем случайных величин становится затруд­нительным. Для того чтобы устранить этот недостаток, вводят новую числовую характеристику—коэффициент корреляции .

Коэффициентом корреляции случайных величин и называют отношение корреляционного момента к произведению средних квадратических отклонений этих величин:

Так как размерность равна произведению размер­ностей величин и , имеет размерность величины , имеет размерность величины , то — безразмерная величина.

Таким образом, величина коэффициента корреляции не зависит от выбора единиц измерения случайных величин. В этом и состоит преиму­щество коэффициента корреляции перед корреляционным моментом.

Очевидно, коэффициент корреляции независимых слу­чайных величин равен нулю (т.к. ).

Абсолютная величина коэффициента кор­реляции не превышает единицы:

На практике мы имеем дело с выборками, а не с генеральными совокупностями. Поэтому на практике рассчитывают выборочный коэффициент корреляции, который может быть достоверным или нет. Выборочный коэффициент корреляции рассчитывается по следующей формуле:

(5.10)

Коэффициент корреляции удобный показатель связи, получивший широкое применение в практике. Это отвлеченное число, лежащее в пределах от -1 до +1. При независимом варьировании признаков, когда связь между ними отсутствует, . При существует положительная связь между признаками (с ростом растет и ). При - отрицательная связь - с ростом признака признак уменьшается. Чем больше по модулю, тем теснее связь между признаками. При между признаками существует функциональная связь.

Лишь один недостаток имеется у этого ценного показателя - он способен характеризовать лишь линейный связи. При наличии нелинейной связи между коррелирующими признаками следует использовать другие показатели.

Выборочный коэффициент корреляции служит оценкой генерального параметра , и, как случайная величина, сопровождается ошибками. Поэтому здесь также проверяется гипотеза о значимости выборочного коэффициента корреляции.

Пусть двумерная генеральная совокупность распределена нормально. Из этой совокупности из­влечены выборки объемом и по ним найден выборочный коэффициент корреляции , который оказался отличным от нуля. Так как выборки отобраны случайно, еще нельзя заключить, что коэффициент корреляции генераль­ной совокупности также отличен от нуля. А, поскольку нас интересует именно этот коэффициент, возникает необходимость при заданном уровне значи­мости проверить нулевую гипотезу : о равен­стве нулю генерального коэффициента корреляции при конкурирующей гипотезе : .

Если нулевая гипотеза отвергается, значит, выборочный коэффициент корреляции значимо отли­чается от нуля (кратко говоря, значим), а и коррелированны, т. е. связаны линейной зависимостью.

Если же нулевая гипотеза будет принята, значит, выбо­рочный коэффициент корреляции является незначимым, а и некоррелированные, т. е. не связаны линейной зависимостью.

В качестве критерия проверки нулевой гипотезы при­мем случайную величину

Величина при справедливости нулевой гипотезы имеет распределение Стьюдента с степенями свободы.

Обозначим значение критерия, вычисленное по дан­ным наблюдений, через и сформулируем правило проверки нулевой гипотезы.

Правило. Для того чтобы при заданном уровне зна­чимости проверить нулевую гипотезу : о ра­венстве нулю генерального коэффициента корреляции при конку­рирующей гипотезе : , надо вычислить наблюда­емое значение критерия:

(5.11)

и по таблице критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней сво­боды найти критическую точку .

Если — нет оснований отвергнуть нулевую гипотезу, если - то ее отвергают.

В то время как задача корреляционного анализа - установить, являются ли данные случайные величины взаимосвязанными, цель регрессионного анализа - описать эту связь аналитической зависимостью, т.е. с помощью уравнения. Мы рассмотрим самый несложный случай, когда связь между точками на графике может быть представлена прямой линией. Уравнение этой прямой линии , где

, (5.12)

Зная уравнение прямой, мы можем находить значение функции по значению аргумента в тех точках, где значение известно, а - нет. Эти оценки бывают очень нужны, но они должны использоваться осторожно, особенно, если связь между величинами не слишком тесная. Отметим также, что из сопоставления формул для и видно, что коэффициент не дает значение наклона прямой, а лишь показывает сам факт наличия связи.

 

7. Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона.

Ранее предполагалось, что закон распределения генеральной совокупности известен. Если же он неизвестен, но есть осно­вания предположить, что он имеет определенный вид (назовем его ), то проверяют нулевую гипотезу: гене­ральная совокупность распределена по закону .

Проверка гипотезы о предполагаемом законе неизве­стного распределения производится так же, как и про­верка гипотезы о параметрах распределения, т. е. при помощи специально подобранной случайной величины — критерия согласия.

Критерием согласия называют критерий проверки ги­потезы о предполагаемом законе неизвестного распреде­ления.

Имеется несколько критериев согласия, но мы огра­ничимся описанием применения критерия Пирсона к про­верке гипотезы о нормальном распределении генеральной совокупности (критерий аналогично применяется и для др. распределений). Для этого будем сравнивать эмпирические (наблюда­емые) и теоретические (вычисленные в предположении нормального распределения) частоты.

Обычно эмпирические и теоретические частоты раз­личаются. Возможно, что рас­хождение случайно (незначимо) и объясняется либо ма­лым числом наблюдений, либо способом их группировки, либо другими причинами. Возможно, что расхождение частот неслучайно (значимо) и объясняется тем, что тео­ретические частоты вычислены исходя из неверной гипо­тезы о нормальном распределении генеральной совокуп­ности.

Критерий Пирсона отвечает на вопрос «Случайно ли расхождение частот?». Правда, как и любой критерий, он не доказы­вает справедливость гипотезы, а лишь устанавливает на принятом уровне значимости ее согласие или несогласие с данными наблюдений.

Итак, пусть по выборке объема получено эмпири­ческое распределение: варианты - : , эмпирические частоты - : .

Допустим, что в предположении нормального распре­деления генеральной совокупности вычислены теорети­ческие частоты . При уровне значимости требуется проверить нулевую гипотезу: генеральная совокупность распреде­лена нормально.

В качестве критерия проверки нулевой гипотезы при­мем случайную величину

.

Эта величина случайная, т.к. в различных опытах она принимает различные, заранее не известные значе­ния. Ясно, что, чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия, и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.

Стоит заметить, что возведение в квадрат разностей частот устраняет возможность взаимного погашения положи­тельных и отрицательных разностей. Делением на до­стигают уменьшения каждого из слагаемых – иначе сумма была бы настолько велика, что при­водила бы к отклонению нулевой гипотезы даже тогда, когда она справедлива.

Доказано, что при закон распределения слу­чайной величины независимо от того, к какому закону распределения подчинена генеральная совокупность, стре­мится к закону распределения с степенями свободы. Поэтому случайная величина обозначена через , а сам критерий называют критерием согласия «хи квадрат».

Число степеней свободы находят по равенству , где — число групп выборки; — число параметров предполагаемого распре­деления, которые оценены по данным выборки.

В частности, если предполагаемое распределение — нор­мальное, то оценивают два параметра (математическое ожидание и среднее квадратическое отклонение), поэтому и число степеней свободы .

Так как односторонний критерий более жестко отвергает нулевую гипотезу, чем двусторонний, построим правостороннюю критическую область, исходя из требо­вания, чтобы вероятность попадания критерия в эту об­ласть в предположении справедливости нулевой гипотезы была равна принятому уровню значимости :

.

Обозначим значение критерия, вычисленное по данным наблюдений, через и сформулируем правило проверки нулевой гипотезы.

Правило: для того чтобы при заданном уровне зна­чимости проверить нулевую гипотезу (генеральная совокупность распределена нормально), надо сначала вы­числить теоретические частоты, а затем наблюдаемое значение критерия:

и по таблице критических точек распределения , по заданному уровню значимости и числу степеней сво­боды найти критическую точку . Если — нет оснований отвергнуть нулевую гипотезу, если — нулевую гипотезу отвергают.



Дата добавления: 2017-02-13; просмотров: 3192;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.014 сек.