Регрессионный анализ.


1. Впервые термин «регрессия» был введен основателем биометрии Ф. Гальтоном (XIX в.), идеи которого были развиты его последователем К. Пирсоном.

Регрессионный анализ- метод статистической обработки данных, позволяющий измерить связь между одной или несколькими причинами (факторными признаками) и следствием (результативным признаком).

Признак- это основная отличительная черта, особенность изучаемого явления или процесса.

Результативный признак - исследуемый показатель.

Факторный признак - показатель, влияющий на значение результативного признака.

Целью регрессионного анализа является оценка функциональной зависимости среднего значения результативного признака (у) от факторных (х1, х2, …, хn), выражаемой в виде уравнения регрессии

 

у = f (x1, х2, …, хn). (6.1)

 

Различают два вида регрессии: парную и множественную.

Парная (простая) регрессия- уравнение вида:

 

у = f (x). (6.2)

 

Результативный признак при парной регрессии рассматривается как функция от одного аргумента, т.е. одного факторного признака.

Регрессионный анализ включает в себя следующие этапы:

· определение типа функции;

· определение коэффициентов регрессии;

· расчет теоретических значений результативного признака;

· проверку статистической значимости коэффициентов регрессии;

· проверку статистической значимости уравнения регрессии.

Множественная регрессия- уравнение вида:

 

у = f (x1, х2, …, хn). (6.3)

 

Результативный признак рассматривается как функция от нескольких аргументов, т.е. много факторных признаков.

 

2. Для того чтобы правильно определить тип функции нужно на основании теоретических данных найти направление связи.

По направлению связи регрессия делится на:

· прямую регрессию, возникающую при условии, что с увеличением или уменьшением независимой величины «х» значения зависимой величины «у» также соответственно увеличиваются или уменьшаются;

· обратную регрессию, возникающую при условии, что с увеличением или уменьшением независимой величины «х» зависимая величина «у» соответственно уменьшается или увеличивается.

Для характеристики связей используют следующие виды уравнений парной регрессии:

· у=a+bx линейное;

· y=eax+b – экспоненциальное;

· y=a+b/x – гиперболическое;

· y=a+b1x+b2x2 – параболическое;

· y=abx – показательное и др.

где a, b1, b2 - коэффициенты (параметры) уравнения; у - результативный признак; х - факторный признак.

 

3. Построение уравнения регрессии сводится к оценке его коэффициентов (параметров), для этого используют метод наименьших квадратов (МНК).

Метод наименьших квадратов позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака «у»от теоретических «ух» минимальна, то есть

 

. (6.4)

 

Параметры уравнения регрессии у=a+bх по методу наименьших квадратов оцениваются с помощью формул:

 

, , (6.5)

 

где а – свободный коэффициент, b - коэффициент регрессии, показывает на сколько изменится результативный признак «y» при изменении факторного признака «x» на единицу измерения.

 

4. Для оценки статистической значимости коэффициентов регрессии используется -критерий Стьюдента.

Схема проверки значимости коэффициентов регрессии:

1) Н0: a=0, b=0 - коэффициенты регрессии незначимо отличаются от нуля.

Н1: a≠0, b≠0 - коэффициенты регрессии значимо отличаются от нуля.

2) р=0,05 – уровень значимости.

 

3) ; , (6.6)

 

где mb, ma - случайные ошибки:

 

; . (6.7)

 

4) tтабл(р; f),

 

где f=n-k-1 - число степеней свободы (табличное значение), n - число наблюдений, k - число параметров в уравнении при переменных «х».

5) Если , то отклоняется, т.е. коэффициент значимый.

Если , то принимается, т.е. коэффициент незначимый.

 

5. Для проверки правильности построенного уравнения регрессии применяется критерий Фишера.

Схема проверки значимости уравнения регрессии:

1) Н0: уравнение регрессии незначимо.

Н1: уравнение регрессии значимо.

2) р=0,05 – уровень значимости.

 

3) , (6.8)

 

где - число наблюдений; k - число параметров в уравнении при переменных «х»; у - фактическое значение результативного признака; yx - теоретическое значение результативного признака; - коэффициент парной кореляции.

4) Fтабл(р; f1; f2),

где f1=k, f2=n-k-1- число степеней свободы (табличные значения).

5) Если Fрасч>Fтабл, то уравнение регрессии подобрано верно и может применяться на практике.

Если Fрасч<Fтабл, то уравнение регрессии подобрано неверно.

 

6. Основным показателем, отражающим меру качества регрессионного анализа, является коэффициент детерминации (R2).

Коэффициент детерминации показывает, какая доля зависимой переменной «у» учтена в анализе и вызвана влиянием на нее факторов, включенных в анализ.

Коэффициент детерминации (R2) принимает значения в промежутке [0, 1]. Уравнение регрессии является качественным, если R2 ≥0,8.

Коэффициент детерминации равен квадрату коэффициента корреляции, т.е.

. (6.9)

 

Пример 6.1.По следующим данным построить и проанализировать уравнение регрессии:

Заболеваемость гриппом на 1000 населения, х
Заболеваемость пневмонией на 1000 населения, у

Решение.

1) Вычислить коэффициент корреляции: . Связь между признаками прямая и умеренная.

2) Построить уравнение парной линейной регрессии.

2.1) Составить расчетную таблицу.

 

Х у Ху х2 ух (у-ух)2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Сумма 159,45 558,55
Среднее 77519,6 22,78 79,79 2990,6

 

2.2) Рассчитать коэффициенты регрессии:

 

,

 

.

 

Уравнение парной линейной регрессии: ух=25,17+0,087х.

3) Найти теоретические значения «уx» путем подстановки в уравнение регрессии фактических значений «х».

4) Построить графики фактических «у» и теоретических значений «ух» результативного признака (рисунок 6.1):

Рисунок 6.1. Графики фактических «у» и теоретических значений «ух» результативного признака

 

5) Проверить статистическую значимость коэффициентов регрессии:

5.1) Вычислить случайные ошибки:

 

;

 

.

 

5.2)

, .

 

5.3) tтабл(0,05; 5)=2,57

5.4) , значит коэффициент b - незначим,

, значит коэффициент a - незначим.

6) Проверить статистическую значимость уравнения регрессии:

 

6.1) .

 

6.2) (р; k; n-k-1)=(0,05; 1; 5)=6,61.

6.3) Fрасч<Fтабл, то уравнение регрессии подобрано неверно. Этот результат можно объяснить невысокой теснотой зависимости (rxy=0,47) и небольшим числом наблюдений.

7) Вычислить коэффициент детерминации: R2=(0,47)2=0,22. Построенное уравнение некачественное.

Т.к. вычисления при проведении регрессионного анализа достаточно объемные, рекомендуется пользоваться специальными программами («Statistica 10», SPSS и др.).

На рисунке 6.2 приведена таблица с результатами регрессионного анализа, проведенного с помощью программы «Statistica 10».

Рисунок 6.2. Результаты регрессионного анализа, проведенного с помощью программы «Statistica 10»

 

5. Литература:

1. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов / В.Е. Гмурман. - М.: Высшая школа, 2003. - 479 с.

2. Койчубеков Б.К. Биостатистика: Учебное пособие. - Алматы: Эверо, 2014. - 154 с.

3. Лобоцкая Н.Л. Высшая математика. / Н.Л. Лобоцкая, Ю.В. Морозов, А.А. Дунаев. - Мн.: Высшая школа, 1987. - 319 с.

4. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с.

5. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: учебное пособие / ред. Кучеренко В.З. - 4-е изд., перераб. и доп. – М.: ГЭОТАР - Медиа, 2011. - 256 с.

 

 



Дата добавления: 2016-10-07; просмотров: 6482;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.017 сек.