Корреляционный анализ.


1. Одной из важных задач эпидемиологии является анализ заболеваемости по факторам риска.

Фактор риска в медицине - это фактор, способствующий возникновению заболевания (например, курение - фактор риска по отношению к инфаркту миокарда или раку, число аварий в сети водопровода - фактор риска по отношению к дизентерии).

Для количественной оценки факторов риска развития заболевания используется корреляционный анализ.

Корелляционный анализ - это количественный метод определения тесноты и направления связи между двумя и более случайными величинами.

Впервые в научный оборот термин «корреляция» ввел французский палеонтолог Ж. Кювье (XVIII в.), а в статистике его первым стал использовать Ф. Гальтон (ХIX в.).

Для того чтобы охарактеризовать связь между переменными численно, вводится понятие коэффициента корреляции.

Коэффициент корреляции - показатель, характеризующий силу связи и ее направление, принимает значения в промежутке [-1, 1].

Для оценки силы связи в теории корреляции применяется шкала английского статистика Чеддока (таблица 5.1).

Таблица 5.1.

 

Количественная мера тесноты связи Качественная характеристика силы связи
0,1 - 0,3 Слабая
0,3 - 0,5 Умеренная
0,5 - 0,7 Заметная
0,7 - 0,9 Высокая
0,9 – 1 Сильная

 

По направлению различают прямую и обратную корреляционную связь.

Прямая корреляционная связь - связь, при которой увеличение одной переменной связано с увеличением другой переменной (рост заболеваемости дизентерией при увеличении в воде водопровода доли нестандартных проб воды).

Обратная корреляционная связь - связь, при которой увеличение одной переменной связано с уменьшением другой переменной (снижение заболеваемости гепатитом «В» по мере увеличения охвата населения вакцинацией против этой инфекции).

При прямой связи коэффициент корреляции принимает значения от «0» до «+1».

При обратной связи коэффициент корреляции принимает значения от «-1» до «0».

Если коэффициент корреляции равен «0», то связь между явлениями отсутствует.

Если коэффициент корреляции равен «+1» или «–1», то связь между явлениями функциональная.

2. При анализе зависимости между двумя переменными применяют диаграммы рассеяния.

Диаграмма рассеяния - наглядный способ представления корреляционной зависимости между двумя переменными (рисунок 5.1).

Диаграмма рассеяния - это точечная диаграмма в виде графика, получаемого путем нанесения в определенном масштабе экспериментальных, полученных в результате наблюдений точек. Координаты точек на графике соответствуют значениям рассматриваемой величины и влияющего на него фактора. Расположение точек показывает наличие и характер связи между двумя переменными.

 

a b c

 

Рисунок 5.1. Диаграммы рассеяния: a - прямая связь; b - обратная связь;с -связь отсутствует

 

3. Линейный (парный) коэффициент корреляции (Пирсона)-показатель, характеризующий силу связи и ее направление:

 

, (5.1)

 

где rxy – коэффициент корреляции; х и у – коррелируемые ряды; , - средние значения.

Парный коэффициент корреляции является параметрическим коэффициентом.

Применение парного коэффициента корреляции Пирсона возможно, если выполняются следующие условия:

· сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений;

· распределения переменных должны быть близки к нормальному;

· число значений рассматриваемых переменных должно быть одинаковым.

 

4. Достоверность коэффициента корреляции определяется сравнением его с вычисляемой средней ошибкой.

Средняя ошибка коэффициента корреляции:

 

, (5.2)

 

где rxy – коэффициент корреляции; n - число наблюдений.

Коэффициент корреляции считается достоверным, если в 3 раза превышает свою среднюю ошибку. Иначе необходимо увеличить число наблюдений.

Достоверность коэффициента корреляции определяется по специальным таблицам.

Пример 5.1. Для следующих данных рассчитать линейный коэффициент корреляции Пирсона:

Заболеваемость ОРЗ на 1000 населения, х
Заболеваемость пневмонией на 1000 населения, у

Решение:

1) Составить расчетную таблицу:

 

х У
-45 -495
-1 -27
-77 -3
-15 -8
-36 -17
Сумма
Среднее          

 

2) Вычислить коэффициент корреляции:

 

.

 

3) Проанализировать полученный результат: связь между рассматриваемыми признаками прямая умеренная.

4) Вычислить среднюю ошибку коэффициента корреляции:

 

,

 

коэффициент корреляции не является достоверным, т.к. не превышает свою среднюю ошибку в три раза.

 

5. При анализе клинических и фармацевтических явлений часто используются следующие непараметрические коэффициенты связи:

· ранговой корреляции Спирмена;

· «τ» (тау) Кендалла;

· ассоциации Юла;

· контингенции Пирсона;

· сопряженности Чупрова;

· «γ» (гамма) и др.

Рассмотрим коэффициент ранговой корреляции, которыйбыл разработан и предложен для проведения корреляционного анализа в 1904 г. Ч.Э. Спирменом (рисунок 5.2), английским психологом, профессором Лондонского и Честерфилдского университета.

 

Рисунок 5.2. Ч.Э. Спирмен

 

Коэффициент ранговой корреляции - это коэффициент, который измеряет связь между рангами данной варианты по разным признакам.

Коэффициент ранговой корреляции Спирмена используется для определения тесноты связей между количественными, так и между качественными признаками при условии, если их значения упорядочить по степени убывания или возрастания признака.

Коэффициент ранговой корреляции Спирмена:

 

, (5.3)

 

где n - объем совокупности, - разность между рангами i-го объекта.

Качественную характеристику тесноты связи коэффициента ранговой корреляции, как и других коэффициентов корреляции, можно оценить по шкале Чеддока.

Коэффициент ранговой корреляции Спирмена применяется в случае, если объем выборки « удовлетворяет неравенству 5≤n≤40.

Пример 5.2. В одном населенном пункте зарегистрировано наличие хронической эпидемии дизентерии Флекснера. Предварительный анализ и лабораторные исследования показали, что в питьевой воде водопроводной сети наблюдаются частые «проскоки» нестандартных проб по бактериологическим показателям (фактор риска). Необходимо проверить гипотезу о наличии связи между этими двумя признаками.

 

Месяц Число больных дизентерией (х) Доля нестандартных проб воды (у)
Январь
Февраль 0,5
Март 1,1
Апрель 2,0
Май 1,8
Июнь 2,9
Июль 6,7
Август 4,5
Сентябрь 8,7
Октябрь 7,1
Ноябрь 3,2
Декабрь

Решение:

1) Составить расчетную таблицу:

 

 

х у
1,5 5,5 30,25
0,5
1,1 -3
2,0 -2
1,8 -2
2,9
6,7 -1
4,5
8,7 -1
7,1
3,2 -3
1,5 0,5 0,25
Сумма           70,5

 

2) Вычислить коэффициент корреляции:

 

.

 

3) Проанализировать полученный результат: связь между рассматриваемыми признаками прямая высокая.

4) Вычислить среднюю ошибку коэффициента корреляции:

 

,

 

коэффициент корреляции является достоверным, т.к. превышает свою среднюю ошибку более чем в три раза.

5. Литература:

1. Васильева Л.А. Статистические методы в биологии, медицине и сельском хозяйстве: Учеб. пособие для вузов. - Новосибирск, Новосибирский Государственный университет, 2007. - 128 с

2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов В.Е. Гмурман. - 9-е изд., стер. - М.: Высш. шк., 2003. - 479 с.

3. Лобоцкая Н.Л. Высшая математика. / Н.Л. Лобоцкая, Ю.В. Морозов, А.А. Дунаев. - Мн.: Высшая школа, 1987. - 319 с.

4. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с.

5. Основы высшей математики и математической статистики: Учебник/ Павлушкин и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с.

6. Плохинский Н.А. Биометрия / изд. 2. - М.: МГУ, 1970. - 367 с.

7. Савилов Е.Д., Астафьев В.А., Жданова C.Н., Заруднев Е.А. Эпидемиологический анализ: Методы статистической обработки материала. – Новосибирск: Наука-Центр, 2011. – 156 с.

8. http://medstatistic.ru/

 



Дата добавления: 2016-10-07; просмотров: 5155;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.016 сек.