Корреляционный анализ.
1. Одной из важных задач эпидемиологии является анализ заболеваемости по факторам риска.
Фактор риска в медицине - это фактор, способствующий возникновению заболевания (например, курение - фактор риска по отношению к инфаркту миокарда или раку, число аварий в сети водопровода - фактор риска по отношению к дизентерии).
Для количественной оценки факторов риска развития заболевания используется корреляционный анализ.
Корелляционный анализ - это количественный метод определения тесноты и направления связи между двумя и более случайными величинами.
Впервые в научный оборот термин «корреляция» ввел французский палеонтолог Ж. Кювье (XVIII в.), а в статистике его первым стал использовать Ф. Гальтон (ХIX в.).
Для того чтобы охарактеризовать связь между переменными численно, вводится понятие коэффициента корреляции.
Коэффициент корреляции - показатель, характеризующий силу связи и ее направление, принимает значения в промежутке [-1, 1].
Для оценки силы связи в теории корреляции применяется шкала английского статистика Чеддока (таблица 5.1).
Таблица 5.1.
Количественная мера тесноты связи | Качественная характеристика силы связи |
0,1 - 0,3 | Слабая |
0,3 - 0,5 | Умеренная |
0,5 - 0,7 | Заметная |
0,7 - 0,9 | Высокая |
0,9 – 1 | Сильная |
По направлению различают прямую и обратную корреляционную связь.
Прямая корреляционная связь - связь, при которой увеличение одной переменной связано с увеличением другой переменной (рост заболеваемости дизентерией при увеличении в воде водопровода доли нестандартных проб воды).
Обратная корреляционная связь - связь, при которой увеличение одной переменной связано с уменьшением другой переменной (снижение заболеваемости гепатитом «В» по мере увеличения охвата населения вакцинацией против этой инфекции).
При прямой связи коэффициент корреляции принимает значения от «0» до «+1».
При обратной связи коэффициент корреляции принимает значения от «-1» до «0».
Если коэффициент корреляции равен «0», то связь между явлениями отсутствует.
Если коэффициент корреляции равен «+1» или «–1», то связь между явлениями функциональная.
2. При анализе зависимости между двумя переменными применяют диаграммы рассеяния.
Диаграмма рассеяния - наглядный способ представления корреляционной зависимости между двумя переменными (рисунок 5.1).
Диаграмма рассеяния - это точечная диаграмма в виде графика, получаемого путем нанесения в определенном масштабе экспериментальных, полученных в результате наблюдений точек. Координаты точек на графике соответствуют значениям рассматриваемой величины и влияющего на него фактора. Расположение точек показывает наличие и характер связи между двумя переменными.
a b c
Рисунок 5.1. Диаграммы рассеяния: a - прямая связь; b - обратная связь;с -связь отсутствует
3. Линейный (парный) коэффициент корреляции (Пирсона)-показатель, характеризующий силу связи и ее направление:
, (5.1)
где rxy – коэффициент корреляции; х и у – коррелируемые ряды; , - средние значения.
Парный коэффициент корреляции является параметрическим коэффициентом.
Применение парного коэффициента корреляции Пирсона возможно, если выполняются следующие условия:
· сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений;
· распределения переменных должны быть близки к нормальному;
· число значений рассматриваемых переменных должно быть одинаковым.
4. Достоверность коэффициента корреляции определяется сравнением его с вычисляемой средней ошибкой.
Средняя ошибка коэффициента корреляции:
, (5.2)
где rxy – коэффициент корреляции; n - число наблюдений.
Коэффициент корреляции считается достоверным, если в 3 раза превышает свою среднюю ошибку. Иначе необходимо увеличить число наблюдений.
Достоверность коэффициента корреляции определяется по специальным таблицам.
Пример 5.1. Для следующих данных рассчитать линейный коэффициент корреляции Пирсона:
Заболеваемость ОРЗ на 1000 населения, х | |||||||
Заболеваемость пневмонией на 1000 населения, у |
Решение:
1) Составить расчетную таблицу:
№ | х | У | |||||
-45 | -495 | ||||||
-1 | -27 | ||||||
-77 | -3 | ||||||
-15 | -8 | ||||||
-36 | -17 | ||||||
Сумма | |||||||
Среднее |
2) Вычислить коэффициент корреляции:
.
3) Проанализировать полученный результат: связь между рассматриваемыми признаками прямая умеренная.
4) Вычислить среднюю ошибку коэффициента корреляции:
,
коэффициент корреляции не является достоверным, т.к. не превышает свою среднюю ошибку в три раза.
5. При анализе клинических и фармацевтических явлений часто используются следующие непараметрические коэффициенты связи:
· ранговой корреляции Спирмена;
· «τ» (тау) Кендалла;
· ассоциации Юла;
· контингенции Пирсона;
· сопряженности Чупрова;
· «γ» (гамма) и др.
Рассмотрим коэффициент ранговой корреляции, которыйбыл разработан и предложен для проведения корреляционного анализа в 1904 г. Ч.Э. Спирменом (рисунок 5.2), английским психологом, профессором Лондонского и Честерфилдского университета.
Рисунок 5.2. Ч.Э. Спирмен
Коэффициент ранговой корреляции - это коэффициент, который измеряет связь между рангами данной варианты по разным признакам.
Коэффициент ранговой корреляции Спирмена используется для определения тесноты связей между количественными, так и между качественными признаками при условии, если их значения упорядочить по степени убывания или возрастания признака.
Коэффициент ранговой корреляции Спирмена:
, (5.3)
где n - объем совокупности, - разность между рангами i-го объекта.
Качественную характеристику тесноты связи коэффициента ранговой корреляции, как и других коэффициентов корреляции, можно оценить по шкале Чеддока.
Коэффициент ранговой корреляции Спирмена применяется в случае, если объем выборки «n» удовлетворяет неравенству 5≤n≤40.
Пример 5.2. В одном населенном пункте зарегистрировано наличие хронической эпидемии дизентерии Флекснера. Предварительный анализ и лабораторные исследования показали, что в питьевой воде водопроводной сети наблюдаются частые «проскоки» нестандартных проб по бактериологическим показателям (фактор риска). Необходимо проверить гипотезу о наличии связи между этими двумя признаками.
Месяц | Число больных дизентерией (х) | Доля нестандартных проб воды (у) |
Январь | ||
Февраль | 0,5 | |
Март | 1,1 | |
Апрель | 2,0 | |
Май | 1,8 | |
Июнь | 2,9 | |
Июль | 6,7 | |
Август | 4,5 | |
Сентябрь | 8,7 | |
Октябрь | 7,1 | |
Ноябрь | 3,2 | |
Декабрь |
Решение:
1) Составить расчетную таблицу:
№ | х | у | ||||
1,5 | 5,5 | 30,25 | ||||
0,5 | ||||||
1,1 | -3 | |||||
2,0 | -2 | |||||
1,8 | -2 | |||||
2,9 | ||||||
6,7 | -1 | |||||
4,5 | ||||||
8,7 | -1 | |||||
7,1 | ||||||
3,2 | -3 | |||||
1,5 | 0,5 | 0,25 | ||||
Сумма | 70,5 |
2) Вычислить коэффициент корреляции:
.
3) Проанализировать полученный результат: связь между рассматриваемыми признаками прямая высокая.
4) Вычислить среднюю ошибку коэффициента корреляции:
,
коэффициент корреляции является достоверным, т.к. превышает свою среднюю ошибку более чем в три раза.
5. Литература:
1. Васильева Л.А. Статистические методы в биологии, медицине и сельском хозяйстве: Учеб. пособие для вузов. - Новосибирск, Новосибирский Государственный университет, 2007. - 128 с
2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов В.Е. Гмурман. - 9-е изд., стер. - М.: Высш. шк., 2003. - 479 с.
3. Лобоцкая Н.Л. Высшая математика. / Н.Л. Лобоцкая, Ю.В. Морозов, А.А. Дунаев. - Мн.: Высшая школа, 1987. - 319 с.
4. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-х томах / Под ред. Ю.М. Комарова. Т. 1. Теоретическая статистика. - М.: Медицина, 2000. - 412 с.
5. Основы высшей математики и математической статистики: Учебник/ Павлушкин и соавт. - М.: ГЭОТАР-МЕД, 2004. - 424 с.
6. Плохинский Н.А. Биометрия / изд. 2. - М.: МГУ, 1970. - 367 с.
7. Савилов Е.Д., Астафьев В.А., Жданова C.Н., Заруднев Е.А. Эпидемиологический анализ: Методы статистической обработки материала. – Новосибирск: Наука-Центр, 2011. – 156 с.
8. http://medstatistic.ru/
Дата добавления: 2016-10-07; просмотров: 5161;