Шестиранговый признак
Var #132 #Valid Observations=438, #Missing Observations=0
|------------|------------|------------|------------|------------|------------|------------|
| 0 | 1 | 2 | 3 | 4 | 5 | 6 |
|------------|------------|------------|------------|------------|--------- --|------------|
| 32 7.31%| 41 9.36%| 47 10.73% | 178 40.64%| 43 9.82%| 64 14.61% | 33 7.53%|
|------------|------------|------------|------------|------------|---------- -|------------|
Median is between 2 and 3
Данные порядкового измерения несут несколько больше информации (хотя как мы видели, при внимательном анализе можно извлечь много интересного и из номинальной шкалы (простого классификатора!), тем более с учетом возможности автотрансформации признака), поскольку коды здесь представляют не только категоризацию, но и степень выраженности свойства, или ранжирование. Традиционный способ измерения средней тенденции для порядковых и метрических переменных – медиана, основное содержание которой, мы описали выше.
Отметим, что ранговые признаки часто используются для своеобразной «ручной» факторизации блоков переменных, на основании наиболее «весомого» рангового значения. (Мы это продемонстрируем в разделе представления научного отчета исследования).
Линейные распределения, помимо выше указанных особенностей, имеют как самостоятельное значение – отражение содержательного значения вопросов анкеты по предмету исследования, так и функциональное. На их основе обычно ведется построение таблиц по блокам основных вопросов и тогда проводится сравнительный анализ переменных, а также построение схем и графиков, например, по медианным значениям однотипных ранговых признаков. В этом случае схема более наглядна и аналитична, чем долгое и скучное линейное описание процентных долей в терминах «больше…чем, меньше… чем» и т.д. Техническим недостатком одномерных распределений, равно как и двумерных, является наличие длинного континуума рангов или подсказок. При распечатке они могут не умещаются на стандартном А4 формате листа и прежде чем приступить к анализу, их необходимо вырезать и склеить для возможности чувственного созерцания целиком.
Интервальные данные, безусловно, предоставляют нам наиболее полную информацию, включая категоризацию, ранжирование и установление интервалов. Интервальные значения могут быть подвержены любым арифметическим манипуляциям. Следовательно, приступая к исчислению средней тенденции и дисперсии для интервальных данных, мы можем и должны принять эту информацию о дополнительных возможностях во внимание.
Пример интервальных признаков из массива «Селькупы».
Var #28 - Число детей в семье
#Valid Observations=438, #Missing Observations=0
Min=0.000, Max=10.00, Ave=1.559, Dev=1.804
Var #42 – Размер месячного дохода на семью
#Valid Observations=438, #Missing Observations=0
Min=0.000, Max=27000, Ave=3946, Dev=4892
Var #44 – Пособие из фонда социального страхования (в месяц)
#Valid Observations=438, #Missing Observations=0
Min=0.000, Max=5000, Ave=85.24, Dev=461.2
Var #49 Число голов домашнего скота
#Valid Observations=438, #Missing Observations=0
Min=0.000, Max=2.000, Ave=0.0137, Dev=0.1505
«Прочитывание» метрических признаков достаточно просто, необходимо только знать английскую терминологию (поскольку все пакеты программ англоязычные). В нашем примере: Valid Observations- действительные наблюдения, Missing Observations – пропущенные наблюдения, или «неответы», Min –минимальное значение признака в вариационном ряду, Max – максимальное, Ave (average) – среднее арифметическое значение признака, Dev (deviation) – стандартное отклонение. Отметим, что в их вычислении существуют технические проблемы, связанные с подготовкой массива данных. В вышеприведенных примерах, «средняя» рассчитывалась для всех исходных наблюдений, включая «нулевые» позиции – т.е. «неответивших» на данный вопрос. Следовательно, все величины искажалась в сторону ее уменьшения. Для точного расчета необходимо создание виртуального файла с отсечением нулевых значений и тогда мы получим средние величины не ко всем опрошенным, а только к указавшим величину возраста, стажа, зарплаты и т.д., что дает их более точную оценку.
Анализ двумерных распределений.Данный анализ может осуществляться в двух плоскостях. Первая плоскость. Поскольку перекрестная группировка (crosstables) двух или трех признаков прямой путь к обнаружению и описанию возможных взаимозависимостей между ними, что является одной из основных задач исследования в плане доказательств выдвинутых гипотез, то наиболее важная работа социолога заключается в содержательно-логическом анализе двумерных распределений. Этот осуществляется с помощью - детерминационного анализа или по правилам, как его еще определяют - процентирования. На первый взгляд приведенные ниже таблицы распределений достаточно сложны и непонятны, однако это не совсем так, что мы попытаемся продемонстрировать ниже. На самом деле все определяется практикой и опытом социолога в данном анализе.
Вторая плоскость связана с поиском статистических корреляций между двумя переменными. Но реально, этот поиск осуществляется только в ходе методических и строго теоретических исследований, когда задачами является их соответствующее определение. Поскольку на практике, во всех пакетах статистических программ их расчеты «зашиты», то социолог лишен практической возможности их подбора и приходится пользоваться тем, что выдает машина для конкретной таблицы. Понятно, что ведущие пакеты программ, располагают самым полным, в методико-математическом смысле, набором статистик (мер связи), для анализа социологических данных.
С научной точки зрения, корреляционный анализ это группа методов предназначенных для исследования корреляции между переменными, измеренными различными типами шкал и не предполагающая причинной (функциональной) зависимости, а указывающая только на тесноту связи между переменными (изменение одной при изменении другой). В отличие от функциональной, корреляционная зависимость обладает вероятностным характером и определяет связь либо между двумя случайными величинами х и у, либо между не случайной величиной х и результативным случайным признаком у. Основным инструментом такого анализа являются разнообразные меры связи на «выходе», виды которых зависят от способов измерения переменных и характера (сущности) связи между ними. Отметим, что четкого, методически очерченного инструментального использования мер связи для расчетов нет. В огромном объеме литературы различные авторы описывают и используют для иллюстрации мер связи между разнообразными переменными (качественными и количественными) различные меры связи. Поэтому нашей задачей является всего лишь методическое (поиск пути) и техническое понимание коэффициентов корреляции применительно к конкретному двумерному распределению. Хорошей иллюстрацией этих понятий служит графическое изображение зависимости между двумя переменными. (с.93 СМАИвСИ)
Важно отметить, что для метрических, порядковых и дихотомических признаков используются понятия прямой и обратной связи, ее указанием знаками «+» или «-» в коэффициенте корреляции. Связь является прямой, когда значения двух переменных – количественной и ранговой одновременно возрастают или убывают. Связь является обратной, если возрастание одной переменной сопровождается убыванием значений второй. Безусловно, в мире социальных явлений и процессов мы можем найти множество естественных примеров таких корреляций, например, возраст и жизненная активность пожилых людей. Однако в большинстве случаев на практике это на самом деле связано с техническим построением шкалы в инструментарии исследования, поскольку невозможно сформулировать вопросы и типы ранговых шкал, которые всегда бы начинались только с одного - положительного, отрицательного или нейтрального значения. Этот эффект проявляется и при многомерном анализе данных, например, в факторных весах анализируемых переменных. Схематично, направление связи можно представить в виде разнонаправленных векторов. Важным аспектом измерения корреляционной зависимости является теснота (плотность) связи под которой следует понимать степень сопряженности между двумя явлениями, признаками, величинами. Связь более тесная, когда каждому значению одного признака, соответствуют близкие друг к другу, тесно расположенные вокруг своей условной средней величины, значения другого признака. Связь считается менее тесной, когда наблюдается большой разброс значений вокруг условных средних величин зависимого признака, Этот принцип хорошо иллюстрируется диаграммой рассеивания признаков.
Условные средине величины значений признаков образуют диаграммы в виде прямых линий. Они служат для приближенного иллюстративного описания эмпирических данных и носят название линий регрессии. В зависимости от пространственного расположения линии регрессии, корреляционные связи делят на прямые и обратные. (пример – повышение уровня образования и рост доходов, низкая заработная плата – высокая неудовлетворенность трудом). Корреляция может отражать и взаимную сопряженность переменных.
По форме корреляционные связи делятся на линейные и нелинейные. Первая, характеризует связь, когда с увеличением фактора каждый раз на единицу, результативный признак каждый раз изменяется (±) в среднем на постоянную величину. Криволинейная форма описывает такую зависимость, при которой точки с координатами х и у группируются около кривой линии так, что определенному относительному увеличению/уменьшению одного признака соответствует неравномерное изменение (±) второго признака. Корреляция бывает парная и множественная. Парная – характеризует тип, форму и плотность связи между двумя признаками. Множественная – взаимосвязь между несколькими признаками.
Меры связи для качественных и количественных признаков. Измерение связи и ее значимости для номинальных признаков. Прежде всего, отметим, что большинство коэффициентов корреляции для номинальных признаков рассчитывается на основе cІ (хи-квадрат), определяемого еще, как «критерий согласия Пирсона). Хи-квадрат является исходной характеристикой распределения, используемого для проверки статистических гипотез трех видов: 1) гипотеза о соответствии (согласии) эмпирического распределения некоторому закону распределения – т.е. теоретическому распределению. 2) гипотеза о статистической независимости признаков. 3) гипотеза об однородности распределения признака в различных совокупностях.
Коэффициент cІ (хи-квадрат) говорит нам о том, насколько вероятно, что номинальный тип связей, которые мы изучаем, является результатом случая. Вероятность оценивается путем сравнения тех результатов, которые мы реально имеем, с теоретически ожидаемыми, когда между переменными нет никакой связи. Подсчет cІ также используется в таблицах взаимной сопряженности признаков. Определение cІ начинается с того, что мы задаем себе вопрос: какое значение мы ожидаем в каждой графе при имеющихся итоговых распределениях, если между переменными нет связи? Тогда встает следующий вопрос: настолько отличаются действительные значения от тех значений, которые можно предположить и что мы можем быть решительно уверены в надежности наших результатов? Хи-квадрат и является тем инструментом, который посредством сравнения двух распределений даст ответ на наш вопрос. Хи-квадрат определяется путем сложения всех цифр в последней колонке. Но перед интерпретацией полученной величины, нам необходимо сделать еще одно вычисление - подсчитать так называемые степени свободы (degrees of freedom - d¦). Степени свободы в таблице - это количество ячеек таблицы, которые могут быть заполнены цифрами, прежде чем содержание всех остальных ячеек станет фиксированным и постоянным. Формула для определения степеней свободы в любой определенной таблице такова:
d¦ =(r-1) (c-1)
где r = количество категорий переменной в ряду;
c = количество категорий переменной в колонке.
Например, d¦ = (3-1) (3-1) = 4.
Теперь мы готовы оценить статистическую значимость наших данных. Таблица содержит значимые величины c в кв. для различных степеней свободы на уровнях 0,001; 0,01;0,05. Если значение c в кв., которое мы подсчитали, превышает то, что указано в таблице на любом из этих уровней для таблицы с определенными степенями свободы, то можно сказать, что те взаимосвязи, которые мы наблюдали, на данном уровне статистически значимы. Для того чтобы связь была значимой на уровне 0,001 (т.е. если мы допускаем, что наблюдаемая связь отражает характеристики всей совокупности, то мы рискуем ошибиться один раз из 1000), наблюдаемый c в кв. должен превышать определенную величину и тогда мы можем быть абсолютно уверены в достоверности своих результатов.
Принятие или опровержение выше приведенных гипотез, с точки зрения хорошего распределения означает: подтверждение однородности генеральной совокупности относительно дифференцирующего признака; доказательства присутствия связи в распределении; наличии неоднородностей в анализируемом распределении. Вместе с тем, самостоятельное использование χ І как меры связи неустойчиво, поскольку его величина растет с ростом выборки, поэтому на его основе рассчитывают насколько коэффициентов корреляции. Среди наиболее часто используемых:
коэффициент сопряженности Пирсона (С) – используемый для таблиц равной размерности – 2х2. Значение коэффициента изменятся в пределах от 0 до +1;
коэффициент Крамера (V) использование идентично предыдущему;
коэффициент Юла (Q – коэффициент ассоциации - связи) используется также для симметричных таблиц малой размерности с изменение коэффициента от -1 до +1;
коэффициент взаимной сопряженности (Ф). Значение коэффициента изменятся в пределах от 0 до +1.
Обычно используемые в расчетах для одной таблицы дихотомических признаков величины коэффициентов сильно различаются. Так, например, Ф бывает почти в 2 раза меньше Q. Это объясняется измерением различных компонентов связи между переменными и различным направление расчетов. Ф, как указано, отражает взаимосвязь признаков, а Q ее одностороннюю направленность.
Для несимметричных таблиц размерностью С х K, а также для смешанных таблиц (номинальных и ранговых), чаще всего используется коэффициент взаимной сопряженности Пирсона (Р), который является нормированным коэффициентом, т.е. корректируется (cоrrected) относительно размерности таблицы, увеличиваясь несколько по сравнению с первоначальным значением, и измеряется от 0 до +1. Пороговое значение на уровне 0,35. Аналитически, это очень хороший коэффициент, поскольку позволяет «переворачивать» двумерную таблицу а не печатать еще одну.
Измерение связи и ее значимости для ранговых признаков. Напомним, что размерность таблиц ранговых признаков – минимальная 2х2, максимальная 7х7. Это и является основным достоинством для используемых здесь мер связи. Прежде всего, здесь используется:
коэффициент ранговой корреляции Пирсона (Rxy), является наиболее часто используемой мерой связи, которая варьируется от -1 до +1 и указывает, на сколько возрастает/убывает второй признак по мере роста первого. Используется для несимметричных таблиц смешанных признаков (метрические и ранговые).
коэффициент корреляции рангов Спирмена (r s) который изменяется от +1 до -1 (прямая и обратная связь) и имеет высокое пороговое значение на уровне 0,65 при значимости ά на уровне 0,01;
коэффициент корреляции рангов Кендалла (τ - тау), изменяется также от 0 до +1, пороговое значение на уровне 0, 5;
Множественный коэффициент корреляции W (или как его еще называют, коэффициент конкордации. Изменяется от - 1 до +1, с высоким пороговым значением наличия связи между переменными.
В заключение этой краткой характеристики основных мер связи (существует огромный объем специальных монографий посвященных этому разделу математических методов), отметим, что их показатели, зачастую основываются не только на одном и том же принципе расчетов, но и имеют почти полностью идентичные по своей конструкции формулы, хотя и предназначеные для обработки данных совершенно различной природы: экономической, политической, психологической и т.д. Хотя и существуют определенные различия в определении элементов этих формул, но это не сказывается на общности их структурно-логической основы. Исходя из этого, можно объединить в одну группу коэффициенты, предназначенные в основном для измерения связи между количественными (интервальными) признаками, значения которых могут быть ранжированы.
Коэффициенты отражающие принцип взаимной сопряженности можно объединить в другую группу: Q, Ф, Р, К. Т. Исходя из этого, некоторые коэффициенты взаимозаменяемы. Выбор, например, коэффициентов взаимной сопряженности, как наиболее удобных для социологического анализа, поскольку не требуется «переворота» таблицы при анализе (смена мест причины и следствия), часто происходит на основании сложившейся привычки социолога. Некоторые коэффициенты являются «двойниками», имея просто разные форму выражения, как, например, у коэффициентов парной корреляции r и Ф.
Анализ двумерных распределений ранговых признаков. Когда мы анализируем две однотипные порядковые переменные, то возможны два случая зависимости. Первый, при котором значения обеих переменных ранжируются в одном и том же порядке (большие значения - с большими, меньшие - с меньшими), называется полное согласие. Второй, в котором случаи расположены в прямо противоположном порядке (большие значения одной переменной связаны с меньшими значениями другой и наоборот), называется полная инверсия. Тогда оценка степени связи между двумя переменными, будет следствием того, насколько тесно ранги одной переменной связаны с рангами другой либо по типу “полное соответствие” будет равна +1 (если она положительна и приближается к единице), либо по типу “полная инверсия” (если она отрицательная и приближается к -1. Нулевое значение (чего практически никогда не бывает) коэффициента свидетельствует об полной отсутствии связи. Для того чтобы измерить связь между этими двумя переменными, необходимо определить количество соответствий и инверсий, относящихся к каждой ячейке таблицы.
Теперь от данного небольшого теоретического эскурса перейдем к практике анализа и рассмотрим конкретные примеры взаимосвязи между двумя симметричными порядковыми шкалами.
Вопрос: Оцените, пожалуйста, как изменились условия вашей жизни за последние 3 года?
Переменная 2.Материальный достаток в семье
Переменная 4.Уровень оплаты труда
Оценка:
1. Улучшились 2. Не изменились 3. Остались прежними
Crosstable Var #2 with Var #4
#Valid Observations=1345, #Missing Observations=0
|------------|------------|------------|------------|------------|
| 0 | 1 | 2 | 3 | Row totals |
|-----------|------------|------------|------------|------------|------------|
| 0 | 22 64.71%| 2 5.88%| 6 17.65%| 4 11.76%| 34 2.53%|
| |44.90% 1.64%| 1.12% 0.15%| 1.06% 0.45%| 0.73% 0.30%| |
|-----------|------------|------------|------------|------------|------------|
| 1 | 3 1.47%| 99 48.53%| 79 38.73%| 23 11.27%| 204 15.17%|
| | 6.12% 0.22%|55.31% 7.36%|13.91% 5.87%| 4.19% 1.71%| |
|-----------|------------|------------|------------|------------|------------|
| 2 | 15 2.40%| 64 10.26%| 388 62.18%| 157 25.16%| 624 46.39%|
| |30.61% 1.12%|35.75% 4.76%|68.31%28.85%|28.60%11.67%| |
|-----------|------------|------------|------------|------------|------------|
| 3 | 9 1.86%| 14 2.90%| 95 19.67%| 365 75.57%| 483 35.91%|
| |18.37% 0.67%| 7.82% 1.04%|16.73% 7.06%|66.48%27.14%| |
|-----------|------------|------------|------------|------------|------------|
|Column tot.| 49 3.64%| 179 13.31%| 568 42.23%| 549 40.82%| 1345 100.0%|
|-----------|------------|------------|------------|------------|------------|
Chi-Squared=946.2 with 9 degrees of freedom, Significance=0.000
Cramer's V=0.4843, Contingency coeff=0.6426, Corrected=0.7421
Pearson's R=0.5508, Kendall's Tau=0.2939, Significance=0.000
Прежде всего, укажем, что существуют несколько «стартовых» вопросов, которые позволяют упорядочить поиск причинно-следственных связей в конкретном распределении. Для начала, напомним себе характер выборки – репрезентативна или нет? Т.е. известны ли нам пропорции генеральной совокупности в выборке. Это позволит нам выбрать направление причинного анализа – от причины к следствию. Выбор уже сделан, поскольку мы анализируем распределение четвертой переменной в зависимости от состояния второй переменной. И тогда мы анализируем распределения по строкам. Запись задания для машины схематично выглядит следующим образом: Crosstable Var #2 * Var #4 (второй признак на четвертый).Следующий вопрос: анализировать ли от числа опрошенных, или от числа ответивших? Здесь несколько альтернатив. Прежде всего, нужно понять, необходимо ли нам принимать во внимание позицию «0» - не ответивших. Очень часто, особенно при анализе латентных факторов, «нулевая» позиция – отказ от ответа, бывает крайне иллюстративной, и говорит больше чем прямой ответ. В данном случае у нас есть достаточно большая группа «неответивших», чьи стратификационные данные (пол, возраст, профессия и т.д.), было бы интересно выявить в последующем анализе. Следовательно, поскольку эти группы включены в таблицу, то анализ будет вестись к числу опрошенных, т.е. ко всей выборке. В противном случае, в задание на обработку, нужно было бы включить процедуру изменения границ признаков ‑ убрать нулевые значения. И тогда мы получили бы распечатку, где «0» позиции были бы исключены и, подсчет велся только к числу действительных наблюдений (к числу ответивших на данные вопросы). Следующим моментом является возможность, без дополнительного задания, изменить направление анализа. В данном случае, «выдача» расчетов является «дружественной», поскольку и абсолютные и относительные величины рассчитаны как для прямого, так и обратного анализа (смены причины и следствия). На самом деле это происходит достаточно часто, поскольку в социуме причинные связи не только крайне сложны, но и черезвычайно подвижны – причина становится следствием и наоборот достаточно часто. И, наконец, тогда когда информация по данному распределению нам очень важна, а прочтение распределений, как по строкам, так и по столбцам не дает желаемого результата, все та же таблица позволяет провести анализ «по диагонали», в так называемых абсолютных процентных долях.
Теперь рассмотрим статистические индикаторы для проведения анализа. Коэффициенты мер зависимости, начиная с Хи-квадрат -Chi-Squared, говорят о том, что между двумя ранговыми признаками имеется существенная статистическая зависимость. Мы уже упоминали, что программы используют «зашитую» математику. В данном случае таблица сопровождается пятью мерами зависимости, их выбор - зачастую дело вкуса социолога, наилучший из которых соответствует выбору коэффициента контингенции..
Chi-Squared=946.2 with 9 degrees of freedom, Significance=0.000
Cramer's V=0.4843,
Contingency coeff=0.6426, Corrected=0.7421
Pearson's R=0.5508
Kendall's Tau=0.2939, Significance=0.000
И в данном случае апеллировать лучше всего к коэффициенту сопряженности (contingency) Р - коэффициенту выражающего взаимную сопряженность двух данных признаков, откорректированная и округленная величина которого равна 0,74 - что очень много (как и χ²), поскольку его пороговое значение - когда статистическая зависимость имеет место быть, составляет всего 0,35. И, наконец, какие же цифры отбирать для анализа в такой таблице. Напомним, что все число опрошенных – 439 человек, принимается за 100% и расчеты ведутся от этого значения. Итоговые абсолютные значения по строкам и столбцам, для каждой из них также принимаются за 100%. Остаются конкретные значения собственно совмещенных распределений частот признаков в соответствующих квадрантах (клеточках таблицы). Ели мы анализируем по строкам, то рассматриваем процентные доли (а именно ими мы оперируем при описании распределения) расположенные в правом верхнем углу соответствующих квадрантов. Если по столбцам – то в нижнем левом углу квадранта. Абсолютное значение при этом остается неизменным.
Краткое описание таблицы можно свести к следующему тезису: наибольшая плотность частотных распределений находится в среднем квадранте: вторая позиция по горизонтали и вторая позиция по вертикали. Записать это можно в следующем виде: анализ двумерного распределения показывает, что в условиях жизни населения за последние три года наблюдается «стратегическая стабильность» Из 100 процентов ответивших на данную альтернативу – «условия остались прежними» - 62,2 процента это связывают с заработной платой, которая не изменилась. Но если изменить направление анализа – по столбцам, то число респондентов указывающих на стабильность еще выше. Так среди тех, кто отмечает, что уровень оплаты труда не изменился ни к лучшему ни к худшему - 68, 3 % говорят и о стабильности материального достатка в семье. В абсолютной величине (по диагонали), их число составляет почти 30 % от всей выборки. Это по сути дела и определяет величину коэффициента сопряженности. Боле подробное описание связано с оценкой изменения каждой альтернативы переменно по вериткали (или горизонтали).
Дата добавления: 2020-12-11; просмотров: 427;