ГЛАВА 26. АНАЛИЗ И ОБРАБОТКА ДАННЫХ СОЦИОЛОГИЧЕСКОГО ИССЛЕДОВАНИЯ

Основные понятия: Первичная информация. Анализ, переработка, агрегация (свертывание). Понятия статистики. Адекватность математических методов и инструментария. Средние величины. Мода. Медиана. Дисперсия. Нормальное распределение. Вариационный размах. Стандартное отклонение. Квартили. Кодировка данных. Перешкалирование признаков. Линейные распределения. Двумерные распределения (crosstables). Корреляционные зависимости. Коэффициенты корреляции. Меры связи. Хи-квадрат (χ²). Матрица описания. Паспорт анкеты. Автотрансформация признаков. Интерпретация данных. Латентные группировки. Группы факторов. Коэффициенты линейной и ранговой корреляции. Согласованность изменений. Связи казуальные и опосредованные. Статистическая связь. Вероятностное состояние. Функциональная детерминация. Корреляционная матрица. Объясняемая дисперсия. Канонические компоненты. Таксономические процедуры. Факторный анализ. Метод «главных компонент». Латентно-структурный анализ. Многомерная классификация. Кластерный анализ. Меры классификации. Регрессионный анализ. Процедуры усреднения. Вращенная факторная матрица. Факторный вес признака. Объясняющая сила фактора.

Теперь мы переходим к самому интересному этапу проведения социологического исследования, наступающему тогда, когда все усилия, затраченные на воплощение программы исследования, реализуются в реальное эмпирическое и теоретическое знание. Именно на этом этапе можно ответить и скептикам и критикам, как говорят, с «цифрами в руках», насколько Вы были правы в ваших гипотезах и четки в методических построениях. Рассмотрим по порядку действия социолога, после завершения работы «в поле», при переходе к этапам подготовки и обработки первичной информации.

Анализ данных прикладного СИ можно представить как трехэтапную систему или процесс: подготовка первичной информации к обработке; ее переработка (с помощью математических методов анализа) с целью упорядочения, сокращения или сжатия размерности, выявления существенных закономерностей и зависимостей в характере данных и, наконец, их интерпретация – т.е. собственно анализ данных и представление обобщенной информации в типологизированной форме, подтверждающей основные гипотезы исследования о новом знании в исследуемом явлении или процессе. Необходимо подчеркнуть, что мы используем понятие анализ и анализ данных в несовпадающих смыслах. В первом случае имеется в виду логическая интерпретация компьютерной обработки информации, ее осмысление, а во втором собственно компьютерная обработка (анализ с помощью соответствующих процедур) данных.

Система обработки (переработка, обобщение и свертывание) первичной социологической информации – это совокупность математико-статистических методов, реализуемых на базе РС с помощью стандартных пакетов прикладных программ. Выбор оптимальной совокупности способов преобразования информации, адекватных целям и задачам исследования – важнейшая методологическая задача. Наряду с матметодами, известными с XIX века, современный этап развития социологии характеризуется активным использованием математического моделирования, разработкой специальных методов и программ требующих для своего воплощения работы специалистов различного профиля. В то же время социологу необходимы знания, которые позволяли бы ему индивидуально, на достаточно глубоком статистическом уровне, осмыслить собранную первичную информацию, убедиться в ее достоверности и довести до заказчика в соответствующей форме.

Подготовка данных к обработке. Итак, анкеты собраны, отсортированы (допускается на более 30 процентов пропущенных ответов на вопросы анкеты) и пронумерованы. Лучше всего их пронумеровать перед выходом на объект для опроса, в соответствии с его структурой, дабы избежать путаницы анкет соседних цехов, например, и теперь вы можете приступить к кодировке анкет.

Существует разнообразные способы переноса данных из анкет в компьютер – самый современный – это тот, что используется в избирательных системах, когда отмеченная галочка, или крестик, или перфорация в бюллетене сканируется и попадает прямо в базу данных. Но здесь много «но». Дырочки нужно прокалывать четко, иначе, как при выборе президента Буша-младшего будут сплошные пересчеты и иски. Для «галочек» в бюллетенях необходима очень качественная полиграфия. Да и сканеры стоят у нас еще не везде. Используется и прямой перенос данных с анкеты в компьтер, который имеет как свои достоинства, так и существенные недостаки. Если нет программы контроля ввода данных, то существует опасность появления многочисленных ошибок

Ручная кодировка начинается с подготовки «пустографки», имеющей для удобства записи, на листе формата А4 размер 30 * 30 клеточек (30 строк по 30 столбцов для симметрии записей и чтобы не «теряться» в процессе кодировки), хотя все зависит от длинны анкеты и строки компьтерного файла, которую занимает одна анкета.. Нужно помнить главное. Анкета в социологии измеряет много различных характеристик сразу. Но каждый отдельный вопрос в анкете предназначен, как мы уже подчеркивали ранее, для измерения отдельной социальной характеристики. Здесь работает принцип: один вопрос – одна шкала - одна переменная (который соблюдается еще на этапе разработки вопросника), значение которой заносится в одну клеточку, даже номинальной шкалы с несколькими вариантами ответов. Основные правила подготовки и кодировки данных следующие:

1. Анкеты кодируются в строго возрастающем порядке номеров.

2. Данные анкеты заносятся в кодировочную таблицу (|пустографку) размером, удобного для визуального контроля строки в файле, для удобства, занесения данных в ЭВМ и последующей их проверки. Запись каждой последующей анкеты строго симметрична предыдущей.

3. В первой клетке всегда идет порядковый номер анкеты для фиксации всего массива документов. Таким образом, первый содержательный вопрос анкеты начинается с № 2, чтобы не происходило смещение позиций при кодировке.

4. Кодировка каждой следующей анкеты начинается с новой строки.

5. Кодировка заполняется только синей пастой (гигиенические условия труда при длительной записи и переноса данных в компьютер).

6. В одну клетку можно записать до 9 ответов (оптимально – 5-6) на вопрос с совмещенными альтернативами (вопрос-меню). Однако большее число альтернатив не имеет смысла, т.к.: а) теряется сам предмет выбора; б) респондент не способен сделать осознанно большое число выборов ( нет устойчивости).

7. Альтернативы обозначаются от 1 до 9 и от А до Z латинского алфавита, печатными буквами (за исключением некоторых служебных символов). Если число альтернатив номинального вопроса анкеты больше 9, то последующие обозначаются латинскими печатными буквами, поскольку данные обозначения качественных шкал никакого другого значения, кроме кодового не имеют.

8. Альтернативы записываются слитно как, например, год 1789. Записывается столько альтернатив, сколько отметил респондент, или точнее таким объемом, который вы определили при отбраковке анкет, без дополнительных нулей, запятых и т.д.

9. Если на вопрос вообще нет ответа, в клетку заносится один "0"- нуль.

10. В последней клеточке анкеты после записи переменной ставится знак * (окончание анкеты - например 2346*).

11. Количественные признаки: возраст, стаж, заработная плата, и т.д., измеряются метрическими шкалами, что дает возможность получить средние значения, и что принципиально важно для анализа получаемых распределений. Программы анализа, как правило, позволяют задавать на этапе обработки первичной информации любые интервалы этих переменных.

12. Перенос с кодировочных таблиц в компьютер, т.е. формирование так называемой виртуальной «data» осуществляется также по правилам симметрии и длина записи одной анкеты определяется, как правило, шириной экрана компьютера.

Когда файл данных (матрица описаний) сформирован, мы приступаем к запуску программы проверки ошибок и созданию виртуального массива, к которому мы и будем применять все доступные нам методы статистического анализа. Итак, на этом этапе, для последующего анализа первичных данных, мы должны иметь:

1. Файл «Дата» (Data) – матрица описаний массива анкет или закодированный по указанным выше правилам первичный массив данных;

2. Паспортный файл данных, отражающий последовательно, все шкальные характеристики вопросов анкеты. Поскольку, как правило, анкеты всегда достаточно громоздки, то объем паспортного файла можно уменьшить, используя правила сокращения записи шкал с одинаковыми характеристиками;

3. Файл командной строки, где последовательно указываются те процедуры обработки (начиная с программы проверки ошибок), которые требуются согласно логике обработки и анализа данных, а также отвечают целям и задачам исследования, необходимости отражения в отчете всех заложенных в программе разделов исследования.

Обработка данных. Использование современных ПК и пакетов программ освобождают социолога от необходимости владеть «вручную» практическими методами математического решения этих задач, все они заложены в программном обеспечении ЭВМ. Однако он должен четко представлять какова последовательность действий и какие задания он вправе составлять для ЭВМ при данном наборе первичных данных. Решение этих задач осуществляется разнообразными пакетами программ статистического анализа данных. Универсальные статистические программы для современных персональных компьютеров обладают несравнимо большой мощью и набором сервисных функций, по сравнению с “Маin Fraim” - больших машин 80-х годов. Для сравнения укажем, что, например, просчет и распечатка задач (двумерных распределений) на ЭВМ М-222 и даже на ЭВМ Ряд-2, 3 по нескольким блокам стандартной анкеты занимала 3-4 часа, обычно ночного времени. (Получить допуск на хорошую ведомственную ЭВМ днем было невозможно). На простом «бытовом» РС сейчас это занимает всего несколько секунд. Среди «фирменных» пакетов назовем известные зарубежные продукты SPSS (статистический пакет для социальных наук), SAS, Statgraphic Plus, BMDP (для медицинских данных), распространяемые производителями и в России. Конечно, помимо названных программ существует множество других, которые решают примерно тот же круг задач. В данном случае для учебных и рабочих целей нами будет использоваться PAULA, a также SPSS. Правда, если исследователю захочется воспользоваться разными пакетами программ для обработки одного и того же массива данных, то здесь пред ним могут возникнуть различного рода проблемы, и прежде всего проблемы ввода и вывода (распечатки) данных, но они в принципе разрешимы.

Базовыми функциями этих программ, для прикладных исследовний являются следующие: программа проверки ошибок; преобразование и сжатия (агрегирования) переменных в нужный исследователю вид (например, «отсечение» неответивших, сжатие размерности шкал), получение линейных (одномерных) частотных распределений в абсолютном и процентном выражении; получение двумерных или трехмерных таблиц (crosstable) с набором стандартных эффициентов связи, вычисление средних, дисперсий и других подобных показателей.

В последующем, для более глубокого проникновения в первичную информацию, используются методы многомерного анализа данных, начиная с множественного корреляционного и далее, в зависимости от заложенных измерителей — регрессионный, факторный, кластерный, дисперсионный, различные специальные шкалы и другие процедуры. Таким образом, в этих пакетах программ исследователь-социолог может найти для себя большую часть того, что может потребоваться для глубокого проникновения в структуры собранных данных. Важно то, что все эти методы интегрированы в одну систему. Вместе с тем, подчеркнем, что в прикладных исследованиях методы многомерного анализа, как правило, не используются в виду целого ряда причин.

Рассмотрим теперь всю последовательность обработки и анализа до уровня двумерного распределения, на примере исследования «Этнокультурное пространство малого северного поселения».

Матрица описаний. Она представляет собой строки индивидуальных оценок респондента в одной анкете. Номер объекта (документа) обозначается в первой позиции. Завершение документа обозначается знаком (*). Запись должна быть строго симметричной и тогда в столбцах мы получаем вариации оценок каждого признака. В экспертном оценивании они записываются в два отдельных файла, в результате чего мы получаем оценки экспертов, а также вариационный ряд (со средним значением) по отдельному элементу оцениваемого явления, проблемы. Для примера, здесь приведены №№ анкет 1, 117, 218, 364, 439.

1 2 3 2 3 3 3 3 3 3 2 2 2 1 3 3 2 2 3 1

2 1 2 367 1 25 2 0 4 2 1 25 4 1 6 1 46A 20 5 3

6 10000 1 2000 0 0 0 0 0 0 0 0 0 0 4 3 3 2 2 3

3 2 1 2 1 2 1 2 1 2 2 2 1 2 2 1 1 2 2 2

2 2 2 1 1 1 2 2 1 1 2 2 1 2 0 3 6 3 2 2

1 2 2 2 2 2 2 3 0 0 0 0 0 0 1 2 4 3 3 2

3 3 2 4 3 2 1 7000 5 1000 8 3 2 4 1*

117 3 3 2 2 2 1 1 1 2 1 2 0 1 1 1 1 3 2 3

3 1 2 789 1 36 1 1 6 4 1 5 4 2 3 4 67 53 2 2

3 15000 2 0 0 0 0 0 0 0 0 0 0 0 4 4 4 4 4 4

4 4 2 1 1 2 1 2 2 1 1 2 1 2 2 2 2 2 2 2

1 2 2 2 2 2 2 2 1 1 2 2 2 2 2 3 0 4 1 3

1 1 1 1 2 2 1 1 2 2 1 1 0 2 2 3 4 2 2 4

2 4 2 3 3 2 2 9000 0 0 7 3 1 3 2*

218 3 3 3 2 2 2 3 3 3 2 2 2 3 3 3 2 3 2 3

3 3 1 127 1 35 2 0 3 1 2 0 1 3 7 1 0 0 3 4

1 0 3 0 0 0 300 0 0 0 0 0 0 0 4 3 3 1 4 4

4 2 2 2 2 2 2 1 2 2 2 2 2 2 1 2 2 2 2 2

1 2 2 2 2 1 2 2 1 1 2 2 1 2 0 3 1345 4 2 4

1 2 2 2 2 1 1 1 2 2 2 2 0 2 4 3 1 3 4 1

1 4 4 4 3 2 3 0 56 0 7 5 1 5 2*

364 3 2 3 2 1 3 1 2 2 1 3 1 2 2 3 2 0 1 0

2 3 3 7 1 0 2 0 3 0 2 0 0 5 2 4 5 0 5 4

0 0 5 0 0 0 0 0 0 0 0 0 0 0 2 3 1 2 2 3

2 4 1 2 2 1 1 1 1 1 1 1 2 2 2 2 2 2 2 1

1 1 1 2 2 2 2 2 1 1 2 2 1 2 0 2 4 2 1 6

2 1 3 2 2 3 4 3 1 2 1 2 5 1 3 3 2 1 2 0

0 0 0 0 0 0 5 0 0 0 0 3 2 6 1*

439 2 3 1 2 2 2 3 2 2 2 2 1 2 2 2 2 3 2 2

2 3 1 146 2 20 1 1 4 0 1 20 1 5 4 4 68A 27 3 4

4 3300 5 0 105 0 0 0 0 0 0 0 0 0 4 4 4 4 4 4

4 2 1 1 1 2 1 2 1 2 2 2 1 2 2 2 2 2 2 2

2 2 2 2 2 2 2 2 2 2 2 2 2 2 0 3 7 4 3 7

3 1 1 1 2 2 1 1 2 1 1 2 0 2 5 3 4 1 1 2

3 3 2 3 3 4 5 3300 7 0 4 2 1 5 2*

Число строк записи анкеты не является принципиальным. Запись первой и последующих анкет может выглядеть и так:

1 2 3 2 3 3 3 3 3 3 2 2 2 1 3 3 2 2 3 1 2 1 2 367 1 25 2 0 4 2 1 25 4 1 6 1 46A 20 5 3 6 10000 1 2000 0 0 0 0 0 0 0 0 0 0 4 3 3 2 2 3 3 2 1 2 1 2 1 2 1 2 2 2 1 2 2 1 1 2 2 2 2 2 2 1 1 1 2 2 1 1 2 2 1 2 0 3 6 3 2 2 1 2 2 2 2 2 2 3 0 0 0 0 0 0 1 2 4 3 3 2 3 3 2 4 3 2 1 7000 5 1000 8 3 2 4 1*

Главное – симметричность всех последующих записей - первой. Длина записи указывается в паспорте матрицы описаний (паспорт анкеты), как число перфокарт (cards) – дань тому времени, когда массивы данных вводились в ЭВМ с помощью перфокарт. #VARS – число признаков в анкете. Матрица описаний - это характеристика каждой переменной (признака) анкеты. По каждой переменной (var – от англ. ‑ variable) указывается ее тип: номинальная, ранговая (ordinal) или метрическая. Для обозначения ранговой шкалы часто используется правило «умолчания». Укзываются нижние и верхние пределы значения каждой переменной (low – upp). Для номинального признака указывается допустимый объем значений совестимых альтернатив: vals = values, число которых может быть от одного до шести. Большее их число попросту будет означать, что в вопросе нет отбора альтернатив, так как все они указаны респондентом и, следовательно, вопрос не адекватен принципам измерения и шкалирования. Для метрических признаков пределы значений играют роль логического ограничения переменной для ее последующего контроля при запуске программы проверки ошибок. Собственно паспорту предшествует краткая служебная запись истории исследования: название исследования, место и время проведения, автор (ы). Далее указывается число переменных анкеты - #vars=135, и число строк записи одного документа - #cards=7.

ПАСПОРТ АНКЕТЫ

NAME=SELKOUPS may 2003

AUTHOR=Prоfessor V.V. MELNIK

#VARS=135

#CARDS=7

VAR##=2-21,96,99,101,116,133; LOW=0; UPP=3;

VAR##=22,23,27,55-62,102-108,118-126; LOW=0; UPP=4;

VAR##=24; SCALE=NOMINAL; #VALS=3; LOW=0123456789A;

VAR##=25,31,114,135; SCALE=NOMINAL; #VALS=1; LOW=012;

VAR##=26,28,32,41,48-54; SCALE=METRIC; LOW=0; UPP=99;

VAR##=29,113,132,134; LOW=0; UPP=6;

VAR##=30,33,34,43,127; SCALE=NOMINAL; #VALS=1;LOW=012345;

VAR##=35; SCALE=NOMINAL; #VALS=1; LOW=0123456789A;

VAR##=36,39,40,98,115,117; LOW=0; UPP=5;

VAR##=37; SCALE=NOMINAL; #VALS=6; LOW=0123456789A;

VAR##=38; SCALE=METRIC; LOW=0; UPP=999;

VAR##=42,44-47,128,130; SCALE=METRIC; LOW=0; UPP=99999;

VAR##=63-95,109-112; LOW=0; UPP=2;

VAR##=97,129; SCALE=NOMINAL; #VALS=6; LOW=0123456789;

VAR##=100; SCALE=NOMINAL; #VALS=1; LOW=012345678;

VAR##=113; SCALE=NOMINAL; #VALS=1; LOW=01234567;

VAR##=131; SCALE=NOMINAL; #VALS=1; LOW=0123456789;

Здесь приведена сокращенная запись паспорта, за счет группировки переменных, на основании подобия их характеристик. Исходные пределы значений признака указываются все по порядку, начиная с нулевого (в процедурах автотрансформации нулевое мы значения можем отсекать). После отработки программы по созданию виртуального файла и проверки ошибок, которые мы устраняем, сопоставляя файл либо с кодировкой, либо с анкетой и повторным запуском программы, мы получаем извещение программыо том, что создан виртуальный файл данных, с числом документов равных числу анкет попавших в обработку. После этого мы задаем задание на получение линейных распределений всех признаков анкеты, являющиеся основой нашей последующий стратегии обработки.

Примеры линейных распределений признаков

Номинальный признак анкеты (вопрос № 24) с 10-ю совместимыми альтернативами ‑ вопрос-меню (10 альтернатива отмечена символом).

Var #24

#Valid Observations=1134, #Missing Observations=180

|------------ -|-----------------|---------------|-------------- --|-------- ---- |---------------|

| 0 | 1 | 2 | 3 | 4 | 5 |

|--------------|----------------|----------------|----------------|---------------|---------------|

| 19 1.68%| 205 18.08%| 148 13.05%| 154 13.58%| 74 6.53%| 107 9.44%|

|--------------|----------------|----------------|----------------|---------------|---------------|

|----------- -|-------------|------------|----------- -|------------|

| 6 | 7 | 8 | 9 | A |

|----------- -|-------------|------------|----------- -|------------|

| 159 14.02%| 201 17.72%| 44 3.88%| 20 1.76% | 3 0.26% |

|------------- --|----------------|-------------- -|------------ ---|----------------|

Mode is 1

Вопрос 24. Ценности наиболее значимые для современных коренных северян.

1 – Сохранение традиционного образа жизни 18,1%

2 – Сохранение среды обитания 13,1%

3 – Образование 13,6%

4 – Прочная и большая семья 6,5%

5 – Обеспеченная старость 9,4%

6 – Здоровье членов семьи 14,0%

7 – Материальный достаток 17,7%

8 – Сохранение среды обитания 3,9%

9 – Северная доброжелательность, гостеприимство, добрососедство 1,8%

10 – Другое 0,3%

Нет ответа 1,7%

Анализ одномерных номинальных распределений. Прежде всего, здесь речь идет об измерении и оценке средней тенденции и дисперсии. Любое измерение средней тенденции и дисперсии основано на частотном распределении (приведенная выше распечатка значений одновременно представляет и относительные значения, что очень удобно для описания признака). Частотное распределение, как видно из приведенных примеров - это упорядоченный подсчет абсолютного количества признаков по каждому значению какой-либо переменной (вариационный ряд). Как мы уже отмечали, для различных уровней измерений подходят различные способы исчислений средней тенденции и дисперсии. На номинальном уровне, где цифры и буквы – лишь кодовое обозначение, они обозначают категории признака безотносительно к порядку их расположения, единственно возможный способ измерения средней тенденции - это исчисление моды. Мода, - это просто наиболее часто встречающееся значение признака, в серии зарегистрированных наблюдений. В нашем примере, это первое значение на номинальной шкале ценностей - Сохранение традиционного образа жизни - 18,1%. Можно назвать ее как модой, так и модальной категорией. Распределение, в котором две категории имеются с наибольшим равным количеством случаев, называется распределение с двумя модами, или бимодальным. Возможно, хотя и достаточно редко, также распределение с большим количеством таких категорий. Таким образом, «Сохранение традиционного образа жизни» - являются наиболее важной ценностью для 205 человек.

Однако ясно, что для относительно большого числа людей в этом примере (практически 80,2%) эта информация не полностью верно отражает картину. Более точно об этом можно судить, если подсчитать точное значение дисперсии для номинального уровня измерений, или коэффициент вариации (ν - ню ), формула которого выглядит следующим образом:

n = Sf немодальное

Или

n = 1 - f модальное

где Sf немодальное - сумма всех случаев, не входящих в модальную категорию;

f модальное - количество случаев в модальной категории;

N - общее количество случаев.

По сути дела, этот коэффициент дает нам процентную долю всех признаков, которые не входят в модальную категорию. В нашем примере n=148+154+74+107+159+201+44+20 +3 / 100

или, по упрощенной формуле, n = 1 - 80

100 = 0,8

Cледовательно, здесь мы имеем, по сути дела (1, 2, 3, 6, 7 позиции), пяти модальную конструкцию, поскольку абсолютные частоты очень близки, и составляют, системуценностных ориентаций выборочной совокупности северян. Это маленькое открытие стоит того, чтобы пренебречь небольшими статистическими различиями в альтернативах. Но эту систему можно выразить и в виде иерархии ценностей – и тогда при ранжировании мы соблюдем все полагающиеся статистические «приличия». Значение коэффициента вариации. Его величина колеблется между 0 (когда все случаи принимают одно и то же значение) и 1 - 1/N (когда каждый случай имеет свое значение). В общем, чем меньше коэффициент вариации, тем типичнее, или значимее (верно отражает картину), мода. В случае бимодального или многомодального распределения произвольно выбирается либо одно модальное значение, либо, наоборот, подчеркивается полимодальность, в зависимости от сути признака, целей поска и т.д. В данном случае нам важна группа ценностей, и (n) определяется так, как указано выше.

Анализ частотных распределений ранговых признаков.