Обработка первичной информации

Полученная в ходе полевых работ информация не случайно называется первичной. Исходя из нее, невозможно установить те зависимости, которые кладутся в основу социологических выводов и рекомендаций. Поэтому она нуждается в трансформировании во вторичную информацию, представленную в виде таблиц, графиков, уравнений, коэффициентов и т.п. показателей. Суть этого трансформирования – обобщение и свертка первичной информации, ее превращение в удобную для последующего анализа. Различают "жесткий" и "мягкий" способы обработки первичной информации и анализа вторичных данных. О "мягком" типе речь пойдет в последней главе, описывающей качественные методы социологических исследований. Сейчас будем говорить о "жесткой" обработке, присущей количественным методам.

Ранее говорилось о ручной и машинной обработке количественной информации. Первый вариант – вчерашний день социологии. Современное среднее по масштабам эмпирическое исследование, проведенное на основе количественных методов, дает около ста тысяч байт (единиц) информации, а большое исследование – около миллиона байт. Понятно, что обработка столь объемной информации ручным способом невозможна.

Машинная обработка первичных данных предусматривает комплекс следующих операций и процедур.

Во-первых, выбраковку, т.е. отсеивание из общего массива собранных анкет (бланков интервью, экспертных карт и т.п.) тех, которые заполнены не полностью, небрежно, с поправками, исключающими возможность четкого определения ответа респондента, или другими нарушениями инструкций к их заполнения. Такого рода исследовательские документы признаются браком и удаляются из дальнейшего использования.

Во-вторых, ремонт выборки, необходимость которого обусловлена выбраковкой. Отсеивание ряда документов ведет к нарушению параметров ранее определенной выборки. Поэтому возникает потребность возмещения забракованных документов новыми, т.е. проведения дополнительного сбора информации. Эта операция, как и первая, делается и при ручной обработке.

В-третьих, докодирование полученной информации, ее унификация и формализация до степени, при которой она становится пригодной к вводу в ЭВМ. Это трудоемкая техническая операция начинается в период полевых работ, но может быть завершена только после получения всего массива первичных данных. Уже хотя бы потому, что пронумеровать все полученные документы, точнее, присвоить каждому из них свой код, можно только имея их все. Кроме того, все варианты мнений респондентов, подлежащие формализации, выявятся только по завершению полевого этапа.

В-четвертых, перенос информации на машинные носители – перфокарты и перфоленты, магнитные диски и ленты и т.п. Естественно, что выбор носителя зависит от типа и вида имеющихся в распоряжении социологов ЭВМ.

В-пятых, ввод данных в ЭВМ и организация введенной информации в соответствии с используемым пакетом прикладных программ машинной обработки.

В-шестых, проверка качества введенной информации и коррекция обнаруженных ошибок. Для этого используются специальные процедуры обнаружения искаженной информации и ее исправления, а также программы корректировки и преобразования данных, входящих в общий пакет программ машинной обработки.

В-седьмых, уточнение системы количественных показателей, на основе которых будет производится весь последующий анализ информации, и формулирование заданий на их машинное установление. При этом учитывается, с одной стороны, содержащаяся в исследовательской программе операционализация понятий, а с другой, планируемое использование методов математического анализа полученной информации.

В-восьмых, исполнение вышеназванных заданий, получение искомых цифр, таблиц, шкал, графиков, индексов, коэффициентов и других количественных характеристик изучаемых явлений и процессов. Особую значимость для последующего анализа информации имеют матрицы данных, без которых невозможно применение большинства математических методов. В социологии используют пять основных разновидностей матриц: а) матрица "объект-признак"; б) таблица сопряженности признаков; в) матрица коэффициентов связей между признаками; г) матрица расстояний между объектами; д) матрица близостей между объектами или признаками. Получение этих матриц – главный критерий завершения этапа машинной обработки первичной социологической информации количественного свойства.

3.3.4. "Жесткий" анализ вторичных данных

Содержание этого этапа исследования ^*>>> составляет осмысление математическими методами обработанной на ЭВМ, а потому получившей обобщенный статистический характер, информации.

Социологи используют многие методы математической статистики – детерминационный, причинный, компонентный, кластерный, дисперсионный, факторный, дискриминантный, ковариационный, лонглинейный, регрессионный, многомерный и другие. С помощью каждого из них можно решить строго определенные узкие задачи, уловить лишь некоторые стороны или грани изучаемого явления. Односторонность методов математического анализа побуждает социологов применять одновременно их комплекс, то или иное их сочетание.

Определяя математические методы, берущиеся на вооружение, квалифицированный социолог исходит из задач и гипотез своего исследования. Хорош не тот метод, который лучше других усвоен социологом, а тот, который в наибольшей мере адекватен характеру изучаемого явления. Методы матанализа – не самоцель, а средство решения поставленных в исследовательской программе задач, способ проверки рабочих гипотез. Только при таком понимании реальна их научно-исследовательская польза. Об этом приходится говорить потому, что часто стали встречаться социологические исследования, пестрящие математическими формулами, но не содержащие весомых доказательств (или опровержений) априорных предположений.

Избирая тот или иной метод, социолог обязан знать не только его предназначение и возможности, но и его технологию – последовательность всех образующих его интеллектуальных процедур. Например, факторный анализ, позволяющий обобщить информацию о связях между наблюдаемыми признаками изучаемого явления на основе выделения скрытых (латентных, непосредственно ненаблюдаемых) факторов, предполагает:

построение матрицы данных типа "объект-признак";
приведение признаков к стандартной форме на основе особой формулы;
исчисление так называемых факторных нагрузок, т.е. коэффициентов латентных признаков (факторов);
выражение наблюдаемых признаков в виде суммы латентных факторов, умноженных каждый на свой коэффициент (по специальной формуле);
исчисление факторных нагрузок по наблюдаемым значениям исходных признаков (на основе сложных статистических процедур и формул);
построение матриц факторных нагрузок;
определение системы коэффициентов корреляции признаков и факторов;
разделение факторов на общие и характерные;
построение графической модели связей между наблюдаемыми признаками и факторами;
интерпретация определенных факторов в качестве детерминант наблюдаемых признаков (с оговорками, обусловленными ограничениями данного метода).

Заметим, что понятие "интерпретация информации (данных)" в социологии имеет несколько значений. Им обозначают:

перевод первичных данных на язык машины, их унификацию и формализацию (о чем шла речь в предыдущем параграфе);
конструирование математических моделей исследуемого явления, т.е. перевод содержательных представлений на язык математических формул (о чем идет речь в данном параграфе);
обратный перевод с формализованного математического языка, т.е. объяснение содержательного смысла математических процедур, истолкование значимости формализованного анализа для формулирования выводов и рекомендаций (о чем пойдет речь в следующем фрагменте).