Тема 19. Анализ данных. Подготовка информации к обработке, редактирование и кодирование

Процесс подготовки данных к анализу состоит из нескольких этапов:

На первом этапе проверки анкеты проверяются, и производится их редактирование.

Проверка анкет состоит в их предварительном просмотре еще во время сбора данных с целью выявить наиболее грубые ошибки, которые есть возможность исправить до окончания полевых работ. Проверяются следующие элементы:

· полнота;

· читаемость;

· понятность;

· логичность;

· единообразие;

· соответствие респондента характеристикам выборки.

Процесс редактирования (editing) заключается в обработке собранных анкет для повышения точности и аккуратности представленных в них данных. Он проводится руководителем полевых исследований и нацелен на обнаружение неточностей, а также решение вопроса о том, что делать с неполными анкетами.

При получении анкет, содержащих ответы неудовлетворительного качества, их обычно отправляют обратно на места сбора данных для уточнения или проведения повторного интервью, или такие анкеты отбраковываются и не включаются в анализ (в случае, когда доля таких анкет невелика).

Существует еще один способ решения проблемы пропущенных данных – назначение пропущенных значений. Если возвращение анкеты на место сбора данных признано экономически нецелесообразным, редактор может самостоятельно присвоить неудовлетворительным откликам пропущенные значения. Рекомендуется применять этот метод в следующих случаях: если количество респондентов, ответы которых признаны неудовлетворительными, невелико; доля ответов неудовлетворительного качества в ответах каждого респондента незначительна; переменные по неудовлетворительным ответам не основные.

На втором этапе данные кодируются. Процедуракодирования (coding) заключается в присвоении символа, обычно цифрового, каждому возможному варианту ответа по каждому вопросу. Иногда такое преобразование осуществляется почти автоматически, в случае если респонденты помечают цифры на шкале оценок; в других случаях требуются существенные усилия по стороны кодировщика – например при кодировании ответов на открытые вопросы.

Если анкета включает только структурированные вопросы или очень незначительное количество неструктурированных вопросов, она кодируется заранее. Это означает, что коды присваиваются, прежде чем начинается непосредственная полевая работа. Если же в анкете содержатся в основном неструктурированные вопросы, коды присваиваются уже после того, как заполненные анкеты возвращаются с места сбора данных (посткодирование).

Код респондента и номер записи необходимо указывать для каждой записи данных. Следует также включать дополнительные коды для каждого респондента: код проекта, код интервьюера, код даты и времени, проверочный код.

Код включает указание на положение столбцов (полей) и информации, которая в них содержится. Кодирование закрытых вопросов, когда существует лишь один возможный ответ на вопрос, например пол респондентов, может проводиться следующим образом: 1 - для женщин и 2- для мужчин.

Кодирование ответов на вопросы интервального типа можно проводить с использованием чисел от 1 до 9 (по количеству вариантов ответов).

В случае если респондент может выбрать несколько вариантов в закрытом вопросе, необходимо создать несколько переменных по количеству вариантов ответов, каждая их которых будет показывать, была ли выбрана эта опция. Тогда при кодировании следует записывать 1, если респондент выбрал данный ответ и 0 в противном случае.

Кодирование неструктурированных вопросов или открытых вопросов, представляет более сложную задачу.

Если в вопросе требуется указать какую-то фактическую информацию, например количество посещений фитнесс-зала или поездок на общественном транспорте в месяц, то лучше использовать цифры в том виде, как они были получены, а не раскладывать их на категории. Если впоследствии появится необходимость в градации, это будет легко сделать: от 1 до 5 раз = 1; от 6 до10 раз =2; от 11 до 15 раз =3 и т.д.

Обычно исследователь составляет список, включающий не более 50 наиболее частых вариантов ответов на открытый вопрос, и определяет категории, подлежащие кодированию. Коды категорий должны быть взаимоисключающими и взаимоисчерпываюшими, т.е. каждому ответу присваивается только один код, и каждый ответ соответствует одному из кодов. При большом разнообразии ответов, этого можно достичь введением дополнительного кода категории, например «другое» или «ни один из предложенных вариантов». Однако следует помнить, что в эту категорию должна войти только незначительная часть ответов (не больше 10%). Подавляющая часть ответов должна относиться к значимым категориям.

После того как коды разработаны, необходимо подготовить кодировщика, который будет присваивать записанным в словарной форме ответам соответствующие коды.

Книга кодов (codebook) – это инструкции по кодированию и необходимая информацию о переменных, используемых в конкретном наборе данных.

Книга кодов применяется как руководство для кодировщика и помогает исследователю правильно определять и располагать переменные. Даже если анкета закодирована заранее, следует подготовить формальную кодировочную книгу. Кодировочная книга обычно включает следующую информацию:

· название и номер переменной,

· номер столбца, в котором содержится определенная переменная,

· номер записи,

· идентификационный номер респондента,

· инструкции по кодированию.

Рекомендуется использовать стандартные коды для «отсутствия информации». Так, все ответы «не знаю», могут кодироваться цифрой 8, «нет ответа» - цифрой 9. Коды пропущенных значений должны отличаться от кодов, присвоенных ответам, полученным надлежащим способом в ходе опроса.

При вводе данных следует использовать шрифт типа «Courier», в котором все символы имеют равную ширину. Это позволяет легко проверить, одинаковой ли длины записи. Если нет – это говорит об ошибке ввода.

Если используются автоматизированные системы CATI и CAPI, правильность ввода данных проверяется по мере их поступления. При вводе неприемлемого варианта ответа компьютер выдает респонденту или интервьюеру соответствующее предупреждение. Если же ответ приемлем, интервьюер или респондент могут увидеть его на экране и проверить его правильность до передачи на дальнейшую обработку.

Используя метод ввода ответов с клавиатуры, полностью избежать ошибок трудно, поэтому необходимо проверять введенные массивы данных, по крайне мере частично. Для проверки правильности введенных данных применяется проверочный компьютер и второй оператор. Второй оператор повторно вводит данные из закодированных анкет, после чего преобразованные данные, введенные двумя операторами, сравниваются по записям. Любое расхождение между двумя комплектами преобразованных данных исследуется с тем, чтобы выявить и исправить ошибки в результате ввода данных с клавиатуры. Учитывая дополнительные временные и денежные затраты, а также то, что опытные операторы по вводу данных работают довольно точно и практически без ошибок, обычно достаточно сверить 20-25% данных.

Третьим этапом обработки данных является очистка данных.

Процедура очищения данных (data cleaning) заключается в тщательной и всесторонней проверке состоятельности собранных данных и выборе стратегии обработки и занесения пропущенных ответов.

Предварительная проверка состоятельности собранных данных проводится на этапе редактирования, но проверка, которая проводится на стадии очищения данных, намного точнее и тщательнее, поскольку выполняется с использованием компьютерной техники.

Проверка состоятельности данных (consistency checks) позволяет выявить данные, выходящие за пределы определенного диапазона, и логически непоследовательные ответы либо определить экстремальные значения.

Наиболее грубые ошибки проверяются с помощью частотного анализа. При частотном анализе выясняется, сколько раз встречается каждый ответ. Неверно отмеченные или занесенные ответы проявятся как лишняя частота, и сразу становится ясно, где была допущена ошибка.

Сканирование форм данных позволяет значительно уменьшить число грубых ошибок при вводе или заполнении анкет, однако это усложняет процедуру заполнения анкеты и не подходит в тех случаях, когда количество открытых вопросов велико.

Логическая непоследовательность ответов может проявиться следующим образом: респондент может указать, что часто пользуется каким-то товаром, и в то же время отмечает, что никогда его не приобретал. Чтобы выявить такие ответы и провести соответствующую корректировку, всю необходимую информацию (код респондента, код переменной, название переменной, номер записи и столбца и выпадающее из необходимого диапазона значение) нужно распечатать, проанализировать и откорректировать на основе имеющихся данных.

Необходимо тщательно проанализировать экстремальные значения. Следует помнить, что экстремальные значения – не всегда результат ошибок, нередко они указывают на то, что существуют определенные проблемы с качеством собранных данных. Например, чрезмерно заниженная оценка какой-либо торговой марки может быть результатом того, что респондент просто без разбора пометил 1 по всем ее характеристикам (по рейтинговой шкале от 1 до 7).

Пропущенные ответы (missing responses) – это значения переменных, неизвестные по причине того, что респонденты не дали однозначных ответов на предложенный вопрос.

Существует несколько методов работы с пропущенными ответами:

1. Замена пропущенного значения нейтральным. По этому методу вместо пропущенных ответов подставляются нейтральные значения, обычно среднее значение по данной переменной. При этом среднее значение переменной остается неизменным, а другие статистические данные, например корреляция, искажаются незначительно.

2. Замена пропущенного значения условным (вменение значений). На основе имеющихся данных исследователь пытается определить, какие ответы дал бы конкретный респондент, если бы он ответил на все вопросы. Это можно сделать статистически, на основе собранных данных, определив взаимосвязи между пропущенной переменной и другими переменными. Так, показатель частоты использования товара можно вычислить на основе информации о размере семей респондентов, предоставивших информацию по этим показателям. Этот метод очень трудоемок и нередко серьезно искажает данные. Чтобы избежать этого, для вычисления условных значений по пропущенным ответам разработаны сложные статистические процедуры.

3. Исключение объекта целиком. При исключении объекта целиком все наблюдения или респонденты с пропущенными ответами исключаются из анализа. Недостаток данного метода в том, что он может вызвать значительное сокращение выборки, а поскольку процесс сбора данных дорог и требует больших временных затрат, этот метод вряд ли можно рекомендоваться для широкого использования.

4. Исключение переменных попарно. Вместо выбраковывания всех случаев с любыми отсутствующими значениями, можно рассматривать только наблюдения или респондентов, по которым есть полные ответы. В результате разные вычисления в ходе анализа могут основываться на разных размерах выборок. Такая процедура обычно применяется при следующих условиях: если размеры выборки велики; если количество пропущенных ответов незначительно; если переменные не сильно взаимосвязаны. Следует помнить, что и в этом случае данная процедура может привести к недостоверным и даже нелогичным результатам исследования, однако очевидным преимуществом такого подхода является использование всех доступных данных.

Применение разных методов работы с пропущенными значениями нередко приводит к разным итогам, особенно если пропуск ответов носит систематический характер, а переменные тесно взаимосвязаны. Таким образом, прежде чем выбрать конкретный метод для работы с пропущенными значениями, он должен тщательно проанализировать все последствия применения той или иной процедуры.

Контрольные вопросы и вопросы для самостоятельного изучения

1. В чем заключается предварительная проверка анкет, поступивших с мест сбора данных?

2. Какие существуют методы работы с ответами неудовлетворительного качества, выявленными в ходе редактирования?

3. В чем разница между предварительным кодированием и посткодированием?

4. Какова процедура кодирования ответов на неструктурированные вопросы?

5. Какие элементы содержит книга кодов?

6. Какие проверки состоятельности данных проводятся в ходе очищения данных?

7. Какие существуют методы работы с пропущенными данными?