Сравнение двух экспериментальных распределений

На практике значительно чаще встречаются задачи, в которых необходимо сравнивать не теоретическое распределение с эмпирическим, а два и более эмпирических распределения между собой. Ниже будут рассмотрены типичные варианты задач, предусматривающих сравнение экспериментальных распределений (данных) и способы их решения с использованием критерия хи-квадрат.

В этих задачах с помощью критерия хи-квадрат проводится оценка однородности двух и более независимых выборок и таким образом проверяется гипотеза об отсутствии различий между двумя и более эмпирическими (экспериментальными) распределениями.

Исходные данные двух эмпирических распределений для сравнения между собой могут быть представлены разными способами. Наиболее простой из этих способов: так называемая «четырехпольная таблица». Она используется в тех случаях, когда в первой выборке имеются два значения (числа) и во второй выборке также два значения (числа). Критерий хи-квадрат позволяет также сравнивать между собой три, четыре и большее число эмпирических величин. Для расчетов во всех этих случаях используются различные модификации формулы (13.1), что позволяет существенно облегчить процесс вычисления.

Начнем изучение сравнения двух эмпирических распределений с самого простого случая – использования четырехпольной таблицы.

Пример 13.5. (Задача взята из учебного пособия «Психологическая диагностика» / под ред. К. М. Гуревича и М. К. Акимовой. – М. : Изд-во УРАО, 1997.) Одинаков ли уровень подготовленности учащихся в двух школах, если в первой школе из 100 человек поступили в вуз 82 человека и во второй школе из 87 человек поступили в вуз 44?

Решение. Условия задачи можно представить в виде четырехпольной таблицы 13.6, ячейки которой обозначаются обычно как А, В, С и D.

Таблица 13.6

	1 школа	2 школа
Число поступивших в вуз	А 82	В 44
Число не поступивших в вуз	С 18	D 43
Сумма

Сформулируем гипотезы

Н₀: Уровень подготовленности учащихся в двух школах является одинаковым.

Н₁: Уровень подготовленности учащихся в двух школах не является одинаковым.

Согласно данным, представленным в таблице 13.6, в нашем случае имеется четыре эмпирические частоты, это соответственно 82, 44, 18 и 43. Для того чтобы можно было использовать формулу (13.1), необходимо для каждой из этих эмпирических частот найти соответственные «теоретические» частоты. Здесь и далее, в других задачах этого раздела, «теоретические» частоты вычисляются на основе имеющихся эмпирических частот разными способами, в зависимости от типа задачи. Вычислим четыре теоретических частоты в нашем случае.

Из таблицы 13.6 следует, что 18 и 43 человека из первой и второй школ соответственно не поступили в вуз. Относительно этих величин подсчитывается величина Р. Это так называемая доля признака, или частота. В данном случае признаком явилось то, что выпускники не поступили в вуз. Величина Р подсчитывается по формуле (13.5) следующим образом:

. (13.5)

Величина Р позволяет рассчитать «теоретические» частоты для третьей строчки таблицы 13.6, которые обозначим как f_m₁ и f_m₂. Эти частоты показывают, сколько учащихся из первой и второй школ не должны были поступить в вуз. Они подсчитываются следующим образом:

f_ml для первой школы = 0,33∙100 = 33;

f_m₂ для второй школы = 0,33∙87 = 28,71.

Иными словами, из первой школы не должны были поступить в вуз 33 человека, а из второй 28,71. (Для большей точности вычислений по методу хи-квадрат желательно не округлять результаты вычислений, а сохранять сотые и даже тысячные значения после запятой.) Исходя из вновь полученных «теоретических» частот – 33 и 28,71, мы можем произвести расчет того, сколько учащихся должны были бы теперь поступить в вуз из первой и второй школ. Обозначим эти частоты как f_m₃ для первой и f_m₄ для второй школ, получим соответственно:

f_m₃ для первой школы 100 – 33 = 67;

f_m₄ для второй школы 87 – 28,71 = 58,29.

Перепишем полученные «теоретические» частоты в новую таблицу 13.7.

Таблица 13.7

	1 школа	2 школа
Число учащихся, которые должны были бы поступить в вуз	A f_m₃ = 67	B f_m₄ = 58,29
Число учащихся, которые не должны были поступить в вуз	с f_m₁ = 33	D f_m2 = 28,71
Сумма

Подчеркнем, что сумма по столбцам для вновь найденных «теоретических» частот должна совпадать с исходной, т. е. 67 + 33 = 100 и 82 + 18 = 100, аналогично – 58,29 + 28,71 = 87 и 44 + 43 = 87. Подчеркнем также, что при расчетах «теоретических» частот им можно было бы дать и другое символическое обозначение, более привычное. Так, первую подсчитанную «теоретическую» частоту, представленную в ячейке С таблицы 13.7, можно было бы обозначить не как f_m₁ = 33, а как f_m₃ = 33 и так далее. Это, однако, не принципиально, главное производить вычисления строго по алгоритму, в соответствии с формулой (13.1).

Теперь величина хи-квадрат эмпирическая подсчитывается по знакомой формуле (13.1). Для этого из величин, представленных в ячейках таблицы 13.6, вычитаются соответствующие величины, представленные в ячейках таблицы 13.7:

В данном случае число степеней свободы ν = (k – 1)∙(с – 1) подсчитывается как произведение числа столбцов минус 1 на число строк минус 1. Иными словами, ν = (2 – 1)∙(2 – 1) = 1, поскольку у нас 2 строки и два столбца. И в соответствии с таблицей 16 приложения 1 находим:

Строим «ось значимости».

Полученная величина χ²_эмп попала в зону значимости. Иными словами, следует принять гипотезу Н₁ о наличии различий между двумя эмпирическими распределениями. Таким образом, уровень подготовленности учащихся в двух школах оказался разным. На основе эмпирических данных мы можем теперь утверждать, что уровень подготовленности учащихся в первой школе существенно выше, чем во второй. Без использования критерия хи-квадрат такого вывода мы сделать бы не могли.

Решим аналогичную задачу, т. е. задачу в которой сравниваются две выборки, имеющие по два значения, но другим способом.

Пример 13.6. В двух школах района психолог выяснял мнения учителей об организации психологической службы в школе. В первой школе было опрошено 20 учителей, во второй 15. Психолога интересовал вопрос: в какой школе психологическая служба поставлена лучше? Учителя давали ответы по номинативной шкале – нравится (да), не нравится – (нет).

Решение. Результаты опроса представим в виде четырехпольной таблицы 13.8.

Таблица 13.8

	1 школа	2 школа	Суммы
Число учителей, ответивших на вопрос утвердительно	А 15	В 1	А + В = 22
Число учителей, ответивших на вопрос отрицательно	С 5	D 8	С + D= 13
Сумма	А + С = 20	В + D= 15

Сформулируем гипотезы

Н₀: Уровень психологической службы в двух школах является одинаковым.

Н₁: Уровень психологической службы в двух школах не является одинаковым.

Величина эмпирического значения хи-квадрат подсчитывается здесь по-другому, согласно следующей формуле:

, (13.6)

где N = A + B + C + D – или общее число учителей, принявших участие в опросе.

Подставляем исходные данные в формулу (13.6) получаем:

В данном случае число степеней свободы ν = (k – 1)∙(с – 1) подсчитывается как произведение числа столбцов минус 1 на число строк минус 1. Иными словами, ν = (2 – 1)∙(2 – 1) = 1, поскольку у нас 2 строки и 2 столбца. И в соответствии с таблицей 16 приложения 1 находим:

Строим «ось значимости».

Полученная величина χ²_эмп попала в зону незначимости. Иными словами, следует принять гипотезу H₀ об отсутствии различий между двумя эмпирическими распределениями. Таким образом, уровень организации психологической службы в обеих школах оказался одинаковым.

Теперь решим задачу, в которой сравниваются две выборки, имеющие по четыре значения каждая.

Пример 13.7. В двух школах района выяснялась успешность знания алгебры учащимися десятых классов. Для этого в обеих школах были случайным образом отобраны 50 учащихся и с ними проведены контрольные работы. Проверялось предположение о том, что существенной разницы в уровне знаний учащимися алгебры в двух школах не существует.

Решение. Результаты контрольных работ представим сразу в виде таблицы 13.9.

Таблица 13.9

Школы	Оценки	Суммы

Школа 1	О₁₁ = 3	О₁₂ = 19	О₁₃ = 18	О₁₄ = 10
Школа 2	О₂₁ = 9	О₂₂ = 24	О₂₃= 12	О₂₄ = 5
Суммы	О₁₁+ О₂₁= 12	О₁₂+ О₂₂= 43	О₁₃+ О₂₃= 30	О₁₄ + О₂₄= 15

Сформулируем гипотезы

Н₀: Существенной разницы в уровне знаний учащимися алгебры в двух школах не существует.

Н₁: Существенная разница в уровне знаний учащимися алгебры в двух школах существует.

В таблице 13.9 О₁₁ – число учащихся первой школы, получивших оценку 2 в контрольной работе по алгебре, О₁₂ – число учащихся первой школы, получивших оценку 3 в контрольной работе по алгебре, О₁₃ – число учащихся первой школы, получивших оценку 4 в контрольной работе по алгебре и т. д.

Подчеркнем, что «визуальный» анализ данных таблицы 13.9 показывает, что во второй школе число «двоечников» в три раза больше, чем в первой, и, наряду с этим, число «отличников» в два раза меньше, чем в первой школе. Казалось бы, можно сделать вывод о том, что вторая школа показывает существенно худшие результаты, чем первая. Однако подобные утверждения можно делать только на основе статистической обработки экспериментальных данных.

В общем случае для подобных задач подсчет эмпирического значения хи-квадрат осуществляется по формуле (13.7), являющейся модификацией формулы (13.2):

. (13.7)

Подставим данные нашего примера в формулу (13.7), получим

Число степеней свободы в данном случае равно ν = (k – 1)∙(с – 1) = (2 – 1)∙(4 – 1) = 3. По таблице 16 приложения 1 находим

Строим «ось значимости».

Полученные различия попали в зону незначимости. Иными словами, следует принять нулевую гипотезу Н₀ о сходстве или о том, что уровень знания учащимися алгебры в двух разных школах статистически значимо не отличается между собой. Выше при простом визуальном анализе экспериментальных данных мы высказывали предположение, что во второй школе успеваемость учащихся по алгебре существенно хуже, чем в первой, однако, критерий хи-квадрат показал, что это далеко не так.

Задачи, аналогичные рассмотренной выше, т. е. с большим числом значений в сравниваемых выборках, можно решить и другим способом, используя хорошо знакомую нам формулу (13.1). Рассмотрим этот способ на примере решения примера 13.8.

Пример 13.8. Каково сходство в степени удовлетворенности работой на одном предприятии у двух неравных по численности групп? (Можно рассматривать эту задачу как продолжение задачи 13.3).

Решение. Для решения этой задачи психолог провел на том же предприятии (как в задаче 13.3) опрос о степени удовлетворенности работой еще в одной группе, но уже из 80 респондентов. Теперь у психолога есть две выборки испытуемых, первая – 65 человек и вторая – 80 человек. Полученные данные позволяют использовать критерий хи-квадрат по-разному:

· во-первых, на новой выборке из 80 респондентов можно решить задачу, аналогичную задаче 13.3;

· во-вторых, объединив две выборки, можно опять решить задачу, аналогичную задаче 13.3;

· в-третьих, можно сравнить распределения выбора альтернатив двух выборок (первой и второй), т. е. сравнить степень удовлетворенности работой двух групп респондентов, и решить необходимую нам задачу 13.8.

Для решения задачи 13.8 на основе знания эмпирических частот первого и второго обследований необходимо вычислить «теоретические» частоты по всей совокупности данных, поскольку в противном случае невозможно будет применить формулу (13.1).

Это осуществляется следующим образом: сумма эмпирических частот 65 + 80 = 145 равна общему количеству респондентов, опрошенных психологом.

Представим долю частот первой выборки в виде дроби: .

Представим долю частот второй выборки также в виде дроби: .

Особо подчеркнем, что «теоретические» частоты необходимо рассчитать для каждой альтернативы (вариантов ответов) отдельно для обеих выборок.

Для этого по каждой альтернативе суммируем эмпирические частоты первой и второй выборок. Поскольку для первой альтернативы в первой выборке f_э = 8, а во второй выборке f_э = 18, то их сумма будет равна 8 + 18 = 26. Для второй альтернативы в первой выборке f_э = 22, во второй f_э = 20, тогда их сумма равняется 22 + 20 = 42. И так далее для каждой альтернативы.

«Теоретическая» частота каждого варианта ответа в обеих выборках получается как результат умножения суммы эмпирических частот на соответствующую процентную долю, представленную в виде десятичной дроби.

Поскольку частоты выбора первого варианта ответа (альтернативы) составляют в обеих выборках 8 + 18 = 26, то

f_m для 1-й выборки = 26∙0,45 = 11,7;

f_m для 2-й выборки = 26∙0,55 = 14,3.

Поскольку частоты выбора второго варианта ответа (альтернативы) составляют в обеих выборках 20 + 22 = 42, поэтому:

f_m для 1-й выборки = 42∙0,45 = 18,9;

f_m для 2-й выборки = 42∙0,55 = 23,1.

Поскольку частоты выбора третьего варианта ответа (альтернативы) составляют в обеих выборках 18 + 14 = 32, поэтому:

f_m для 1-й выборки = 32∙0,45 = 14,4;

f_m для 2-й выборки = 32∙0,55 = 17,6.

Поскольку частоты выбора четвертого варианта ответа (альтернативы) составляют в обеих выборках 11 + 9 = 20, поэтому:

f_m для 1-й выборки = 20∙0,45 = 9;

f_m для 2-й выборки = 20∙0,55 =11.

Поскольку частоты выбора пятого варианта ответа (альтернативы) составляют в обеих выборках 13 + 12 = 25, поэтому:

f_m для 1-й выборки = 25∙0,45 = 11,25;

f_m для 2-й выборки = 25∙0,55 = 13,75.

Следует помнить, что суммы рассчитанных «теоретических» частот по каждой альтернативе должны совпадать с суммой эмпирических частот по этой же альтернативе. Проверим правильность этого положения для рассчитанных «теоретических» частот.

Для первого варианта ответа 11,7 + 14,3 = 26 = 8 + 18.

Для второго варианта ответа 18,9 + 23,1 = 42 = 22 + 20.

Для третьего варианта ответа 14,4 + 17,6 = 32 = 14 + 18.

Для четвертого варианта ответа 9 + 11 = 20 = 9 + 11.

Для пятого варианта ответа 11,25 + 13,75 = 25 = 12 + 13.

Теперь, для того чтобы использовать формулу (13.1), нужно объединить полученные эмпирические и «теоретические» частоты двух выборок в стандартную таблицу 13.10. Поскольку сравниваются только две выборки, то вместо одной альтернативы в таблице 13.10 будет две альтернативы под номерами 1.1 и 1.2 – это, соответственно, две первые альтернативы для первой и для второй выборки и так далее.

Таблица 13.10

Альтернативы	f_э	f_m

1.1		11,7	– 3,7	13,69	1,17
1.2		14,3	+ 3,7	13,69	0,96
2.1		18,9	+3,1	9,61	0,51

Окончание табл. 13.10


2.2	23,1	–3,1	9,61	0,42
3.1	14,6	–0,4	0,16	0,01
3.2	17,6	+0,4	0,16	0,01
4.1
4.2
5.1	11,25	+0,75	0,56	0,05
5.2	13,75	–0,75	0,56	0,05
Суммы				χ²_эмп = 3,17

Сформулируем гипотезы

Н₀: Существует сходство в степени удовлетворенности работой на одном предприятии у двух неравных по численности групп.

Н₁: Существует различие в степени удовлетворенности работой на одном предприятии у двух неравных по численности групп.

При сопоставлении двух эмпирических распределений число степеней свободы определяется по формуле: ν = (k – 1)∙(с – 1), где k – число строк в таблице эмпирических частот только для первой выборки (или только для второй); с – количество сравниваемых распределений.

В нашем случае k = 5, с = 2, следовательно, ν = (5 – 1)∙(2 – 1) = 4.

По таблице 16 приложения 1 находим:

Строим «ось значимости».

Полученные различия попали в зону незначимости, т.е. следует принять нулевую гипотезу Н₀ о сходстве. Иными словами, распределения двух выборок значимо не отличаются между собой, и, следовательно, у двух групп опрошенных респондентов отсутствуют предпочтения в выборе удовлетворенности или неудовлетворенности работой.

Число переменных в сравниваемых выборках может быть достаточно большим. В этом случае целесообразно использовать специальный прием группировки значений по интервалам. Число интервалов удобнее всего получать, используя таблицу 13.11.

Таблица 13.11

Число значений переменной (от – до)	Число интервалов
25 – 40	5 – 6
40 – 60	6 – 8
60 – 100	7 – 10
100 – 200	8 – 12
> 200	10 – 15

В двух следующих задачах сравниваются две выборки, в которых значений переменных столь много, что предыдущие способы сравнения оказываются трудновыполнимыми.

Пример 13.9. Психолог сравнивает два эмпирических распределения, в каждом из которых было обследовано 200 человек по тесту интеллекта. Вопрос: различаются ли между собой эти два распределения?

Решение. Представим эмпирические данные в виде таблицы 13.12, в которой приведены также предварительные расчеты, необходимые для получения χ²_эмп.

Таблица 13.12

Уровни интеллекта	Частоты	f₁∙ f₁	f₁ +f₂
f₁	f₂
				0,50
				3,12
				12,04
				30,22
				31,01
				21,68
				5, 88
				0,33
				0,00
Сумма				104,78

Сформулируем гипотезы

Н₀: Распределения уровней интеллекта в двух равных по численности выборках статистически значимо не отличаются между собой.

Н₁: Распределения уровней интеллекта в двух равных по численности выборках статистически значимо отличаются между собой.

Для случая равенства числа испытуемых в первой и второй выборках расчет производится по формуле (13.8):

, (13.8)

где f₁ – частоты первого распределения, а f₂ – частоты второго. N – число элементов в каждой выборке. В нашем случае в каждой из выборок оно равно 200.

Произведем расчет по формуле (13.8), основываясь на результатах таблицы 13.12:

χ²_эмп= 4 ∙ 104,78 – 2 ∙ 200 = 419,12 – 400 = 19,12.

В данном случае число степеней свободы ν = (k – 1)∙(с – 1) = (9 – 1)∙(2 – 1) = 8, где k – число интервалов разбиения, а с – число столбцов. В соответствии с таблицей 16 приложения 1 находим:

Строим «ось значимости».

Полученные различия попали в зону неопределенности. Психолог может как принять, так и отклонить гипотезу Н₀.

Рассмотрим еще одну аналогичную задачу, в которой число значений в каждой из выборок различно. В этом случае используют другую формулу расчета.

Пример 13.10. Психолог сравнивает два эмпирических распределения, в каждом из которых было обследовано по тесту интеллекта разное количество испытуемых. Вопрос – различаются ли между собой эти два распределения?

Решение. Представим эмпирические данные сразу в виде таблицы 13.13, отметив при этом, что число градаций IQ увеличилось, в отличие от таблицы 13.12, до 150.

Таблица 13.13

Уровни интеллекта	Частоты	f₁∙ f₁	f₁ +f₂
f₁	f₂
				1,00
				8,00
				22,04
				21,95
				25,78
				5,54
				4,90
				2,00
				0,00
				0,50
Сумма				91,71

Сформулируем гипотезы

Н₀: Распределения уровней интеллекта в двух неравных по численности выборках статистически значимо не отличаются между собой.

Н₁: Распределения уровней интеллекта в двух неравных по численности выборках статистически значимо отличаются между собой.

В таблице 13.13 произведены предварительные расчеты, необходимые для вычисления эмпирического значения критерия хи-квадрат при условии разного числа испытуемых в первой и второй выборках. В этом случае расчет производится по формуле (13.9):

, (13.9)

где f₁ – частоты первого распределения, f₂– частоты второго. N – сумма числа элементов в первой n_l и второй n₂ выборках. В нашем случае оно равно 177 = 124 + 53, а сумма уже подсчитана в нижней строчке последнего столбца таблицы 13.13.

Осталось произвести расчет по формуле (13.9.).

χ²_эмп = 177 ∙ 177/(124 ∙ 53)∙(91,71 – (124 ∙ 124)/177) = 23,07

В данном случае число степеней свободы ν = (к – 1)∙(с – 1) = (10 – 1)∙(2 – 1) = 9, где k – число интервалов разбиения, а с – число столбцов. В соответствии с таблицей 16 приложения 1 находим:

Строим «ось значимости».

Полученная величина эмпирического значения хи-квадрат попала в зону значимости. Иными словами, следует принять гипотезу Н₁ о том, что распределения уровней интеллекта в двух неравных по численности выборках статистически значимо отличаются между собой.

<46 47 484950 51 52 >

Дата добавления: 2021-11-16; просмотров: 600;

Сравнение двух экспериментальных распределений

Публикации по технике и механике

Публикации по биологии

Публикации по информатике

Публикации по строительству

Публикации по физике

Публикации по химии

Публикации по электронике

Публикации по искусству

Публикации по географии

Публикации по медицине

Публикации по педагогике