Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Сравнение двух экспериментальных распределений



На практике значительно чаше встречаются задачи, в кото­рых необходимо сравнивать не теоретическое распределение с эмпирическим, а два и более эмпирических распределения меж­ду собой. Ниже будут рассмотрены типичные варианты задач, предусматривающих сравнение экспериментальных распределе­ний (данных) и способы их решения с использованием крите­рия хи- квадрат.

В этих задачах с помощью критерия -квадрат проводится оценка однородности двух и более независимых выборок и таким образом проверяется гипотеза об отсутствии различий между двумя и более эмпирическими (экспериментальными) распреде­лениями.

Исходные данные двух эмпирических распределений для сравнения между собой могут быть представлены разными спо­собами. Наиболее простой из этих способов: так называемая «че­тырехпольная таблица». Она используется в тех случаях, когда в первой выборке имеются два значения (числа) и во второй вы­борке также два значения (числа). Критерий -квадрат позволя­ет также сравнивать между собой три, четыре и большее число эмпирических величин. Для расчетов во всех этих случаях исполь­зуются различные модификации формулы (8.1), что позволяет существенно облегчить процесс вычисления.

Начнем изучение сравнения двух эмпирических распределе­ний с самого простого случая — использования четырехпольной таблицы.

Задача 8.5.(Задача взята из учебного пособия «Психологи­ческая диагностика» под ред. К.М. Гуревича и М.К. Акимовой. М. Изд-во УРАО, 1997 г.) Одина­ков ли уровень подготовленности учащихся в двух школах, если в первой школе из 100 чело­век поступили в вуз 82 человека и во второй школе из 87 человек поступили в вуз 44? Решение.

Условия задачи можно представить в виде четы­рехпольной таблицы 8.6 ячейки которой, обозна­чаются обычно как А, В, Си D:

Таблица 8.6

  1 школа 2 школа
Число поступивших в вуз А 82 В 44
Число не поступивших в вуз С 18 D 43
Сумма    

Согласно данным, представленным в таблице 8.6, в нашем случае имеется четыре эмпирические частоты, это соответствен­но 82, 44, 18 и 43. Для того чтобы можно было использовать формулу (8.1), необходимо для каждой из этих эмпирических ча­стот найти соответственные «теоретические» частоты. Здесь и да­лее, в других задачах этого раздела, «теоретические» частоты вы­числяются на основе имеющихся эмпирических частот разными способами, в зависимости от типа задачи. Вычислим четыре тео­ретических частоты в нашем случае.

Из таблицы 8.6 следует, что 18 и 43 человека из первой и второй школ соответственно не поступили в вуз. Относительно этих величин подсчитывается величина Р. Это так называемая доля признака, или частота. В данном случае признаком явилось то, что выпускники не поступили в вуз. Величина Р подсчитыва­ется по формуле (8.5) следующим образом:

(8.5)

Величина Р позволяет рассчитать «теоретические» частоты для третьей строчки таблицы 8.6, которые обозначим как fm1 и fm 2.

Эти частоты показывают, сколько учащихся из первой и второй школ не должны были поступить в вуз. Они подсчитывается сле­дующим образом:

fm l для первой школы = 0,33 • 100 = 33

fm 2 для второй школы = 0,33 • 87 = 28,71

Иными словами, из первой школы не должны были посту­пить в вуз 33 человека, а из второй 28,71. (Для большей точности вычислений по методу хи -квадрат желательно не округлять ре­зультаты вычислений, а сохранять сотые и даже тысячные зна­чения после запятой). Исходя из вновь полученных «теоретичес­ких» частот -- 33 и 28,71, мы можем произвести расчет того, сколько учащихся должны были бы теперь поступить в вуз из первой и второй школ. Обозначим эти частоты как fm3 для первой fm 4 для второй школ, получим соответственно:

fm3 для первой школы 100 - 33 = 67

fm4 для второй школы 87 - 28,71 = 58,29

Перепишем полученные «теоретические» частоты в новую

таблицу 8.7 •

Таблица 8.7

  1 школа 2 школа
Число учащихся, которые должны были бы поступить в вуз A fm3 = 67 В fm4 = 58,29
Число учащихся, которые не должны были поступить в вуз с fm1 = зз D fm 2 = 28,71
Сумма    

Подчеркнем, что сумма по столбцам для вновь найденных «тео­ретических» частот, должна совпадать с исходной, т.е. 67 + 33 = 100 и 82 + 18 = 100, аналогично - 58,29 + 28,71 = 87 и 44 + 43 = 87. Подчеркнем также, что при расчетах «теоретических» частот им можно было бы дать и другое символическое обозначение, более привычное. Так, первую подсчитанную «теоретическую» частоту, представленную в ячейке С таблицы 8.7 можно было бы обозна­чить не как fm1 = 33, а как fm3 = 33 и так далее. Это, однако, не


принципиально, главное производить вычисления строго по ал­горитму, в соответствии с формулой (8.1).

Теперь величина хн-квадрат эмпирическая подсчитывается по знакомой формуле (8.1). Для этого из величин, представленных в ячейках таблицы 8.6 вычитаются соответствующие величины, представленные в ячейках таблицы 8.7:

В данном случае число степеней свободы v = (k - 1) • - 1) подсчитывается как произведение числа столбцов минус 1 на число строк минус 1. Иными словами, v = (2 - 1) • (2 - 1) = 1, поскольку у нас 2 строки и два столбца. И в соответствии с таб­лицей 12 Приложения 1 находим:

х 2кр = {3,841 для Р < 0,05 х 2кр = {6,635 для Р< 0,01


Строим «ось значимости»:

Полученная величина х 2эмп попала в зону значимости. Иными словами, следует принять гипотезу Н1 о наличии различий меж­ду двумя эмпирическими распределениями. Таким образом, уро­вень подготовленности учащихся в двух школах оказался разным. На основе эмпирических данных мы можем теперь утверждать, что уровень подготовленности учащихся в первой школе суще­ственно выше, чем во второй. Без использования критерия хи- квадрат такого вывода мы сделать бы не могли.

Решим аналогичную задачу, т.е. задачу в которой сравнива­ются две выборки, имеющие по два значения, но другим спосо­бом.

Задача 8.6. В двух школах района психолог выяснял мнения учителей об организации психологической службы в школе, В первой школе было опрошено 20 учите­лей, во второй 15. Психолога интересовал вопрос: в какой школе психологическая служба поставлена лучше? Учителя давали ответы по номинативной шкале — нравится (да), не нравится — (нет).

Решение. Результаты опроса представим в виде четырех­польной таблицы 8.8:

Таблица 8.8

  1 школа 2 школа Суммы
Число учителей ответивших на вопрос утвердительно А 15   А + В = 22
Число учителей, ответивших на вопрос отрицательно С5   С + D= 13
Сумма А + С = 20 В + D= 15  

Величина эмпирического значения хи -квадрат подсчитывает­ся здесь по-другому, согласно следующей формуле:

(8.6)

где N = A + B+C+D — или общее число учителей, приняв­ших участие в опросе.


Подставляем исходные данные в формулу (8.6) получаем:

В данном случае число степеней свободы v = (k - 1) • (с - 1) подсчитывается как произведение числа столбцов минус 1 на число строк минус 1. Иными словами, v = (2 - 1) • (2 - 1) = 1, поскольку у нас 2 строки и два столбца. И в соответствии с таб­лицей 12 Приложения 1 находим:

х 2кр = { 3,841 для Р<0,05

х 2кр = { 6,635 для Р<0,01


Строим «ось значимости»:

Полученная величина х 2эмп попала в зону незначимости. Ины­ми словами, следует принять гипотезу Н0 об отсутствии разли­чий между двумя эмпирическими распределениями. Таким обра­зом, уровень организации психологической службы в обоих школах оказался одинаковым.

Теперь решим задачу, в которой сравниваются две выборки, имеющие по четыре значения каждая.

Задача 8.7. В двух школах района выяснялась успешность зна­ния алгебры учащимися десятых классов. Для это­го в обеих школах были случайным образом ото­браны 50 учащихся и с ними проведены конт­рольные работы. Проверялось предположение о том, что существенной разницы в уровне знаний учащимися алгебры в двух школах не существует.

Решение. Результаты контрольных работ представим сразу в виде таблицы:

Таблица 8,9

Школы   Оценки Суммы
       
Школа 1 О11 = 3 О12= 19 О13 = 18 О14 = 10  
Школа 2 О21 = 9 О22 = 24 О23=12 О24 = 5  
Суммы О11+ 021 = 12 О12+ О22 = 43 О1323 = 30 О1424 = 15  

В таблице 8.9 О11 — число учащихся первой школы, получив­ших оценку 2 в контрольной работе по алгебре, О12 — число уча­щихся первой школы, получивших оценку 3 в контрольной ра­боте по алгебре, О13 — число учащихся первой школы, получив­ших оценку 4 в контрольной работе по алгебре и т.д.

Подчеркнем, что «визуальный» анализ данных таблицы 8.9 по­казывает, что во второй школе число «двоечников» в три раза боль­ше, чем в первой, и, наряду с этим, число «отличников» в два раза меньше, чем в первой школе. Казалось бы, можно сделать вывод о том, что вторая школа показывает существенно худшие результаты, чем первая. Однако подобные утверждения можно делать только на основе статистической обработки экспериментальных данных.


В общем случае для подобных задач подсчет эмпирического значения хи -квадрат осуществляется по формуле (8.7), являю­щейся модификацией формулы (8.2): (8.7)


Подставим данные нашего примера в формулу (8.7), получим:

Число степеней свободы в данном случае равно v = (k - 1) • (с - 1) = (2 - 1) • (4 - 1) = 3. По таблице 12 Приложения 1 находим:

х 2кр = { 7,815 для Р< 0,05

х 2кр = {1 11,345 для Р< 0,01


Строим «ось значимости»:

Полученные различия попали в зону незначимости. Иными словами следует принять нулевую гипотезу Н0 о сходстве или о том, что уровень знания учащимися алгебры в двух разных шко­лах статистически значимо не отличается между собой. Выше, при простом визуальном анализе экспериментальных данных мы высказывали предположение, что во второй школе успеваемость учащихся по алгебре существенно хуже, чем в первой, однако, критерий хи -квадрат показал, что это далеко не так.

Задачи, аналогичные рассмотренной выше, т.е. с большим числом значений в сравниваемых выборках можно решить и дру­гим способом, используя хорошо знакомую нам формулу (8.1). Рассмотрим этот способ на примере решения задачи 8.8.

Задача 8.8. Каково сходство в степени удовлетворенности ра­ботой на одном предприятии у двух неравных по численности групп? (Можно рассматривать эту задачу как продолжение задачи 8.3).

Решение. Для решения этой задачи психолог провел на том же предприятии (как в задаче 8.3) опрос о сте­пени удовлетворенности работой еще в одной группе, но уже из 80 респондентов. Теперь у пси­холога есть две выборки испытуемых, первая -65 человек и вторая - 80 человек. Полученные данные позволяют использовать критерий хи- квадрат по разному:

* во-первых, на новой выборке из 80 респондентов можно решить задачу, аналогичную задаче 8.3;

* во вторых, объединив две выборки можно опять решить задачу, аналогичную задаче 8.3;

* в третьих, можно сравнить распределения вы­бора альтернатив двух выборок (первой и вто­рой), т.е. сравнить степень удовлетворенности работой двух групп респондентов и решить не­обходимую нам задачу 8.8.

Для решения задачи 8.8 на основе знания эмпирических час­тот первого и второго обследований, необходимо вычислить «те-

еретические» частоты по всей совокупности данных, поскольку в противном случае невозможно будет применить формулу (8.1).

Это осуществляется следующим образом: сумма эмпиричес­ких частот 65 + 80 = 145 равна общему количеству респондентов, опрошенных психологом.

Представим долю частот первой выборки в виде дроби:

65:145 = 0,45. Представим долю частот второй выборки также в виде

Дроби: 80:145 = 0,55.

Особо подчеркнем, что «теоретические» частоты необходимо рассчитать для каждой альтернативы (вариантов ответов) от­дельно для обоих выборок.

Для этого по каждой альтернативе суммируем эмпирические частоты первой и второй выборок. Поскольку, для первой аль­тернативы в первой выборке f э = 8, а во второй выборке f э = 18, то их сумма будет равна 8 + 18 = 26. Для второй альтернативы в первой выборке f э = 22, во второй f э = 20, тогда их сумма равня­ется 22 + 20 = 42. И так далее для каждой альтернативы.

«Теоретическая» частота каждого варианта ответа в обоих вы­борках получается как результат умножения суммы эмпиричес­ких частот на соответствующую процентную долю, представлен­ную в виде десятичной дроби.

Поскольку частоты выбора первого варианта ответа (альтер­нативы) составляют в обеих выборках 8 + 18 = 26, то

fm для 1-й выборки = 26 • 0,45 = 11,7

fm для 2-й выборки = 26 • 0,55 = 14,3.

Поскольку частоты выбора второго варианта ответа (альтер­нативы) составляют в обеих выборках 20 + 22 = 42. поэтому:

fm для 1-й выборки = 42•0,45 = 18,9 fm для 2-й выборки = 42 • 0,55 = 23,1.

Поскольку частоты выбора третьего варианта ответа (альтер­нативы) составляют в обеих выборках 18 + 14 = 32, поэтому:

fm для 1-й выборки = 32 • 0,45 = 14,4 fm для 2-й выборки = 32 • 0,55 = 17,6.

Поскольку частоты выбора четвертого варианта ответа (аль­тернативы) составляют в обеих выборках 11 4 9 = 20, поэтому:

fm для 1-й выборки = 20 • 0,45 = 9 fm для 2-й выборки = 20 • 0,55 = 1 ].

Поскольку частоты выбора пятого варианта ответа (альтерна­тивы) составляют в обеих выборках 13 + 12 = 25, поэтому:

fm для 1 -й выборки = 25 • 0,45 = 11,25 fm для 2-й выборки = 25 • 0,55 = 13,75.

Следует помнить, что суммы рассчитанных «теоретических» частот по каждой альтернативе, должны совпадать с суммой эмпирических частот по этой же альтернативе. Проверим пра­вильность этого положения для рассчитанных «теоретических» частот:

Для первого варианта ответа 11,7 + 14,3 = 26 = 8 + 18

Для второго варианта ответа 18,9 + 23,1 = 42 = 22 + 20

Для третьего варианта ответа 14,4 + 17,6 = 32 = 14 + 18

Для четвертого варианта ответа 9 + 11 = 20 = 9 + 11

Для пятого варианта ответа 11,25 + 13,75 = 25 = 12 + 13

Теперь, для того чтобы использовать формулу (8.1), нужно объединить полученные эмпирические и «теоретические» часто­ты двух выборок в стандартную таблицу 8.10. Поскольку сравни­ваются только две выборки, то вместо одной альтернативы в таблице 8.10 будет две альтернативы под номерами 1.1 и 1.2 -это соответственно две первые альтернативы для первой и для второй выборки и так далее:

Таблица 8.10

Альтернативы fэ fm (fэ - fm) (fэ -, fm) 2  
1.1   11,7 -3,7 13,69 1,17
1.2   14,3 +3,7 13,69 0,96
2.1   18,9 +3,1 9,61 0,51
Продолжение таблицы 8,10  
2.2   23,1 -3,1 9,61 0,42  
3.1   14,6 -0,4 0,16 0,01  
3.2   17,6 +0,4 0,16 0,01  
4.1            
4.2            
5.1   11,25 +0,75 0,56 0.05  
5.2   13,75 -0,75 0,56 0,05  
Суммы         х2эмп = 3,17  
                       

При сопоставлении двух эмпирических распределений число степеней свободы определяется по формуле: v = (k - 1) • - 1), где k — число строк в таблице эмпирических частот только для первой выборки (или только для второй); с — количество срав­ниваемых распределений.

В нашем случае k = 5, с = 2, следовательно v = (5 - 1) • (2 - 1) = 4.

По таблице 12 Приложения 1 находим:

х 2кр = {9,488 для Р< 0,05

х 2кр = {13,277 для Р< 0,01

Строим «ось значимости»:

Полученные различия попали в зону незначимости. Т.е. сле­дует принять нулевую гипотезу Н0 о сходстве. Иными словами, распределения двух выборок значимо не отличаются между со­бой, и, следовательно, у двух групп опрошенных респондентов отсутствуют предпочтения в выборе удовлетворенности или He-Удовлетворенности работой.

Число переменных в сравниваемых выборках может быть до­статочно большим. В этом случае целесообразно использовать специальный прием группировки значений по интервалам. Чис­ло интервалов удобнее всего получать, используя таблицу 8.11.

Таблица 8,11

Число значений переменной (от — до) Число интервалов
25-40 5-6
40- 60 6-8
60-100 7-10
100-200 8-12
> 200 10-15
   
Продолжение таблицы 8.12
          21.68
          5, 88
          0,33
          0,00
Сумма         104,78
         

В двух следующих задачах сравниваются две выборки, в кото­рых значений переменных столь много, что предыдущие спосо­бы сравнения оказываются трудновыполнимыми.

Задача 8.9. Психолог сравнивает два эмпирических распреде­ления, в каждом из которых было обследовано 200 человек по тесту интеллекта. Вопрос: различа­ются ли между собой эти два распределения?

Решение. Представим эмпирические данные в виде таблицы 8.12, в которой приведены также предварительные

расчеты, необходимые для получения х2эмп.

Таблица 8.12

Уровни интеллекта Частоты f 1 f2 f 1 • f 1 f 1+ f2 f 1 • f 1 f 1+ f2
          0,50
          3,12
          12,04
          30,22
          31,01

Для случая равенства числа испытуемых в первой и второй выборках расчет производится по формуле (8.8):

(8.8)

Где f1 частоты первого распределения, a f2 — частоты второго. N -число элементов в каждой выборке. В нашем случае в каждой из выборок оно равно 200.

Произведем расчет по формуле (8.8), основываясь на резуль­татах таблицы 8.12:

х2эмп = 4: 104,78 - 2 • 200 = 419,12 - 400 = 19,12

В данном случае число степеней свободы v = (k - 1) • -= (9 - 1) • (2 - 1) - 8, где k число интервалов разбиения, а с чис­ло столбцов. В соответствии с таблицей 12 Приложения 1 находим:

х 2кр = {15,507 для Р< 0,05

х 2кр = {20,09 для Р< 0,01


Строим «ось значимости»:

Полученные различия попали в зону неопределенности. Пси­холог может как принять, так и отклонить гипотезу Н0.

Рассмотрим еще одну аналогичную задачу, в которой число значений в каждой из выборок различно. В этом случае использу­ют другую формулу расчета.

Задача 8.10. Психолог сравнивает два эмпирических распреде­ления, в каждом из которых было обследовано по тесту интеллекта разное количество испытуе­мых. Вопрос — различаются ли между собой эти два распределения?

Решение. Представим эмпирические данные сразу в виде таб­лицы 8.13, отметив при этом, что число градаций IQ увеличилось, в отличие от таблицы 8.12, до 150.

Таблица 8.13

Уровни интеллекта Частоты f 1 f2 f 1 • f 1 f 1+ f2 f 1 • f 1 f 1+ f2
          1,00
          8,00
          22,04
          21,95
          25,78
          5,54
          4,90
          2,00
          0,00
          0,50
Сумма         91,71

В таблице 8.13 произведены предварительные расчеты, не­обходимые для вычисления эмпирического значения критерия хи-квадрат при условии разного числа испытуемых в первой и


второй выборках. В этом случае расчет производится по форму­ле (8.9):

(8.9)

Где f1 частоты первого распределения, а f2 — частоты второго. N — сумма числа элементов в первой nl и второй п2 выборках В на­шем случае оно равно 177 = 124 + 53, а сумма уже подсчитана в нижней строчке последнего столбца таблицы 8.13. Осталось произвести расчет по формуле (8.9.)

х2эмп = 177 - 177/(124 • 53) - (91,71 - (124 - 124)/177) = 23,07

В данном случае число степеней свободы v = (k - 1) • - 1) ~ (10 - 1) • (2 - 1) = 9, где k число интервалов разбиения, а с число столбцов. В соответствии с таблицей 12 Приложения 1 находим: х 2кр = { 16,92 для Р< 0,05

х 2кр = { 21,66 для Р < 0,01


Строим «ось значимости»:

Полученная величина эмпирического значения.vw-квадрат попала в зону значимости. Иными словами, следует принять ги­потезу Я, о том, что распределения уровней интеллекта в двух неравных по численности выборках статистически значимо отли­чаются между собой.





Дата публикования: 2015-01-09; Прочитано: 881 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2026 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (1.396 с)...