Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Результат 2-го этапа вычисления средневозрастной величины



Возраст, годы Частота Середина интервала Произведение
18-24      
25-29     1 485
30-39   34,5 3 346,5
40-49   44,5 5 117,5
50-59   54,5 4 033
60-70     4 550
Всего     19 498

Разделив полученную сумму на 457, мы получим средний воз­раст — 42,6 года. Формула для средневзвешенного значения выглядит аналогично с учетом того, что х здесь относится к середине интервала:

где х — числовое значение некой позиции, n — число респондентов, наблюдаемых на данной позиции переменных, N — общее число наблюдений.

Показатели разброса данных интервального или пропорцио­нального уровня включают среднее отклонение, дисперсию и сред­неквадратическое отклонение.

Дисперсия - сумма квадратов отклонений от среднего, разделенная на число отметок:

Среднеквадратическое отклонение представляет собой корень квадратный из дисперсии:

Чем больше разброс данных вокруг среднего, тем выше значе­ния дисперсии и среднеквадратического отклонения. Это означает, что если все данные одинаковы, то S 2 равна нулю.

Таким образом, алгоритм для вычисления дисперсии и среднеквадратического отклонения таков[41]:

1) Вычислить среднее.

2) Вычислить разности между средним и каждым из значений.

3) Возвести в квадрат разности, вычисленные на этапе 2.

4) Умножить квадраты разностей на частоты наблюдений каж­дого из значений.

5) Просуммировать квадраты разностей, вычисленные на этапе 4.

6) Разделить сумму квадратов, полученную на этапе 5, на N; это равняется дисперсии.

7) Извлечь квадратный корень из числа, вычисленного на эта­пе 6; это равняется среднеквадратическому отклонению.

В зави­симости от того, насколько велика (мала) дисперсия, или среднеквадратическое отклонение, мы можем судить, насколько единодушны были в своих оценках респонденты (при меньшем значении дисперсии), или насколько сильно они рас­ходятся в своих мнениях (при большем значении дисперсии).

Интервальность шкалы обычно сопрягается с ее непрерывностью, т. е. в качестве значения интервального признака может выступить любое действительное число, любая точка числовой оси. А непрерывную кривую в выборочном исследовании нельзя получить никогда. Здесь мы не можем иметь линию, похожую на «колокол» нормального распределения. Даже если в генеральной совокупности распределение нормально, а выборка — репрезентативна, мы вместо «колокола» получим лишь некоторое его подобие, составленное, например, из отрезков, соединяющих отдельные точки — полигон распределения (рис. 13). Заменяющая непрерывное распределение ломаная линия может состоять также из «ступенек», в таком случае она называется гистограммой распределения (рис. 13).

Рис 13. Полигон плотности распределения непрерывного признака

От середин отрезков, отложенных на горизонтальной оси, откладываются проценты, соответственно 20 %, 25 %, 35 %, 10 %, 10 %.

Рис. 14. Гистограмма плотности распределения непрерывного признака

При больших объемах выборки и достаточно мелком разбиении и гистограмма, и полигон хорошо отражают функцию плотности распределения (причем полигон делает это несколько лучше).

Для примера рассмотрим признак «возраст респондента». Рассмотрим два полигона распределения респондентов по возрасту. Первый полигон, при построении которого использовались все наблюденные значения возраста и изображенный на рис.15, мы будем воспринимать как некий бессмысленный набор чисел. А если мы сгруппируем соответствующие наблюдения в интервалы 15-20 и 25-30 лет и приведем полигон к другому виду — виду, изображенному на рис.16, то станет ясно, что изучаемая совокупность респондентов характеризуется тем, что половину ее составляют те, кто моложе 20 лет, а людей от 25 до 30 лет в ней вдвое меньше и т. д. Из таких фактов можно сделать содержательные выводы.

Рис.15. Непродуктивный полигон распределения по возрасту

Рис. 16. Продуктивный полигон распределения по возрасту

Итак, мы получим закономерность, поскольку она позволяет нам сформировать какое-то новое представление об изучаемой совокупности респондентов — представление, связанное с описанием совокупности «в среднем». Правда, здесь требуется подчеркнуть, что возможна двоякая интерпретация нашего шага.

1. Мы прибегли к определенному «сжатию» информации только потому, что не имели возможности прямо противоположного способа действий: скажем, измерения возраста с точностью до одного месяца и использования репрезентативной выборки в сотни тысяч единиц. Имея возможность сделать это, мы получили бы полигон, неотличимый на глаз от непрерывной кривой. Указанный подход, называемый обычно методом группировки, является более экономным способом записи информации, содержащейся в выборке (практически бесполезно знать 10 000 наблюдений, заданных на отрезке (0, 10), достаточно указать, какая доля наблюдений содержится в интервале (0, 1), (0, 2) и т. д.).

2. Даже если при дальнейшем дроблении величины интервалов распределение респондентов по возрасту будет стремиться к определенному виду, этот вид может вообще не интересовать социолога. Многие числовые характеристики людей (например, возраст), чаще всего интересуют социолога не сами по себе, а как признаки - индикаторы, чего-то латентного (возраст служит для оценки социальной зрелости опрашиваемого).

Кроме того, мы должны «сжать» исходные данные путем разбиения диапазона изменения значений этого признака на интервалы. За счет потери одной информации мы приобретаем другую.

Предположим[42], что мы изучаем связь между двумя признаками: Y, принимающим два значения — 1 и 2, и Х, принимающим 4 значения — 1,2,3,4. (табл. 12).

Таблица 12





Дата публикования: 2014-11-02; Прочитано: 287 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...