Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Основы ошибок выборочного наблюдения



1. Методология двусторонних и многосторонних сопоставлений ВВП.

2. Совершенствование методологии комплексного анализа показателей СНС.

Основы ошибок выборочного наблюдения

Ошибка выборки для средней величины количественного признака. Проведем n -е число выборок (выборочных наблюдений) и по каждой (i -й) выборке рассчитаем среднее арифметическое значение исследуемого показателя . В результате получим ряд случайных значений – выборочных средних величин . Математическое ожидание полученного ряда случайных величин равно средней арифметической генеральной совокупности , т.е. . Определим, на сколько средняя конкретной выборки отклоняется от средней генеральной совокупности: . Полученная величина также является случайной величиной. Она называется ошибкой выборки. Ошибка выборки (ошибка выборочной средней) – это разница между средним значением показателя в конкретной выборке и средним значением показателя в генеральной совокупности. На основе ошибок выборки рассчитаем стандартное отклонение

. (7.1)

В теории выборочных исследований полученный показатель μ называется средней ошибкой выборочной средней. Данный показатель является основной характеристикой выборки и показывает, как в среднем колеблется среднее значение показателя выборки относительно средней генеральной совокупности. Однако непосредственно определить его по формуле (7.1) невозможно, так как обычно неизвестно значение средней в генеральной совокупности. Кроме того, в социально-экономических исследованиях, как правило, не проводится многократных выборок.

Однако среднюю ошибку выборочной средней можно найти и другим путем. Так, если ее возвести в квадрат, то получим квадрат средней ошибки выборочной средней, т.е. дисперсию μ2. В математической статистике доказано, что дисперсия μ2 прямо пропорциональна дисперсии σ2 генеральной совокупности и обратно пропорциональна объему выборки :

. (7.2)

Отсюда средняя ошибка выборочной средней

. (7.3)

Формула (7.3) показывает, что при собственно-случайном повторном отборе средняя ошибка выборочной средней (μ) зависит от вариации (колеблемости) изучаемого признака в генеральной совокупности и от объема выборки: чем больше вариация признака в генеральной совокупности, тем больше будет средняя ошибка выборочной средней. Поэтому, чтобы уменьшить среднюю ошибку выборочной средней, необходимо увеличить объем выборки. Однако определить среднюю ошибку выборочной средней по формуле (7.3) также бывает сложно, так как вариация признака в генеральной совокупности часто неизвестна.

В математической статистике на основе правила сложения дисперсий показано, что средняя дисперсия выборочных совокупностей (аналог средней из внутригрупповых дисперсий) и дисперсия генеральной совокупности σ2 связаны между собой:

. (7.4)

Из формулы (7.4) найдем дисперсию генеральной совокупности

. (7.5)

Найденную дисперсию генеральной совокупности подставим в формулу (7.3). В результате подстановки средняя ошибка выборочной средней

. (7.6)

Поскольку в реальных выборочных исследованиях проводится, как правило, всего одна выборка, постольку в формуле (7.6) среднюю дисперсию выборочных совокупностей придется заменить на фактическую дисперсию s 2 конкретной выборки. А при достаточно большом объеме выборки (n –1) можно заменить на . В результате таких преобразований

. (7.7)

Формула (7.7) позволяет получить точечную оценку ошибки выборки. Однако при проведении выборочных исследований реальные ошибки выборки будут отклоняться от средней ошибки выборочной средней в ту или иную сторону, т.е. колебаться относительно выборочной средней в определенном интервале. Поэтому важно понять, в каких пределах будут лежать эти отклонения. Русский математик А.М. Ляпунов доказал, что независимо от характера распределения генеральной совокупности при увеличении объема выборки распределение вероятностей появления того или иного значения выборочной средней приближается к нормальному распределению (центральная предельная теорема). Таким образом, можно считать, что и ошибки выборочных средних соответствуют нормальному распределению. А это уже позволяет с определенной вероятностью определить интервал, в котором может находиться характеристика генеральной совокупности. Для этого используется понятие предельной ошибки выборки

, (7.8)

где – коэффициент доверия.

Коэффициент доверия показывает, с какой вероятностью расхождение между выборочной средней и средней генеральной совокупности не превысит предельной ошибки выборки. Значения коэффициента доверия и соответствующие им вероятности табулированы в специальных таблицах (функция Лапласа), в которых коэффициент доверия может быть обозначен переменной , а вероятность – .

Для практических расчетов приведем только основные значения:

(7.9)

Таким образом, если мы выберем вероятность, с которой хотим оценить ошибку выборки, то однозначно определим коэффициент доверия. Например, если мы хотим оценить ошибку выборки с вероятностью 0,954 (95,4%), то коэффициент доверия предельной ошибки выборки будет равен 2. Из формулы (7.9) можно сделать вывод, что чем выше вероятность оценки ошибки выборки, тем больше коэффициент доверия, тем больше предельная ошибка выборки.

Рассмотренный подход к оценке ошибки выборки относится к собственно-случайному повторному отбору (сущность этого способа отбора рассмотрим в следующем подразделе данной темы). Если используется собственно-случайный бесповторный отбор, то в формулу средней ошибки выборки (7.7, 7.16) вводится поправка

, (7.10)

где – объем выборочной совокупности;

– объем генеральной совокупности.

Зная как рассчитать ошибку выборки, можно определить интервал, в котором с выбранной вероятностью будет находиться среднее значение изучаемой характеристики генеральной совокупности

. (7.11)

Формулу (7.11) необходимо читать так: с вероятностью (например, 95%) изучаемая характеристика генеральной совокупности (например, средний доход жителя) будет лежать в пределах от () (например, 2500 руб.) до () (например, 4500 руб.). Если не указать, с какой вероятностью оценивается характеристика генеральной совокупности, то ответ будет неполным.

Ошибка выборки для относительного альтернативного признака (доли признака). Выборочное наблюдение позволяет оценить не только ту или иную характеристику генеральной совокупности в натуральных единицах измерения, но и изучаемую характеристику генеральной совокупности в долях. Например, на основе выборочной совокупности можно определить, в каких пределах будет находиться доля брака в генеральной совокупности.

Пусть в генеральной совокупности часть ее единиц M характеризуется определенным значением изучаемого признака (например, брака). Тогда доля единиц в генеральной совокупности, характеризующаяся определенным значением изучаемого признака,

. (7.12)

Соответственно в выборочной совокупности доля единиц с определенным значением изучаемого признака m

. (7.13)

Дисперсия доли в генеральной совокупности

, (7.14)

где – доля единиц генеральной совокупности, характеризующаяся альтернативным значением изучаемого признака; q =1– p.

Например, единицы генеральной совокупности (выпущенная продукция) могут быть оценены с позиции соответствия техническим требования. Это альтернативный признак единицы (признак соответствия техническим требования). Он имеет два значения: доля единиц в генеральной, соответствующая техническим требованиям (основное значение признака) и доля единиц в генеральной совокупности, не соответствующая техническим требованиям – брак (альтернативное значение признака). Выбор основного или альтернативного значения признака (а, следовательно, и обозначения) определяется целью выборочного исследования.

Дисперсия доли в выборочной совокупности

, (7.15)

тогда средняя и предельная ошибки выборки при собственно-случайном повторном отборе будут соответственно

. (7.16)

Отсюда с выбранной вероятностью доля значения признака генеральной совокупности будет лежать в интервале

. (7.17)

7.3. Формирование и оценка выборочной совокупности

В целом формирование и оценка выборочной совокупности определяются видом, методом, способом отбора.

По виду отбор подразделяется на индивидуальный, групповой и комбинированный.

При индивидуальном отборе из генеральной совокупности отбираются отдельные единицы совокупности. Например, при изучении роли образования в повышении производительности труда из всего состава рабочих предприятия (генеральная совокупность) для статистического наблюдения отбираются отдельные рабочие.

При групповом отборе из генеральной совокупности отбираются отдельные группы единиц. Такой вид выборки используется тогда, когда, например, готовая продукция комплектуется в виде отдельных партий (в ящиках, коробках и т.д.), содержащих одинаковое число единиц продукции. В этом случае отбираются не отдельные единицы генеральной совокупности, а отдельные партии (ящики, коробки и т.д.).

При комбинированном отборе сочетается индивидуальный и групповой отбор единиц генеральной совокупности.

По методу отбор подразделяется на бесповторный и повторный.

При бесповторном отборе каждая единица после регистрации не возвращается в исходную (генеральную) совокупность. Такой метод отбора не всегда удается реализовать, особенно когда единицами совокупности являются люди. Например, изучается спрос на ткань определенного артикула. Для этого в ряде магазинов, торгующих тканями, проводится опрос покупателей. В поисках необходимой ткани покупатель может посетить эти магазины. В результате он будет несколько раз зарегистрирован, что будет нарушением условия бесповторности отбора. Недостатком данного метода отбора является также то, что нарушается условие независимости, поскольку при переходе от одного испытания к другому изменяется вероятность каждой единицы попасть в выборную совокупность. Это условие особенно важно соблюдать тогда, когда объем генеральной совокупности невелик.

При повторном отборе каждая единица после регистрации возвращается обратно, в исходную (генеральную) совокупность. Недостатком данного метода отбора является то, что одна и та же единица может быть несколько раз зарегистрирована, что повлияет на качество наблюдения.

По способу отбор подразделяется на собственно-случайный, типический и серийный.

А) Собственно-случайный отбор основан на принципе случайного отбора единиц совокупности. При этом предполагается, что все единицы имеют равную вероятность быть отобранными, а сама генеральная совокупность имеет четкие границы, что позволят определить, какие единицы могут быть отобраны, а какие – нет.

Реализация собственно-случайного способа отбора единиц может быть осуществлена либо жеребьевкой, либо с помощью таблицы случайных чисел, либо с помощью генератора случайных чисел, который имеется на персональном компьютере. Например, если генеральная совокупность по объему небольшая, то каждой единице генеральной совокупности присваивается номер. Номера закладываются в барабан (как, например, в игре "Спортлото"), тщательно перемешиваются и затем случайным образом отбираются. Такой способ отбора называется жеребьевкой.

Собственно-случайный отбор может быть как бесповторным, так и повторным. В результате собственно-случайного отбора мы получим выборку,

которая будет представлять собой множество расположенных в беспорядке чисел. Если эти числа ранжировать (как правило, в порядке возрастания), то в результате можно построить вариационный ряд. А уже на основе этого ряда можно рассчитать, например, среднюю и предельную ошибки выборки. Среднюю вариационного ряда можно определить либо как среднюю арифметическую простую, либо как среднюю арифметическую взвешенную

, (7.18)

где -я варианта признака;

– частота (частость) -й варианты признака;

– объем выборки.

Дисперсия выборки может быть определена либо как простая, либо как взвешенная

. (7.19)

Если используется собственно-случайный повторный отбор, то средняя и предельная ошибки выборки определяются соответственно следующим образом:

. (7.20)

Если используется собственно-случайный бесповторный отбор, то средняя и предельная ошибки выборки определяются соответственно так:

. (7.21)

Для обоих случаев с заданной вероятностью средняя генеральной совокупности будет лежать в пределах

. (7.22)

Пример 7.1. Собственно-случайным повторным отбором из поставленной партии было взято 100 единиц продукта А. В результате проведенного заводской лабораторией анализа было установлено, что средняя влажность продукта А в выборке составила 9%, при среднем квадратическом отклонении (стандартная ошибка) 1,5%. Определить с вероятностью в 0,954 (95,4%) пределы, в которых будет находиться средняя влажность продукта А во всей партии.

Из условия задачи можно сформулировать следующие условия, необходимые для проведения выборочных расчетов. Вся партия продукта А является генеральной совокупностью. Из нее взята часть продукта, что является выборкой (выборочной совокупностью). Объем выборки равен 100 единицам. Выборка осуществлялась собственно-случайным повторным отбором. Результаты анализа в заводской лаборатории показали: средняя влажность продукта А в выборке , а стандартное отклонение . Согласно условию задачи влажность продукта А во всей партии необходимо оценить с вероятность 0,954. По (7.9) определим коэффициент доверия: так как , то . Вначале определим среднюю и предельную ошибки выборки. По формуле (7.20) находим

.

Теперь с вероятностью 0,954 по формуле (7.22) определим пределы, в которых будет находиться средняя влажность продукта А во всей партии

С помощью собственно-случайного отбора можно оценить часть генеральной совокупности в относительной форме. На основе формул (7.12),…,(7.16) средняя и предельная ошибки

. (7.23)

А средняя и предельная ошибки при собственно-бесповторном отбора

. (7.24)

Для обоих случаев доля изучаемого значения признака в генеральной совокупности с выбранной вероятностью будет находится в пределах

. (7.25)

Пример 7.2. Для определения среднего возраста посетителей торгового центра, среднее посещение которого ежедневно составляет 5000 чел., был проведен собственно-случайный бесповторный отбор. В результате были получены следующие данные

Возраст (лет) 20…30 30…40 40…50 50 и старше
Число посетителей        

С вероятностью 0,866 определить: 1) пределы, в которых находится средний возраст всех посетителей; 2) пределы, в которых находится доля всех посетителей от 50 лет и старше.

Итак, из условия задачи нам известно: объем генеральной совокупности равен 5000 чел., объем выборки – 100 чел. (20+60+15+5), для проведения выборки использован собственно-случайный бесповторный отбор, вероятность равна 0,866, следовательно, согласно (7.9), коэффициент доверия .

Чтобы найти пределы, в которых находится средний возраст посетителя, проведем расчеты с помощью табл. 7.1.

По итоговым данным гр.3 и 4, используя формулу (7.18), найдем средний возраст в выборке

лет.

Таблица 7.1

Группы возрастов Средний возраст в группе Число посетителей в группе (частота)
         
20…30 30…40 40…50 50 и старше       1353,75 1901,25
Итого      

Теперь найдем дисперсию выборки, используя итоговые данные гр.3 и 5,

лет2.

С учетом условий задачи средняя и предельная ошибки выборки

;

.

В результате с вероятностью 0,866 средний возраст посетителей торгового центра (генеральной совокупности) будет расположен в интервале

.

Чтобы определить долю посетителей старше 50 лет среди посетителей торгового центра, необходимо сначала определить долю этих посетителей в выборке ω по формуле (7.13):

.

Определим теперь по формуле (7.15) дисперсию доли в выборке

.

По формулам (7.24) определим среднюю и предельную ошибки доли

;

.

В результате с вероятностью 0,866 доля посетителей торгового центра (в генеральной совокупности) старше 50 лет будет расположена в пределах

.

Б) Типический (стратифицированный, расслоенный) отбор используется тогда, когда генеральная совокупность является неоднородной по изучаемому признаку. В этом случае генеральная совокупность разделяется на однородные (типические) группы . Например, статистическому наблюдению подвергнуты предприятия текстильной промышленности Москвы. Однако эти предприятия неоднородны по подотраслевому признаку, что не позволяет получить обоснованные оценки характеристик предприятий текстильной промышленности Москвы. Поэтому, чтобы получить обоснованные оценки, предприятия предварительно нужно разделить на однородные группы.

Затем необходимо определить объем выборочной совокупности . Решение этой задачи будет рассмотрено в разделе 7.4. Одновременно определяется удельный вес (доля) каждой однородной группы в общем объеме генеральной совокупности

. (7.26)

Зная долю каждой типической группы в общем объеме генеральной совокупности и объем выборки , можно определить объем типической группы в выборке

. (7.27)

В итоге из каждой типической группы , например, собственно-случайным образом, осуществляется отбор единиц наблюдения в объеме .

Полученная таким образом выборочная совокупность будет репрезентативна генеральной совокупности, так как будет содержать все однородные группы и в одинаковой пропорции.

Такой подход к формированию выборочной совокупности основан на средней внутригрупповой дисперсии, от которой будет зависеть средняя ошибка выборки. Средняя внутригрупповая дисперсия выборки

. (7.28)

При собственно-случайном повторном отборе средняя и предельная ошибки выборки соответственно

. (7.29)

При собственно-случайном бесповторном отборе средняя и предельная ошибки выборки соответственно

. (7.30)

Для обоих случаев с выбранной вероятностью средняя генеральной совокупности будет лежать в пределах

. (7.31)

Пример 7.3. Для определения среднего возраста мужчин, вступивших в брак в городе N, была проведена 5% -я типическая пропорциональная выборка. Внутри групп использовался собственно-случайный бесповторный отбор. В результате наблюдения были получены следующие результаты (табл. 7.2.)

Таблица 7.2

Социальные группы Число мужчин Средний возраст мужчин в группе, вступивших в брак Среднее квадратическое отклонение
Рабочие Служащие      
Итого  

С вероятностью 0,954 определить пределы, в которых будет расположен средний возраст мужчин, вступивших в брак, в городе N (генеральная совокупность).

Вначале определим объем генеральной совокупности. Так как объем выборки равен 100 чел. (60+40), то объем выборки, составляющий по условию задачи 5% от генеральной совокупности, будет равен 2000 чел. [(100∙100)/5].

Затем определим средний возраст мужчин, вступивших в брак, по выборке

лет.

Теперь определим среднюю дисперсию по всей выборке

лет2.

Отсюда средняя и предельная ошибки выборки будут соответственно

.

В итоге с вероятностью 0,954 (95,4%) средний возраст мужчин, вступивших в брак, вгороде N будет расположен в интервале

или 24,4 лет≤ ≤26 лет.

В) Серийный отбор используется в тех случаях, когда единицы генеральной совокупности объединены в небольшие равновеликие серии (группы). Например, упаковки готовой продукции (бутылки с водой в одинаковых ящиках). Серийный отбор основан на собственно-случайном отборе отдельных серий (групп). Внутри серий (групп) проводится сплошное обследование. Так как все отобранные серии (группы) обследуются полностью, то средняя ошибка серийной выборки будет зависеть от межсерийной (межгрупповой) дисперсии (дельта). Для повторного и бесповторного отбора средняя и предельная ошибки выборки соответственно

. (7.32)

где – число отобранных серий (групп) в выборке;

– общее число серий в генеральной совокупности.





Дата публикования: 2014-12-08; Прочитано: 606 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.024 с)...