Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Определение ошибки и численности выборки



Любое выборочное исследование, как бы старательно оно ни проводилось, содержит ошибку (погрешность). Эта погрешность вызвана исключительно тем обстоятельством, что исследуется не вся совокупность, а только ее небольшая часть. При этом погрешность связана с объемом выборочной совокупности (чем она больше, тем погрешность меньше), однако следует понимать, что одно из главных преимуществ выборочного наблюдения состоит в том, что изучению подвергается небольшая часть генеральной совокупности. Если выборка составляет 10%, а тем более 20% всей совокупности, возникает вопрос о ее целесообразности, практической возможности исследования и затратах на его проведение.

Важным вопросом при планировании выборочного исследования является исчисление и определение объема выборки. Многие неправильно считают, что объем выборки пропорционально зависит от объема генеральной совокупности. Такое мнение ошибочно. Объем выборки рассчитывается по достаточно простым формулам, и знание численности генеральной совокупности, например для повторного отбора, не является необходимым. Попутно заметим, что в статистике различаются большие выборки (n > 30), и малые выборки (n < 30). Впрочем, эта граница не является общепринятой.

Приведем три основных формулы выборочного наблюдения при повторном и бесповторном отборе (табл. 7.1).

Таблица 7.1

Основные формулы выборочного наблюдения

  Повторный отбор Бесповторный отбор
Средняя ошибка выборки m
Предельная ошибка выборки D
Численность выборки

В формулах s2 — дисперсия (генеральная или выборочная), N — численность генеральной совокупности, n — численность выборки, n ¢ — численность бесповторной выборки, t — коэффициент доверия, связанный с вероятностью.

При определении доли (%) напомним, что s2 = pq, где р — доля единиц, обладающих данным признаком, а q — доля единиц, не обладающих данным признаком.

Начнем с определения необходимой численности выборки. Как уже указывалось, объем (численность) случайной выборки определяем по простой формуле, и для ее исчисления необходимо знать три величины — t, s2, D. Величина t — коэффициент доверия, связан с вероятностью, с которой мы намерены работать. По специальным таблицам (интеграл вероятности или функция Лапласа) фиксируем вероятность и находим t, например при вероятности 0,9 по таблице находим число 1,65. Это самая простая часть работы. Далее следует проставить в формулу величину дисперсии s2 генеральной совокупности. Но ведь это сделать невозможно, ибо мы ее не знаем; мы могли бы заменить ее выборочной дисперсией, но это тоже невозможно сделать, так как самой выборки еще нет. В некотором виде, получается замкнутый круг. Какие есть способы найти хотя бы приближенные оценки дисперсии? Во-первых, можно использовать данные исследований, аналогичных нашему, во-вторых, можно обратиться к экспертам в данной области, в-третьих, можно «на глаз» отобрать 20—30 значений, по которым определяется требуемое значение в первом приближении (так называемое пилотажное исследование).

Аналогично поступаем и с определением предельной ошибки выборки D (в знаменателе), заранее определяя (чаще всего в %, в долях или в абсолютном выражении) допустимо приемлемую для каждого конкретного случая ошибку. В социально-экономических исследованиях чаще всего допустимая ошибка находится в интервале от 1 до 10%, по умолчанию — 5%-ный уровень значимости. Определяя ошибку, естественно, исследователь стремится к ее снижению, минимизации. Однако следует помнить, что снижение ошибки ведет к значительному увеличению выборки, например снижение ошибки на 1% может привести к увеличению выборки на 40%.

Проставив все полученные значения, мы получаем необходимый объем выборки. Обратите особое внимание, что в формуле для определения численности выборки нет величины N — т.е. объема генеральной совокупности. Величина N появляется в формуле бесповторного отбора и способствует некоторому уменьшению численности выборки.

Рассчитав необходимый объем выборки, мы соизмеряем требуемый ее размер с нашими возможностями (чаще всего материального свойства): будут ли достаточны имеющиеся средства или нет? Если ответ будет отрицательным, то следует либо уменьшить коэффициент доверия, например с 1,65 до 1,44 (т.е. доверительную вероятность с 0,9 до 0,85), либо увеличить ошибку выборки, например, с 5 до 7—8%.

Подводя некий промежуточный итог сказанному выше, заключаем, что полученная предельная ошибка выборки (D = tm) используется для построения доверительного интервала, относительно которого можно утверждать с определенной, достаточно большой вероятностью, что он накрывает неизвестное значение параметра, т.е. значение неизвестной нам точно характеристики генеральной совокупности. Если, например, взять выборочное среднее значение, обозначенное нами , и предельную ошибку D, то схематически эту ситуацию можно представить так:

  –D +D      
        >  
         
нижняя граница ширина довер. интервала верхняя граница    
                     

Этот результат является заключительным итогом определения возможной величины математического ожидания (т.е. неизвестного параметра). Утверждение, что он находится в таких границах, делается с определенной вероятностью. Попутно заметим, что границы интервала симметричны относительно средней оценки. Однако при оценке доли, если эта доля невелика, например меньше 0,1 (10%), расчет по формулам, указанным выше, дает неверные результаты. В действительности интервалы должны быть несимметричными, и они рассчитываются разными способами. Этого вопроса мы касаться не будем.

Следует также упомянуть, что отношение называется достоверностью средней величины, а величина является точностью опыта — этот показатель выражает величину ошибки средней арифметической в процентах от самой средней арифметической. Точность опыта, не превышающая 5%, считается удовлетворительной.





Дата публикования: 2014-10-20; Прочитано: 808 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...