![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Математическая статистика – наука, занимающаяся разработкой методов получения, описания и обработки опытных данных с целью изучения закономерностей случайных массовых явлений. Массовые явления – это многократно повторяющийся опыт с одинаковыми условиями (например, массовое производство одинаковых изделий).
Задачи математической статистики:
1) Указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в специально поставленных экспериментах;
2) Разработать методы анализа статистических данных:
а) оценка неизвестной вероятности;
б) оценка параметров распределения, вид которого известен;
в) проверка статистических гипотез о виде неизвестного распределения;
г) оценка зависимости случайной величины от одной или нескольких других случайных
величин.
2.1. Общая терминология: генеральная совокупность, выборка
Пусть требуется исследовать какой-либо признак, свойственный большой группе однотипных изделий: размер деталей, вес изделий и т.д. Совокупность значений всех изделий данного типа называется генеральной совокупностью. При этом предполагается, что число
в генеральной совокупности весьма велико. В некоторых случаях можно полагать количество значений, образующих генеральную совокупность, бесконечным. Например, дальность до цели при артиллерийской стрельбе может при оценивании (измерении) принимать сколь угодно много значений.
На практике сплошное обследование (всех возможных значений признака, всех изделий многочисленной партии) применяется редко, поскольку это обычно связано с материальными затратами. Поэтому обычно случайно отбирают из всей совокупности ограниченное число объектов (изделий) и подвергают их изучению, т.е. применяют так называемый выборочный метод.
Выборочной совокупностью, или просто выборкой называется совокупность случайно отобранных объектов.
Таким образом, выборочный метод состоит в том, что из генеральной выборки берется выборка из образцов
и определяются характеристики выборки, которые принимаются в качестве приближенных значений соответствующих характеристик генеральной совокупности.
Объем совокупности – число ее объектов. Это относится как к объему генеральной совокупности , так и к объему обычной выборки
.
При составлении выборки можно поступать двумя способами: извлеченный объект может быть возвращен или не возвращен в генеральную совокупность. В соответствии с этим выборки подразделяют на повторные и бесповторные.
Повторная выборка – выборка, при которой отобранный объект перед отбором следующего возвращается в генеральную совокупность.
Бесповторная выборка – выборка, при которой отобранный объект в генеральную совокупность не возвращается.
Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Это требование коротко формулируют так: выборка должна быть репрезентативной (представительной).
Вопрос о представительности выборки весьма непрост. Если объем генеральной выборки конечен, то осуществлять бесповторную выборку, вообще говоря, нельзя, т.к. испытания становятся зависимыми: если на первом шаге отобран какой-либо объект и он не возвращается в генеральную совокупность, при последующих отборах вероятность извлечь объект с такой же характеристикой уменьшается. В то же время, при очень большом объеме генеральной совокупности
это различие может оказаться несущественным и бесповторную выборку все же применяют.
В дальнейшем, если не оговорено противное, будем предполагать, что при отборе осуществляется равновозможный выбор из всех элементов генеральной совокупности с возвращением отобранных объектов.
2.2. Эмпирическая функция распределения, полигон и гистограмма
Пусть из генеральной совокупности извлечена выборка объема , причем значение
наблюдалось
раз,
–
раз,…,
–
раз. Тогда
. Каждое наблюдаемое значение
называется вариантой, последовательность вариант обычно располагают в возрастающем порядке, и тогда эта последовательность называется вариационным рядом. Числа наблюдений
называются частотами, а их отношения к объему выборки
– относительными частотами. На практике по выборочным значениям строят аналог закона распределения, который называется статистическим распределением выборки или выборочным распределением. Под этим понимается перечень вариант и соответствующих им частот или относительных частот.
Пример 1. Задано распределение частот выборки объема :
![]() | |||
![]() |
Как выглядит распределение относительных частот?
Решение. Относительные частоты:
Распределение относительных частот имеет вид:
![]() | |||
![]() | 0,15 | 0,50 | 0,35 |
Контроль:
Предположим, что в результате опыта получена выборка объема и построено статистическое распределение частот некоторого признака
. Введем обозначение: пусть
– число наблюдений, при которых наблюдались значения признака, меньшие
. Относительная частота события
, очевидно, равна
. Если изменять
, то и
меняется, т.е.
есть функция
. Т.к. эта зависимость находится эмпирическим путем (из опыта), то ее называют эмпирической.
Эмпирической функцией распределения (выборочной функцией распределения) называют функцию
.
Здесь – объем выборки,
– число вариант, меньших
.
В отличие от рассматривают также теоретическую функцию распределения
для генеральной совокупности. Таким образом, функция
описывает вероятность события
, а функция
определяет относительную частоту этого же события в конкретной выборке.
Из теоремы Бернулли следует, что
Отсюда следует целесообразность использования эмпирической функции распределения для приближенной оценки по опытным данным.
Функция обладает всеми свойствами
:
1) Значения функции принадлежат отрезку
.
2) – неубывающая функция;
3) Если – наименьшая варианта, то
при
.
4) Если – наибольшая варианта, то
при
.
Пример 1. Построить эмпирическую функцию распределения по выборочному распределению
Варианты ![]() | |||
Частоты ![]() |
Решение. Объем выборки равен . Наименьшая варианта равна
, значит
при
. Значения
, а именно
наблюдались
раз, следовательно при
. Значения
, а именно
и
, наблюдались
раз, поэтому при
. Наконец, т.к.
– наибольшая варианта,
при
. Таким образом
График функции имеет вид:
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Полигон и гистограмма – это графики выборочного статистического распределения.
Полигон частот – ломаная, отрезки которой соединяют точки
Полигон относительных частот – ломаная, отрезки которой соединяют точки где
– объем выборки.
В случае непрерывной случайной величины целесообразно строить не полигон, а гистограмму. Для этого интервал, в котором заключены все наблюдаемые значения , разбивают на несколько частичных интервалов равной протяженности
и находят для каждого
-го частичного интервала величину
– сумму частот вариант, попавших в этот интервал. Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длины
, а высоты равны отношениям
(плотности частот). Таким образом, площадь
-го частичного прямоугольника равна
– сумме частот вариант
-го интервала. Следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки
.
Пример. Результаты наблюдения выборки объема разбиты на 7 частичных интервалов и представлены в таблице
Частичный интервал, ![]() | Сумма частот ![]() | Плотности частот ![]() |
5—10 | 0,8 | |
10—15 | 1,2 | |
15—20 | 3,2 | |
20—25 | 7,2 | |
25—30 | 4,8 | |
30—35 | 2,0 | |
35—40 | 0,8 |
Добавим в таблицу еще один столбец, чтобы построить гистограмму частот. Вычислим , где
– длина частичного интервала. Гистограмма приведена на рисунке
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Если отнормировать полученную гистограмму частот, т.е. значение каждой ординаты выбрать равным , то фигура называется гистограммой относительных частот. Площадь гистограммы относительных частот, таким образом, равна единице.
2.3. Статистические оценки параметров распределения
На практике часто возникает такая задача: из некоторых соображений известно, что изучаемая случайная величина имеет вполне определенный закон распределения (нормальный, равномерный, экспоненциальный и др.). Неизвестными, однако, оказываются параметры распределения. Для нормального закона это могут быть математическое ожидание , или среднеквадратическое отклонение
, либо и то и другое. Для экспоненциального закона возникает задача оценки единственного параметра этого распределения
.
Для нахождения оценок такого рода исследователь располагает лишь выборкой , полученной в результате
наблюдений. Только через эти данные он и должен выразить оцениваемый параметр. В общем случае оценка любого параметра является некоторой функцией всех наблюдаемых данных. Другими словами, статистической оценкой неизвестного параметра теоретического распределения называют некоторую функцию от наблюдаемых случайных величин. Одной из задач математической статистики и является выработка рекомендаций по построению оценок неизвестных параметров.
2.3.1. Несмещенные, эффективные и состоятельные оценки
Существует целый раздел математической статистики, который занимается общим подходом к построению оценок измеряемых параметров.
Одним из требований обычно является так называемая несмещенность оценки.
Обозначим оцениваемый параметр теоретического распределения через , а его статистическую оценку –
. Допустим, что по выборке объема
найдена оценка
. Повторим этот опыт многократно: каждый раз извлекая из генеральной совокупности выборки объема
(
раз), получим
значений оценки
. Мы теперь можем считать, что величина
случайна, а
– ее возможные значения. Предположим, что
не совпадает с истинным значением
, скажем
. Это означало бы, что в среднем мы завышаем оценку истинного значения параметра. Если
, то в среднем оценка оказывается заниженной. И то и другое приводит к систематическим (одного знака) ошибкам. По этой причине естественно потребовать, чтобы
, т.е. математическое ожидание оценки должно совпадать с истинным значением оцениваемого параметра. Такая оценка называется несмещенной. Несмещенная оценка не содержит систематических ошибок.
Смещенной называется оценка, для которой .
Не следует, однако думать, что добившись несмещенности, мы наилучшим образом решили задачу оценки неизвестного параметра. Если возможные значения сильно рассеяны вокруг своего среднего значения (истинного значения
), то оценка может оказаться весьма далекой от истинного значения. Разумеется, хотелось бы, чтобы дисперсия оценки
была как можно меньше.
Дата публикования: 2015-03-26; Прочитано: 395 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!