Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Краткая теория. I. Проведение статистической обработки результатов исследования



I. Проведение статистической обработки результатов исследования.

Рассмотрим краткую схему обработки полученной цифровой информации. Например, исследователь провел изучение каких-то показателей у здоровых людей и больных. Что делать с этими цифрами дальше?

Следует помнить, что математическая статистика содержит в себе аппарат, позволяющий исследователю осуществить перевод количества в новое качество, т.е. на основании полученных данных найти у обследованного определенное свойство. Можно получить качественные и количественные характеристики этого свойства и, наконец, оценить как достоверность выдвигаемой в процессе исследования гипотезы, так и достоверность проведенных вычислений.

1. Вначале необходимо оценить полученные показатели. Среди цифр одного ряда (выборки) часто попадаются так называемые выскакивающие значения. Чем меньше объём выборки, т.е. чем меньше количество показателей имеется в распоряжении исследователя, тем больше искажения будет вносить эта «выскакивающая» величина на истинное значение искомой величины.

2. Затем исследователя, как правило, интересует среднее значение полученных показателей (оно обозначается ). Чем больше число наблюдений однородных признаков, тем ближе среднее значение к истинному.

Как правило, в биологических и медицинских исследованиях, кроме средней величины, обычно вычисляют стандартную ошибку средней арифметической (Sx), показывающую, на какую величину может отклоняться средняя величина (в ту или другую сторону) у 95% (или у другого количества в зависимости от выбранной степени достоверности) всех показателей данной выборки.

3. Затем обычно проводится так называемый целевой статистический анализ. Здесь уместно определить вид распределения. Существует несколько видов статистических распределений случайных величин. Назовем основные из них:

Нормальное распределение, когда переменная величина изменяется непрерывно;

Биноминальное распределение, когда переменная величина может принимать только дискретные значения, при этом некоторое событие может только быть или не быть;

Распределение Пуассона, когда рассматриваются очень редкие, маловероятные события;

Равномерное распределение, когда вероятно появление погрешности любой величины внутри некоторого интервала, а за его пределами вероятность появления погрешности равна нулю.

Для большого числа встречающихся на практике случайных величин можно ожидать распределение по нормальному закону. При проверке распределения на нормальность используют различные критерии (см. Гл. III в данном руководстве).

Если имеется две группы показателей, например у здоровых и больных, сравнивают средние арифметические и стандартные ошибки этих двух выборок, при этом изучают степень достоверности различий. Можно использовать для этой цели различные критерии, например, хи квадрат (c2). Если установлено, что данное распределение не является нормальным, можно использовать различные непараметрические методы анализа.

4. Далее можно определить наличие связей между различными характеристиками одного объекта. Количественной характеристикой тесноты связи разнородных признаков может служить коэффициент корреляции. В случае, когда связь между признаками имеет сложный вид, можно рассчитать показатели коэффициентов нелинейной корреляции.

Исследователю, постоянно занимающемуся выявлением связей между различными признаками, имеет смысл включить корреляционный анализ в предварительную обработку информации. Если связь между признаками четко выражена, можно определить вид этой связи, т.е. построить линию, описывающую поведение одного из признаков при изменении сопряженного с ним признака, - построить линию регрессии.

По линии регрессии затем можно предсказать поведение одного параметра при изменении другого.

5. Дисперсионный анализ позволит определить влияние какого-либо фактора на результат в сравнении с влиянием других факторов, действующих одновременно.

II. Нормальный закон распределения.

Результаты, полученные при измерении той или иной величины, нельзя принять из-за ряда случайностей за достоверные (действительные значения измеряемых величин). Тогда приходится говорить о вероятности того или иного значения этих величин и определить их. Вероятность события - это количественная оценка объективной возможности появления данного события. Вероятность достоверных событий равна 1. Например, после ночи наступит утро. Вероятность невозможных событий равна 0. Случайные события имеют вероятность (p) больше 0, но меньше 1, т.е. 0 £ p £ 1.

Если число всех равновероятных событий n и появление желательного результата возможно m раз, то p* = m/n (частота появления события).

Как было показано Я. Бернулли, частота появления события будет сколь угодно мало отличаться от вероятности при большом числе n, т.е. p = p*, p - статистическая вероятность события.

Всякое соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями, есть закон распределения случайной величины.

Закон распределения случайной величины может быть задан в разных формах:

а) ряд распределения (для дискретных величин);

б) функция распределения;

в) кривая распределения (для непрерывных величин).

Кривая нормального распределения была дана немецким математиком К.Ф.Гауссом в 1821 г.:

(1.1)

где у(xi) - ордината кривой нормального распределения (плотность вероятности случайной величины);

x - значение случайной величины;

m – «истинное» значение величины (среднее арифметическое или математическое ожидание случайной величины);

s - среднее квадратичное отклонение;

e - основание натуральных логарифмов (e=2.7183).

а) Основные свойства кривой Гаусса.

- Кривая имеет колоколообразную форму. На некотором расстоянии от середины симметрично по обе стороны ее находятся точки перегиба (Рис.1.1).

Характеристиками кривой служат высота кривой и расстояния от оси ординат до точек перегиба.

- Вершина кривой соответствует наибольшему числу повторений, т.е. наибольшей вероятности, соответствующей погрешности = 0.

- При увеличении абсолютной погрешности вероятность ее появления уменьшается. Кривая асимптотически приближается к оси абсцисс; следовательно, появление больших погрешностей маловероятно.

- Кривая нормального распределения симметрична относительно вертикальной оси, проходящей через максимум кривой, т.е. одинаковые погрешности, но с разными знаками имеют одинаковую вероятность.

Из формулы (1.1) видно, что центр рассеивания x = m является центром симметрии и, если изменять центр рассеивания m, кривая распределения будет смещаться вдоль оси абсцисс, не изменяя своей формы (Рис.1.2).

- параметр s определяет саму форму кривой распределения. Максимум функции нормального распределения при x=m равен:

(1.2)

т.е. обратно пропорционален величине s. Площадь, ограниченная кривой распределения всегда равна 1:

(1.3)

поскольку (1.3) выражает вероятность того, что случайная величина примет какое-нибудь значение из интервала (-¥, +¥) - достоверное событие. Поэтому при увеличении кривая распределения становится пологой, т.е. сжимается к оси Ох и растягивается вдоль неё (Рис.1.3).

Рис. 1.1. Рис. 1.2. Рис. 1.3.

б) Правила обработки результатов измерений.

Указанные правила можно применять при нормальном распределении результатов измерений или мало отличающемся от него.

- Определяют среднее арифметическое значение измеряемой величины:

.

- Находят абсолютные погрешности отдельных измерений:

.

- Вычисляют среднюю абсолютную погрешность отдельных измерений:

.

- Вычисляют среднюю квадратическую погрешность отдельных измерений:

s=1.253 x,

или

.

- Отбрасывают промахи, если Dxi > 3s.

- Определяют среднюю квадратическую погрешность среднего значения:

s = 1.253åDxi/n = 1.253 ,

или

s = s/ = .

- По числу наблюдений n<30 и выбранной доверительной вероятности a по таблицам Стьюдента (см. Приложение) определяют коэффициент Стьюдента ta,n.

- Записывают величину доверительного интервала для среднего значения измеряемой величины:

Dx = ta,n s.

- Записывают результат измерений:

x = ±Dx.

- Определяют относительную погрешность:

E= .

III. Проверка распределения эмпирических данных на нормальный закон распределения.

Нормальное распределение случайной величины встречается в природе очень часто. В связи с этим при отсутствии оснований предполагать, что случайная величина распределена не нормально, в первую очередь необходимо проверить закон распределения на нормальность. Существуют различные способы проведения данной проверки.

1. Построение «Гистограммы»

Для выявления распределения вероятностей получаемых значений измеряемой величины, можно построить ступенчатую диаграмму, которая носит название «гистограмма». Она строится на непрерывных значениях независимой переменной, сгруппированных в классы равной ширины.

Совокупность всех значений случайной величины, полученных в результате эксперимента, называется простым статистическим рядом.

Так как простой статистический ряд оказывается большим, его преобразуют в статистический ряд. Для этого весь диапазон изменения случайной величины делят на несколько равных интервалов Dx:

Dx = (xmax - xmin)/k, где Dx -величина интервала, xmax-, xmin - максимальное, минимальное (соответственно) значение случайной величины, k - число классов, или количество интервалов, на которые следует разбить весь объём выборки.

Число наблюдений n (от-до) Число классов k
25-40 40-60 60-100 100-200 >200 5-6 6-8 7-10 10-12 12-15

Число классов (k) можно приблизительно наметить, пользуясь следующей таблицей:

Более точно величину k можно определить по формуле Стерджеса:

k=1+3,32 lg n

При наличии в совокупности большого числа членов (n>100) можно использовать формулу k=5 lg n (К. Брукс, Н. Карузерс, 1963)

Разбивку значений по интервалам проводят по формулам (1.4):

x1,min=xmin, x2,min=x1,max=x1,min+Dx,., xn,min=xn-1,min+Dx

x1,max=x1,min+Dx, x2,max=x2,min+Dx,..., xn,max=xn,min+Dx. (1.4)

Для каждого интервала подсчитывают число mi значений случайной величины, попавших в соответствующий интервал:

xi,min < xi < xi,max.

Необходимо проверить, что (объём выборки),

где j - число интервалов.

После этого вычисляют частоту случайной величины P = mi/n для каждого интервала и среднее значение случайной величины в каждом интервале :

= (xi,max + xi,min)/2 (1.5)

Необходимо проверить, что P = 1 (!)

По статистическому ряду строится «гистограмма», для чего по оси абсцисс откладывают интервалы (1.4), являющиеся основаниями прямоугольников, высота которых равна P /Dx - относительной частоте события (Рис.1.4). Частота появления результатов, соответствующих каждому интервалу, будет пропорциональна площади прямоугольника.

При большом числе измерений и увеличенном в 2 раза числе интервалов получится более сглаженная гистограмма (Рис.1.5).

Рис. 1.5
Рис. 1.4

Если количество измерений увеличивать, а величину интервала уменьшать, то гистограмма будет приближаться к плавной кривой, имеющей форму кривой Гаусса (Рис.1.5).

Интервалы не могут равняться нулю, но могут быть бесконечно малыми (dx) и приняты за точку. Эту кривую и следует рассматривать как предел, в который превращается гистограмма, когда интервал dx становится бесконечно малым и стягивается в точку.

Вероятность появления тех или иных значений случайной величины определяется элементарной площадкой ydx (P ), называемой элементом вероятности.

При нормальном распределении среднему арифметическому значению случайной величины должна соответствовать максимальная вероятность (Необходимо проверять!).

Значение средней арифметической, в этом случае, следует находить по формуле:

- (математическое ожидание) (1.6)

Совокупность всех этих площадок, расположенных под кривой Гаусса, является вероятностью того, что случайная величина принимает любые значения от -¥ до +¥, т.е. это вероятность достоверного события, равная 1 (1.3).

В том случае, если случайная величина распределена по нормальному закону, т.е. гистограмма имеет вид как на Рис.1.5, для построения кривой распределения находят значения функции распределения вероятностей при x= по формуле:

f() = f(zi)/s (1.7)

где f() - плотность вероятности случайной величины;

-среднее интервальное значение случайной величины;

s-среднее квадратическое отклонение;

zi = | - |/s

f(zi) =

Значения функции f (zi) – протабулированы.





Дата публикования: 2015-09-17; Прочитано: 436 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.014 с)...