Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Сбор и анализ данных



Важной функцией имитационного моделирования является сбор и анализ данных. Выполнение этой функции необходимо как при определении входных данных для модели, так и при получении результатов эксперимента. Ниже дается обзор ряда важных понятий математической статистики, применяемых при сборе и анализе данных.

Под подготовкой данных подразумевается процесс получения (сбора) данных об изучаемом явлении. Существует ряд методов получения исходных данных. В некоторых случаях исходные данные содержатся в существующей документации, и тогда задачей исследователя является выявление требуемых данных и организация доступа к ним. В других случаях подготовка данных может включать анкетирование, обзор проблематики или же физическое экспериментирование

В крупномасштабных моделях, таких, как модели городских шли экономических систем, требуемые данные обычно можно получить из существующей документации. Источниками данных для таких моделей служат, например, официальные отчеты, статистические сборники, а также материалы правительственных и международных организаций. Все чаще подобные материалы не только появляются в виде бумажных документов, но записываются и на машинные носители информации.

Для моделей производственных систем важным источником, данных может служить финансовая и техническая документация. Хотя эта документация часто недостаточна при формировании целостной основы для оценки спроса, стоимости продукции и других важных факторов, она тем не менее служит отправной точкой при моделировании. Анкетирование и обзор предметной области также являются одними из возможных методов получения данных при моделировании производственной деятельности.

Физическое экспериментирование, как правило, является наиболее дорогостоящим и трудоемким методом получения исходных данных. Оно включает в себя измерение, запись и обработку данных. Особое внимание здесь следует уделять планированию эксперимента, которое позволяет убедиться в представительности условий эксперимента и правильности записываемых данных.

В ряде случаев исходных данных может не существовать, при этом сама природа моделируемой системы часто исключает возможность экспериментирования. Примером такой ситуации может служить имитационное моделирование различных вариантов размещения оборудования сборочной линии. Возможным подходом к подготовке данных в таких случаях может быть предварительный синтез данных, который предполагает вычисление оценок продолжительности работ с использованием таблиц стандартных исходных данных. Таким образом, этот метод позволяет оценивать продолжительность выполнения работ еще до того, как они будут выполняться в действительности.

Как при сборе реальных данных для определения входов модели, так я при сборе данных о функционировании системы на основе моделирования мы сталкиваемся с проблемой преобразования «сырых» данных к удобному для анализа виду. Поэтому нас интересуют способы нахождения и описания наиболее важных свойств набора данных. Эти способы обычно позволяют агрегировать данные за счет потери некоторой содержащейся в них информации.

Группировка данных. Одним из методов преобразования данных к удобному виду является группировка данных по классам (интервалам) Данные затем сводятся в таблицу, содержащую количество попаданий элементов данных в каждый класс. Такая таблица называется частотной и обычно дает хорошее общее представление о данных. Примером частотной таблицы могут служить представленные ниже данные о временах ожи­дания обслуживания посетителями:

Время ожидания, с Число посетителей
0 20  
20 40  
40 60  
60 80  
80 100  
100 120  
>120  

Числа в правом столбце таблицы указывают количество попавших в каждый класс посетителей и называются частотами классов. Числа в левом столбце для каждого класса определяют интервалы значений наблюдаемой величины и называются границами класса. Разница между верхней и нижней границами класса называется размером класса. Классы, не ограниченные сверху или снизу, называются открытыми. Классы, ограниченные с двух сторон, называются закрытыми. Довольно часто первый и (или) последний классы частотной таблицы бывают открытыми.

Существует несколько видов частотных таблиц, полезных для отображения сгруппированных данных. Одним из видов является таблица накопленных частот, получаемая последовательным сложением значений частот. Ниже приводится таблица накопленных частот для данных о времени ожидания обслуживания посетителями:

Время ожидания (с) меньше, чем Число посетителей (с накоплением)
   
   
   
   
   
   
 

Числа в правом столбце указывают общее число посетите­лей, время ожидания у которых оказалось меньше, чем указан­ная в левом столбце верхняя граница класса. Еще один вид таблиц можно получить, преобразовав частотную таблицу (или таблицу накопленных частот) в таблицу распределения частот путем деления частоты каждого класса (накопленной частоты) на общее число имеющихся в нем элементов данных. Распределения частот полезны, в частности, при сравнении нескольких законов распределений.

С целью улучшения отображения данных частоты и накопленные частоты иногда представляются графически. Наиболее общим графическим представлением является гистограмма, которая отображает в виде прямоугольников частоты классов, причем высота прямоугольников пропорциональна частотам. На рис.2.6 приведена гистограмма времени ожидания обслуживания посетителями.

Рис.2.6 Гистограмма распределения времени ожидания обслуживания посетителями.

Особое внимание при построении распределений частот необходимо уделять выбору числа классов и границ интервалов. При этом необходимо, учитывая, конечно, природу данных и цель их использования, следовать некоторым общим рекомендациям:

1. По возможности классы должны иметь одинаковый размер, хотя первый и последний классы при этом могут быть открытыми.

2. Интервалы классов не должны перекрываться. Другими словами, каждый элемент данных должен принадлежать одному и только одному классу.

3. Не следует обычно делать меньше 5 и больше 20 классов.

Оценка параметров. Если множество элементов данных содержит множество всех возможных наблюдений, оно называется популяцией. Если же содержит только часть из них, оно называется выборкой. Одним из методов агрегации множества данных является рассмотрение данных как выборки, используемой для оценки параметров исходной популяции. Наиболее интересными параметрами популяции являются среднее, оценивающее меру центральности, и дисперсия, оценивающая меру рассеивания.

Для примера рассмотрим снова данные о времени ожидания обслуживания посетителями. Эти данные можно рассматривать как выборку из популяции, состоящей из всех возможных значений времени ожидания. Мы можем далее по данным этой выборки оценить среднее время ожидания посетителя и дисперсию времени ожидания для всей популяции.

Для отличия параметров популяции от оценок этих параметров на основе выборки они обозначаются по-разному. Для обозначения среднего и дисперсии популяции используются обычно греческие символы , и соответственно. Оценки же этих, параметров на основе выборки x1, x2,..., обозначаются символами и соответственно. Для разграничения в дальнейшем этих понятий характеристики популяции будем называть параметрами, а характеристики выборки — статистиками.

Прежде чем продолжить обсуждение статистических характеристик, сделаем ряд уточнений относительно обозначений», принятых для случайных величин, экспериментальных оценок случайной величины и случайной последовательности. Случайная величина до осуществления наблюдения обозначается через Xi, а после его осуществления — символом xi Выборочным средним будем называть случайную величину, являющуюся суммой I случайных величин до осуществления наблюдений, деленную на I. После осуществления наблюдений xi среднее будем обозначать Аналогично случайную величину, являющуюся оценкой дисперсии выборки до осуществления наблюдения, будем обозначать символом S2x, а после осуществления — символом s2x. Таким образом, как было условленно выше, случайные величины обозначаются прописными буквами, аих количественные оценки — строчными.

При построении оценок параметров популяции по данным выборки необходимо рассматривать два различных случая. В первом случае выборка содержит только значения самих наблюдений без учета моментов времени осуществления этих наблюдений. Примером такой выборки могут служить данные о времени ожидания обслуживания посетителями. Статистики по независимой от времени выборке называются статистиками по наблюдениям или точечными статистиками.

Во втором случае значения случайных величин определены во времени. Например, число занятых кассиров в магазине является случайной величиной, значение которой меняется во времени. При этом нас интересует информация о том, какие значения принимала наблюдаемая случайная величина и на каких интервалах времени. Статистики по зависимой от времени выборке называются временными или интервальными статистиками.

Таблица 2.1 Фформулы для вычислений среднего и дисперсии по выборке

  Статистика Формулы
Точечные статистические оценки Интервальные статистические оценки
Выборочное среднее
Дисперсия выборки

В табл.2.1 приведены формулы для вычисления как точечных, так и интервальных статистик и . Для интервального случая выборочное среднее обозначается , где Т равно общей продолжительности интервала времени наблюдения. Для вычисления существует несколько формул, однако приводимая здесь формула наиболее удобна с вычислительной точки зрения. Отметим, что для вычисления точечных статистик необходимо знать значения и размер выборки I. Аналогично для вычисления интервальных оценок необходимо знать и Т

Еще одной часто используемой при обработке данных оценкой является коэффициент вариации, равный . Он определяет отношение среднеквадратичного отклонения выборки к выборочному среднему. Коэффициент вариации применяется обычно для сравнения дисперсий нескольких наборов данных.

Подбор распределения. Предыдущий раздел был посвящен проблеме оценки параметров популяции по выборке. Аналогичной, но более сложной проблемой является идентификация распределения популяции данным выборки. Она часто возникает в моделировании, так как вероятностные элементы необходимо представлять в модели в виде конкретных распределений. Хотя понимание свойств теоретических распределений, помогает разработчику модели выдвинуть гипотезу о выборе подходящего распределения, все же необходимо проверить ее с помощью одного из статистических тестов. Наиболее пригодными из известных тестов являются тест хи-квадрат и тест Колмогорова-Смирнова Существует удобное для использования программное обеспечение (AID), реализующее как графические, так статистические тесты согласия для подбора теоретического распределения по данным выборки





Дата публикования: 2015-01-23; Прочитано: 577 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...