Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Понятие информативности данных



Одной из распространенных ошибок при сборе данных из структурированных источников является стремление взять для анализа как можно больше признаков, описывающих объекты.

Между тем предварительная оценка данных, которая проводится визуально при помощи таблиц и базовой статистической информации по набору данных, существенно помогает в определении информативности признаков с точки зрения анализа.

Среди неинформативных признаков выделяется четыре типа:

• признаки, содержащие только одно значение (рис. а);

• признаки, содержащие в основном одно значение (рис.б);

• признаки с уникальными значениями (рис. в);

• признаки, между которыми имеет место сильная корреляция, — в этом случае для анализа можно взять один столбец (рис. г).

Аналитические инструменты пытаются построить модели на основе предложенных данных, поэтому чем ближе данные к действительности, тем лучше.

Необходимо понимать: модель не может «знать» о том, что находится за пределами собранных для анализа данных.

Существуют требования к минимальным объемам данных для возможности построения моделей на их основе. В зависимости от представления данных и решаемой задачи эти требования различны. Для временных рядов, которые относятся к упорядоченным данным, требования следующие:

если для моделируемого бизнес-процесса (например, продажи) характерна сезонность/цикличность, то необходимо иметь данные хотя бы за один полный сезон/цикл с возможностью варьирования интервалов (понедельное, помесячное и т. д.).

Максимальный горизонт прогнозирования зависит от объема данных:

· данные за 1,5 года — прогноз возможен максимум на 1 месяц;

· данные за 2-3 года — на 2 месяца.

Для неупорядоченных данных требования следующие:
□ Количество примеров (прецедентов) должно быть значительно больше количества факторов.
□ Желательно, чтобы данные покрывали как можно больше ситуаций реального процесса.
□ Пропорции различных примеров (прецедентов) должны примерно соответствовать реальному процессу.

Транзакционные данные.

Анализ транзакций целесообразно производить на большом объеме данных, иначе могут быть выявлены статистически необоснованные правила. Алгоритмы поиска ассоциативных связей способны быстро перерабатывать огромные массивы данных. Примерное соотношение между количеством объектов и объемом данных следующее:

□ 300-500 объектов — не менее 10 тыс. транзакций;
□ 500-1000 объектов — более 300 тыс. транзакций.





Дата публикования: 2015-01-26; Прочитано: 640 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.011 с)...