Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Формы представления данных



Данные — сведения, которые характеризуют систему, явление, процесс или объект, представленные в определенной форме и предназначенные для дальнейшего использования.

По степени структурированности выделяют следующие формы представления данных:

□ неструктурированные;

□ структурированные;

□ слабоструктурированные.

К неструктурированным относятся данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио). Эта форма представления данных широко используется, например, в Интернете, а сами данные представляются пользователю в виде отклика поисковыми системами.

Структурированные данные отражают отдельные факты предметной области. Структурированными называются данные, определенным образом упорядоченные и организованные с целью обеспечения возможности применения к ним некоторых действий (например, визуального или машинного анализа). Это основная форма представления сведений в базах данных.

Организация того или иного вида хранения данных (структурированных или неструктурированных) связана с обеспечением доступа к ним.

Под доступом понимается возможность выделения элемента данных (или множества элементов) среди других элементов по каким-либо признакам с целью выполнения некоторых действий над элементом. Одной из самых распространенных моделей хранения структурированных данных является таблица. В ней все данные упорядочиваются в двумерную структуру, состоящую из столбцов и строк (рис.).

Рис. Структурированный набор данных

В ячейках такой таблицы содержатся элементы данных: символы, числа, логические значения.

Неструктурированные данные непригодны для обработки напрямую методами анализа данных, поэтому такие данные подвергаются специальным приемам структуризации, причем сам характер данных в процессе структуризации может существенно измениться.Например, в анализе текстов (Text Mining) при структурировании из исходного текста может быть сформирована таблица с частотами встречаемости слов, и уже такой набор данных будет обрабатываться методами, пригодными для структурированных данных.

Слабоструктурированные данные — это данные, для которых определены некоторые правила и форматы, но в самом общем виде. Например, строка с адресом, строка в прайс-листе, ФИО и т. п.

В отличие от неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа.

На рис. приведен пример стандартизации строки с адресом.

Рис. Стандартизация слабоструктурированных данных

Подавляющее большинство методов анализа данных работает только с хорошо структурированными данными, представленными в табличном виде, поэтому дальнейшее изложение ведется применительно к структурированным данным.





Дата публикования: 2015-01-26; Прочитано: 4466 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...