![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Данные — сведения, которые характеризуют систему, явление, процесс или объект, представленные в определенной форме и предназначенные для дальнейшего использования.
По степени структурированности выделяют следующие формы представления данных:
□ неструктурированные;
□ структурированные;
□ слабоструктурированные.
К неструктурированным относятся данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио). Эта форма представления данных широко используется, например, в Интернете, а сами данные представляются пользователю в виде отклика поисковыми системами.
Структурированные данные отражают отдельные факты предметной области. Структурированными называются данные, определенным образом упорядоченные и организованные с целью обеспечения возможности применения к ним некоторых действий (например, визуального или машинного анализа). Это основная форма представления сведений в базах данных.
Организация того или иного вида хранения данных (структурированных или неструктурированных) связана с обеспечением доступа к ним.
Под доступом понимается возможность выделения элемента данных (или множества элементов) среди других элементов по каким-либо признакам с целью выполнения некоторых действий над элементом. Одной из самых распространенных моделей хранения структурированных данных является таблица. В ней все данные упорядочиваются в двумерную структуру, состоящую из столбцов и строк (рис.).
Рис. Структурированный набор данных
В ячейках такой таблицы содержатся элементы данных: символы, числа, логические значения.
Неструктурированные данные непригодны для обработки напрямую методами анализа данных, поэтому такие данные подвергаются специальным приемам структуризации, причем сам характер данных в процессе структуризации может существенно измениться.Например, в анализе текстов (Text Mining) при структурировании из исходного текста может быть сформирована таблица с частотами встречаемости слов, и уже такой набор данных будет обрабатываться методами, пригодными для структурированных данных.
Слабоструктурированные данные — это данные, для которых определены некоторые правила и форматы, но в самом общем виде. Например, строка с адресом, строка в прайс-листе, ФИО и т. п.
В отличие от неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа.
На рис. приведен пример стандартизации строки с адресом.
Рис. Стандартизация слабоструктурированных данных
Подавляющее большинство методов анализа данных работает только с хорошо структурированными данными, представленными в табличном виде, поэтому дальнейшее изложение ведется применительно к структурированным данным.
Дата публикования: 2015-01-26; Прочитано: 4545 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!