Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Интегрированные (корпоративные) ИС используются для автоматизации всех функций фирмы и охватывают весь цикл работ от проектирования до сбыта продукции. Создание таких систем весьма затруднительно, поскольку требует системного подхода с позиций главной цели, например получения прибыли, завоевания рынка сбыта и т.д. Такой подход может привести к существенным изменениям в самой структуре фирмы, на что может решиться не каждый управляющий.
Выделяют несколько типов КИС:
· по степени автоматизации — автоматизированные и неавтоматизированные;
· по сфере функционирования объекта управления — промышленность, транспорт, торговля и т.п.;
· по уровню в системе управления — отраслевые, территориальные, корпоративные и т.п.;
· по объекту — управление технологическими процессами, управление проектом, управление складом и т.п.;
· по охвату объектов управления — интегрированные и локальные;
· по уровню адаптации к предприятию — «коробочный» продукт, «конструктор», разработанная на заказ;
· по принципу построения ИС — алгоритмические и интеллектуальные системы;
· по своим функциям — операционно-учетные, управленческие, системы поддержки принятия решений.
Принятие решения — важная часть роли менеджера. Информационные системы помогают менеджерам собирать, анализировать и распространять информацию, тем самым способствуя принятию управленческих решений и их реализации. Процесс принятия решения различается как на различных уровнях управления, так и по степени структурированности принимаемых решений. Поэтому эти два фактора предопределяют разную роль различных информационных систем в процессе поддержки принятия управленческих решений (рис.
Рис. Роль различных типов информационных систем в процессе принятия управленческого решения
На стратегическом уровне определяются цели, ресурсы и политика компании;
на среднем уровне управления решаются вопросы эффективного управления ресурсами и взаимодействия различных подразделений компаний
на уровне знаний оцениваются новые идеи по продукту и услугам компании, а также определяются каналы распространения знания внутри компании;
на оперативном уровне определяются наиболее эффективные пути реализации специальных задач в рамках выполнения стратегических и оперативных планов
Неструктурированные решения — это решения, по которым не могут быть определены точные процедуры и алгоритмы их разработки (например, принятие стратегических решений по новым продуктам и рынкам).
В отличие от них структурированные решения имеют четкие процедуры для их принятия (разработка производственных планов, сведение бюджета). К полуструктурированным относят решения, по которым лишь частично возможно определение четких процедур (например, размещение новых производственных мощностей, разработка плана реализации проекта).
Итак, КИС должна:
· обеспечивать взаимосвязанность частей системы (изменения в одной части должны автоматически приводить к изменениям в другой части);
· обеспечивать реализацию существующих на предприятии бизнес-процессов;
· автоматизировать основные бизнес-процессы;
· давать руководителю возможность получать информацию в объеме, необходимом для принятия решений
· быть легка в обучении и использовании;
· предоставлять возможность для пользователя без помощи программиста редактировать все необходимые отчеты и документы, меняя их форму и создавая собственные форматы;
· давать возможность отследить, кто и когда внес изменения;
· включать надежные программы защиты данных и функции распределения прав доступа к ним
ИНФОРМАЦИОННАЯ КУЛЬТУРА
Выбор информационной системы в значительной степени определяется организационной культурой предприятия, частью которой является так называемая информационная культура. Она предопределяет как способ использования информации, так и информационное поведение работников компании и отражает приоритеты руководителей компании в использовании информации для достижения успеха или предотвращения провалов. Выделяют четыре разновидности информационной культуры (рис. 1.7)1.
Функциональная культура | Менеджеры используют информацию, чтобы управлять подчиненными или влиять на них |
Культура взаимодействия | Менеджеры и служащие доверяют друг другу и делятся информацией (особенно о наличии проблем и неудач), чтобы повысить собственную эффективность |
Культура исследования | Менеджеры и служащие ищут инфу, чтобы лучше понимать будущее и то, как изменить собственную деятельность и приспособиться к будущим тенденциям |
Культура открытости | Менеджеры и служащие открыты для нового понимания природы кризисов и радикальных перемен и ищут способы прорыва в конкурентоспособности |
Первая — это функциональная культура, когда информацию используют в первую очередь для оказания влияния на других. Эта культура в наибольшей степени присуща жестко иерархизированным механистическим компаниям, где информация служит прежде всего для управления и контроля. Контроль — характерное для этой культуры информационное поведение. Здесь этот термин используется не в отрицательном смысле, а просто как обозначение необходимой для компании деятельности. Многие деловые процессы используются для контроля во всех областях — от бухгалтерского учета до снабжения.
В культуре взаимодействия менеджеры и специалисты в достаточной степени доверяют друг другу и потому могут обмениваться информацией, важной для совершенствования процессов и роста эффективности. Прямой обмен информацией о возможных срывах и провалах необходим для устранения проблем и адаптации к изменениям. Существуют компании, внедряющие программы системы управления качеством — Total Quality Management (TQM) или занимающиеся перестройкой системы управления, которые одновременно наказывают служащих и менеджеров, решившихся заговорить о недостатках и ошибках. Но есть и компании, где такая информация рассматривается как необходимое условие успеха. Они полагают, что, доводя такую информацию до своих служб и рабочих групп, до потребителей и поставщиков, компания помогает устранению проблем и совершенствованию производства.
В культуре исследования менеджеры и служащие стремятся к пониманию будущих тенденций и нахождению лучшего способа отразить возможную угрозу. Здесь господствующим информационным поведением является предвидение. Элементы исследовательской культуры можно встретить в службах, связанных с обслуживанием клиентов, исследованиями рынка, технологическими исследованиями и разработками, а также со сбором информации.
В рамках культуры открытости служащие и менеджеры открыты для нового понимания природы кризисов и радикальных перемен. Эти компании сознательно отбрасывают старые подходы к бизнесу, чтобы освободиться для поиска новых перспектив и идей, обещающих создание новых продуктов и услуг, которые могли бы изменить условия конкуренции. Примером такой культуры может служить корпорация Microsoft, которая одновременно действует на ряде рынков: онлайновой информации, развлечений и продаж видеопродукции. Компания не просто предвидит изменения и адаптируется к ним, но изменяет саму базу конкуренции в разных отраслях. Существует немало компаний, в которых можно увидеть отдельные элементы культуры открытости, где собирают и обрабатывают информацию, разрабатывают новые продукты и сценарии развития бизнеса, добиваются партнерских отношений с потребителями и поставщиками. Но пока таких компаний, как Microsoft, которые сделали культуру открытости неотъемлемой частью своей стратегии, мало.
Таким образом, невозможно представить современную компанию вне информационного поля. В то же время усложнение бизнес-пространства, увеличение объемов информации, которая должна собираться, анализироваться, обрабатываться для целей бизнеса, требуют формирования корпоративной информационной системы, ее развития и поддержки. В структуре фирмы появляется новая должность — CIO (Chief Information Officer) — директор информационной службы, а перед руководством компании возникает новая задача — создание КИС (корпоративной информационной системы).
9.
9.
9. Важную роль в моделировании предметной области информационной системы играют ее информационные ресурсы. Во всех классах моделей, кроме случая темпоральных баз данных, информационные ресурсы системы представляют статическую модель предметной области, характеризуя ее текущее состояние. Темпоральные базы данных позволяют представлять динамику предметной области — изменение ее состояния во времени.
Следует заметить, что с элементами коллекции информационных ресурсов, представляющих статическую модель предметной области, могут ассоциироваться некоторые отметки времени, но эти временные характеристики могут воспринимать только пользователи. Такие отметки времени принято называть временем, определяемым пользователем. Например, документы в системе текстового поиска могут быть датированными. Но система воспринимает указанную дату как обычный фрагмент текста.
Структурированные модели. Модели такого рода основаны на выявлении регулярной структуры предметной области. Для конструирования таких моделей нужно типизировать сущности предметной области, относя к одному типу сущности с одинаковым набором свойств. Аналогичным образом типизируются связи между сущностями. Связи определяются на множествах типов сущностей и могут иметь различную арность. Например, связи могут быть бинарными или n-арными. Представление предметной области, сконструированное с помощью рассматриваемого подхода, также называется структурированным.
Одной из разновидностей рассматриваемого подхода к моделированию предметной области является объектный (или объектно-ориентированный) подход, который дает возможность моделировать не только структуру предметной области, но и поведение экземпляров сущностей, относящихся к каждому определенному типу. С этой целью определение каждого типа сущностей включает определения допустимых на его экземплярах операций (или методов).
При использовании структурированных моделей представление предметной области имеет два уровня. Представление более высокого уровня абстракции — это модель предметной области, отображающая ее свойства, инвариантные во времени. Эта модель представляется в терминах типов сущностей предметной области и типов связей между ними. Такую модель называют интенсионалом предметной области. Второй, более конкретный уровень, моделирует состояние предметной области в зависимости от времени. Модель этого уровня представляется в терминах конкретных экземпляров сущностей и связей определенных типов между ними. Эту модель называют экстенсиона- лом предметной области.
На структурированных моделях предметной области с регулярной структурой основаны системы баз данных. В этом случае интенсионал предметной области называют схемой базы данных. Естественно называть информационные ресурсы систем баз данных структурированными данными.
Слабоструктурированные модели. При создании некоторых информационных систем применяется подход к моделированию предметной области, при котором регулярная ее структура не определена или она не существует в рассматриваемом случае. Такой подход используется, например, в системах, основанных на различного рода языках разметки.
В рассматриваемом подходе не предусматривается строгая типизация сущностей предметной области и связей между сущностями. Представление предметной области обычно является одноуровневым. Поддерживается экстенсионал предметной области — ее представление в терминах конкретных экземпляров сущностей и связей между ними. Иногда предпринимается попытка некоторой типизации сущностей и связей. Но не гарантируется, что свойства типов обязательно присущи всем относящимся к ним экземплярам. Определенный в таком случае интенсионал, по аналогии с системами баз данных иногда называемый схемой, не играет директивной роли. Конкретные экземпляры сущностей и связей, свойства которых не соответствуют схеме, системой не отвергаются.
Такого рода представления предметной области называют слабоструктурированными. Информационные ресурсы систем, основанных на рассматриваемом подходе, называют слабоструктурированными данными.
Наиболее известной информационной системой, в которой поддерживается слабоструктурированное представление предметной области, является WorldWideWeb(далее — Web), базирующаяся на технологиях HTML.
Формирующийся в настоящее время Webнового поколения, основанный на технологической платформе XML, позволяет поддерживать не только слабоструктурированные, но и структурированные представления предметной области
10.Неструктурированные модели. К этой категории относятся вербальные модели, то есть модели, описывающие реальность в виде текстов на естественном языке. В таких моделях явным образом не представляется структура предметной области — множество сущностей, их свойств, различного рода связей между этими сущностями, интересующих пользователей системы. Эта структура может быть реконструирована на основе анализа содержания заданных текстов, однако не всегда однозначным образом. Автоматизация такого анализа — достаточно сложная задача, связанная с технологиями обработки естественного языка(NaturalLanguageProcessing).
Существует широкий спектр информационных систем, поддерживающих неструктурированные модели предметной области. В простейших из них задачи анализа и понимания естественного языка возлагаются на пользователя. В продвинутых системах большая часть нагрузки, связанной с решением этих задач, возлагается на систему.
Представления предметной области в вербальных моделях можно назвать неструктурированными. Информационные ресурсы таких систем часто называют неструктурированными данными. К числу информационных систем, использующих вербальные модели предметной области, относятся системы текстового поиска
Модели данных. принятый разработчиком информационной системы подход к моделированию предметной области существенным образом влияет на используемые в ней инф. технологии и инструменты разработки.
Для создания структурированных и слабоструктурированных представлений предметной области и выполнения операций в терминах таких представлений служат разнообразные реализованные в программных средствах инструменты моделирования, которые называют моделями данных Концепция модели данных родилась в области баз данных.
В современном понимании модель данных — это не результат, а инструмент моделирования, то есть совокупность правил структурирования данных, допустимых операций над ними и видов ограничений целостности, которым они должны удовлетворять. Если перефразировать это определение для случая объектного подхода, то можно сказать, что модель данных — это некоторая система типов данных
в информационных системах приходится иметь дело с моделями различных уровней абстракции. С этой точки зрения можно рассматривать модель данных как метамодель для описания интенсиональных моделей предметной области в среде выбранной СУБД или других средств управления данными. Операционные средства модели данных используются для выполнения различных операций над элементами экстенсиональной модели предметной области — экземплярами данных и связей между ними в базе данных или для формулировки запросов.
В системах базы данных интенсиональная модель предметной области, выраженная с помощью дескриптивных средств модели данных, которая реализована в используемой СУБД, называетсясхемой базы данных.
11.
11.Сбор и регистрация информационных ресурсов. Эти функции обеспечивают «фотографирование» предметной области, формирование и поддержку на этой основе модели предметной области экстенсионального уровня.
Функции сбора и регистрации информационных ресурсов могут совмещаться во времени или выполняться последовательно. Возможны различные варианты их осуществления, например:
❖ путем излечений (наблюдений) фактов в реальном мире и ввода данных в систему вручную с помощью клавиатуры и/или каких-либо манипуляторов;
❖ полуавтоматически путем ввода в компьютер с некоторых носителей и в случае необходимости их оцифровки (например, при использовании текстов на бумажных носителях или аналоговых аудиозаписей);
❖ автоматически с помощью различного рода датчиков или обмена данными с другими автоматизированными системами.
Хранение информационных ресурсов. Эта функция информационных систем связана с необходимостью управления двумя видами ресурсов — ресурсами хранимых данных и ресурсами памяти. Требования к этим функциям различаются в разных классах информационных системВ системах текстового поиска каждый документ хранится обычно в отдельном файле. Доступ к документам осуществляется с помощью структур данных, называемых индексами. Индексы в системах текстового поиска позволяют определять адрес размещения нужного файла по так называемым индексирующим свойствам хранящегося в нем документа — по значениям каких-либо атрибутов, ассоциированных с документом, по содержащимся в нем словам или словосочетаниям и т.п. При этом единицей доступа является полный документ. Управление памятью осуществляется в таких системах средствами компонента операционной системы компьютера, называемого файловой системой или системой управления файлами. Индексы документов в системах текстового поиска организуются в виде так называемых инвертированных списков. Для каждого значения индексирующего свойства документов в таких индексах поддерживаются адреса или идентификаторы файлов, их содержащих.
Файловая организация хранения информационных ресурсов используется также в действующей версии Web, основанной на технологиях HTML. Здесь каждая HTML-страница представлена в общем случае в виде совокупности файлов. Главный из них — это основной структурообразующий файл данной страницы. Он имеет формат HTML. Кроме того, в отдельных файлах представлены встроенные изображения и другие компоненты страницы, на которые имеются ссылки в ее главном файле. Доступ к страницам Webосуществляется непосредственно по их уникальным «адресам» в Web, называемым URL (UniversalResourceLocator) [10], либо с использованием навигации по гиперссылкам. Единицей доступа здесь является полная страница Web, хотя при навигации очередная гиперссылка может указывать только на фрагмент страницы. Функции управления ресурсами памяти, служащими для хранения ресурсов Web, возлагаются на операционные системы тех компьютеров сети, которые содержат используемые страницы.
Актуализация информационных ресурсов. Для того чтобы эта модель была практически полезной, необходимо своевременно и адекватно отображать в ней изменения состояния предметной области. Требуется актуализировать модель. Для этой цели нужно актуализировать информационные ресурсы системы.
Актуализация информационных ресурсов системы заключается в приведении их в соответствие текущему состоянию предметной области системы. В реляционных системах баз данных эта задача сводится к включению и/или удалению строк в таблицах базы данных, обновлению значений столбцов в некоторых строках. В случаях, когда изменяется структура предметной области системы, актуализация информационных ресурсов заключается в изменении схемы базы данных — добавлении или удалении столбцов таблиц, существующих в базе данных, к созданию новых и/или удалению существующих таблиц и т.д.
В системах текстового поиска актуализация информационных ресурсов чаще всего осуществляется путем ввода в систему новых или (реже) удаления существующих документов.
При актуализации Web-сайта в состав его ресурсов включаются новые или удаляются существующие страницы, модифицируются гиперссылки, связывающие страницы данного сайта и, возможно, страницы других сайтов, редактируется содержание существующих страниц.
Обработка информационных ресурсов.
Нужно заметить, что обработка информационных ресурсов в информационных системах не сводится лишь к продуцированию производной информации. Обработка осуществляется и для выполнения ряда системных функций, например для проверки ограничений целостности, для поиска в индексах, словарях и т.п.
Предоставление информационных ресурсов пользователям. Предоставление информационных ресурсов пользователям информационной системы может осуществляться с помощью риИ-технологий и/илиpush-тех пологий.
В первом случае предполагается, что инициатором предоставления информационных ресурсов является пользователь, а во втором — сама система, в соответствии с определенным регламентом и для определенного круга пользователей.
Другие функции. управление распределенными информационными ресурсами, например фрагментация баз данных, тиражирование данных, синхронизация копий; защита физической целостности информационных ресурсов и их восстановление при разрушениях; обеспечение информационной безопасности в системе; управление метаданными; администрирование информационными ресурсами;
12. Разновидности информационных систем
Предметная область системы. Информационные системы применяются в настоящее время во многих областях деятельности. Специфика конкретной предметной области существенно влияет на требования к системе.
Вид поддерживаемых информационных ресурсов.. От него зависит выбор базовых информационных технологий для разработки информационной системы.
Функции обработки информационных ресурсов. Информационная система может обеспечивать широкий спектр возможностей по обработке поддерживаемых в ней информационных ресурсов. Например, система текстового поиска может обеспечивать только поиск документов по запросам. Другие текстовые информационные системы могут дополнительно генерировать аннотации документов, осуществлять их классификацию или кластеризацию и т.д.
Горизонт моделирования предметной области. Эту характеристику информационных систем нужно учитывать в системах, основанных на технологиях баз данных, где различия возможных подходов приводят к необходимости использования совершенно разных средств управления данными. В одних системах могут поддерживаться только данные, характеризующие в каждый момент времени текущее состояние предметной области (ее моментальный снимок). Именно такой подход реализуют традиционные системы баз данных. Другие системы могут поддерживать с некоторой дискретностью по времени исторические данные, характеризующие изменения, происходившие в предметной области
Среда хранения информационных ресурсов. Могут применяться различные устройства внешней памяти, например стационарные магнитные диски, устройства третичной памяти на компактных магнитооптических дисках. Специфический подход, который стал реализоваться в последние годы, предусматривает поддержку базы данных на стадии исполнения в оперативной памяти. Часто в информационных системах используют иерархии памятей. Могут применяться также разнообразные методы индексирования информационных ресурсов.
Объем информационных ресурсов. Совершенно ясно, что при большом объеме данных требуются иные методы организации хранения данных и методы доступа, чем в случае с небольшими объемами. В очень больших базах данных используются, естественно, особые методы обеспечения физической целостности данных.
Динамика информационных ресурсов. наряду с традиционной для систем баз данных динамичностью состояния базы данных на практике часто встречаются случаи, когда данные в системе не обновляются. Это имеет место, например, в некоторых научных базах данных по свойствам материалов, в базах данных коллекций флоры и фауны, результатов научных экспериментов, во многих статистических базах данных. Для таких баз данных можно использовать простейшие способы поддержки физической целостности данных путем создания нескольких их копий. В этих случаях не требуются сложные механизмы управления транзакциями, составляющие одну из наиболее важных и сложных функциональных частей традиционных СУБД. Поэтому для доступа к таким статическим базам данных часто не используют коммерческие СУБД, а создают простые специализированные «оболочки», которые распространяются вместе с базой данных на компакт-дисках.
Состав лингвистических ресурсов системы. Эта характеристика относится прежде всего к текстовым информационным системам. В них могут поддерживаться различные лингвистические ресурсы в зависимости от функций системы и используемой техники работы с текстами
Архитектура системы. С точки зрения пространственной архитектуры любая информационная система может быть сосредоточенной или распределенной; последняя может иметь мобильную архитектуру. Функциональная архитектура системы может основываться на принципе «клиент-сервер», быть одноранговой (Peer-to-Peer) или какой-либо иной. Информационные системы могут обладать также различными видами информационной архитектуры.
Регламент обслуживания пользователейНекоторые системы могут обслуживать пользователей только во время заранее запланированных сеансов работы. В других системах обслуживается поток случайных запросов пользователей в любое время.
Расписание функционирования системы. Система может функционировать только по объявленному заранее расписанию, круглосуточно в течение всего года или в какие-либо иные периоды времени. Непрерывное круглосуточное функционирование системы — наиболее сложный случай.
Способы доступа к системе терминальный доступ, доступ через локальную сеть, интерактивный теледоступ в среде Web, доступ по электронной почте и т.д.
Ограничения доступа к системе.. Существуют системы со свободным доступом для любого пользователя, системы, которые обслуживают только зарегистрированных пользователей, а также персональные системы для единственного пользователя. В некоторых системах реализован комбинированный подход.
Поддерживаемые стандарты информационных технологий..
От него зависит успех применения системы, срок ее жизни, возможности реинжиниринга, переход впоследствии на новые более прогрессивные технологии.
Компетентные разработчики крупных информационных систем ориентируются на стандарты открытых систем. Так называют системы, способные развиваться за счет технических и/или программных средств на основе технологий, которые не зависят от их производителя благодаря удовлетворению требований ряда международных и индустриальных стандартов. Стандартизация информационных технологий играет огромную роль в разработках информационных систем. Следование соответствующим стандартам позволяет обеспечить интероперабельность как системных компонентов, так и различных взаимодействующих систем, межплатформенную мобильность программного обеспечения, мобильность приложений и данных в технологиях баз данных, интеграцию распределенных гипермедийных информационных ресурсов в единой глобальной гипермедийной информационной системе Webи т.д.
Существование во многих областях альтернативных стандартов создает проблемы выбора и формирования профиля системы— набора совместимых стандартов, которым система должна соответствовать.
Пользовательские интерфейсы. во многих текстовых информационных системах интерфейс конечного пользователя основан на естественном языке. Часть таких систем поддерживает мультиязыковой интерфейс.
Программно-аппаратная платформа. В настоящее время инструментальные программные средства разработки информационных систем поставляются для большинства выпускаемых программно-аппаратных платформ
Коммуникационное оборудование. От него зависит Возможности информационных систем, обеспечивающих теледоступ для конечных пользователей, в том числе распределенных систем
Состав программного обеспечения. нужно оценить перспективы различных программных продуктов, степень их соответствия выбранным стандартам информационных технологий, сопоставить их функциональные возможности, а также достоинства и недостатки. Опытный эксперт может определить многие характеристики системы, зная об использованных в ней программных продуктах.
Свойства специализированного программного обеспечения также являются важными характеристиками информационной системы.
Возможное количество пользователей. Некоторые информационные системы могут быть рассчитаны на определенный контингент пользователей. существуют системы с распределенным свободным доступом, для которых невозможно предсказать общее количество пользователей и распределение числа активных пользователей во времени.
Состав системного персонала. определяют степень надежности и эффективности функционирования системы, качества настройки ее компонентов, способности адаптации к изменению условий применения системы.
Методология и инструментальные средства разработки системы. При кустарной разработке системы без использования современных инструментов и методологий весьма проблематичным становится решение проблем ее реинжиниринга. Сомнительно, чтобы такая система была хорошо документирована. Она вряд ли проживет долгую жизнь.
Напротив, использование современных инструментальных средств CASE в процессе анализа и проектирования системы гарантирует, что разработчики основывались на современных методологиях, что проект системы основательно документирован. Обеспечена преемственность в работе при изменениях в составе системного персонала. Такая система в значительно большей степени доступна для модернизации, чем система, созданная кустарным образом.
Основные понятия и круг проблем
Технологии текстового поиска имеют дело с информацией, представленной на естественных языках.
Основная единица информации в системах текстового поиска называется документом. Документ — это порция информации, обладающая законченным содержанием и какого-либо рода уникальным идентификатором.Системы текстового поиска оперируют электронными документами, то есть документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Представление текстового документа в оцифрованном виде создается, например, с помощью:
-ввода содержания документа с клавиатуры
-сканирования его с бумажного носителя;
-генерации текста программным путем распознавателями голоса и др.
пользователи предъявляют к системам текстового поиска довольно высокие требования, современные технологии текстового поиска стали сложной синтетической областью исследований и разработок
Под обработкой естественного языка понимается компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относят к области искусственного интеллекта.
Работы по информационной супермагистрали, в частности связанные с созданием электронных библиотек, развернувшиеся во многих странах мира в середине 90-х годов, в значительной мере оживили интерес к проблемам текстового поиска. Активное развитие технологий текстового поиска стимулировало создание поисковых систем более общего класса, которые имеют дело не только с текстовыми документами, но и с информацией, представленной в различных иных средах. В таких системах (их называют мультимедийными) содержание объектов поиска — документов — представляет собой сочетание текстовых элементов, статических изображений, музыкальных произведений, мультфильмов, видеоклипов и т.п.
Новое зарождающееся направление текстового поиска связано с потоками документов. здесь отсутствуют какие-либо сведения, характеризующие коллекцию документов в целом, для поиска в потоке документов необходимы новые подходы и новые методы.
Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных систем, называемых системами управления документами.
Ранние системы были ориентированы на функцию поиска, поэтому назывались информационно-поисковыми системами (ИПС). Разработки простейших систем такого рода — дескрипторных ИПС — велись еще в 50-х годах. Одной из наиболее распространенных областей их применения был библиографический поиск. Многие дескрипторные библиографические ИПС используются до настоящего времени.
На этом этапе начали формироваться технологии полнотекстового поиска, то есть поиска по полному содержанию текстовых документов, представленных на естественных языках.
Отечественные разработки раннего периода.
В связи с проводившимися в нашей стране в 50—60-е годы работами по машинному переводу исследовались подходы к моделированию естественных языков, принципы создания тезаурусов и другие проблемы. Разрабатывались методы построения больших машинных словарей с эффективной техникой поиска, поддержки пользовательских интерфейсов на основе естественного языка, а также общие принципы построения информационно-поисковых систем. Результаты этих исследований нашли применение в создании систем текстового поиска на основе русского и ряда иностранных языков.
Новаторские исследования и разработки 60-х годов. полнотекстового поиска на основе естественных языков, был выполнен в 1962—1965 годах Важное достоинство системы SMART состояло в том, что она позволяла исследовать различные автоматизированные методы анализа текстов и оценивать качество текстового поиска, сравнивать результаты обработки запросов при различных методах поиска.
В этот же период группой из Крэнфильда (Англия) была предложена методология сравнения средств индексирования документов в системах текстового поиска, основанная на использовании специально разработанных указанной группой тестов для поисковой системы.
Создание профессионального сообщества. В связи с большим интересом к проблематике систем текстового поиска под эгидой АСМ (AssociationofComputingMachinary) — профессионального международного сообщества специалистов по информатике — в конце 70-х годов была учреждена группа по информационному поиску ACMSIGIR (SpecialInterestGrouponInformationRetrieval) с тем, чтобы способствовать исследованиям, прикладным разработкам и образованию в области информационного поиска, а также профессиональным контактам специалистов и организаций, заинтересованных в этой проблематике.
Цикл конференций TREC. в 1992 году под эгидой NIST (NationalInstituteforStandardsandTechnology) был учрежден цикл ежегодных конференций TREC (TextREtrievalConference), открытых для международного участия [50]. NIST— это правительственный орган США, созданный в результате реорганизации Национального бюро стандартов и ответственный за продвижение стандартов информационных технологий в организации правительственного сектора.
Для каждой конференции TRECсилами NISTзаблаговременно подготавливается набор тестовых коллекций с тем, чтобы участники конференции использовали их для оценки своих поисковых систем и представили в NISTнеобходимые отчеты., за первые семь лет, прошедшие после учреждения конференций TREC, эффективность поисковых систем приблизительно удвоилась. Многие видят в этом заслугу TREC.
Дата публикования: 2015-02-03; Прочитано: 1458 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!