Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Информационная культура организации. Задачи корпоративной информационной системы



Интегрированные (корпоративные) ИС используются для автоматизации всех функций фирмы и охватывают весь цикл работ от проектирования до сбыта продукции. Создание таких систем весьма затруднительно, поскольку требует системного подхода с позиций главной цели, например получения прибыли, завоевания рынка сбыта и т.д. Такой подход может привести к существенным изменениям в самой структуре фирмы, на что может решиться не каждый управляющий.

Выделяют несколько типов КИС:

· по степени автоматизации — автоматизированные и неавтоматизированные;

· по сфере функционирования объекта управления — промышленность, транспорт, торговля и т.п.;

· по уровню в системе управления — отраслевые, территори­альные, корпоративные и т.п.;

· по объекту — управление технологическими процессами, управление проектом, управление складом и т.п.;

· по охвату объектов управления — интегрированные и локаль­ные;

· по уровню адаптации к предприятию — «коробочный» продукт, «конструктор», разработанная на заказ;

· по принципу построения ИС — алгоритмические и интеллек­туальные системы;

· по своим функциям — операционно-учетные, управленческие, системы поддержки принятия решений.

Принятие решения — важная часть роли менеджера. Информа­ционные системы помогают менеджерам собирать, анализировать и распространять информацию, тем самым способствуя принятию управленческих решений и их реализации. Процесс принятия ре­шения различается как на различных уровнях управления, так и по степени структурированности принимаемых решений. Поэтому эти два фактора предопределяют разную роль различных информа­ционных систем в процессе поддержки принятия управленческих решений (рис.

Рис. Роль различных типов информационных систем в процессе принятия управленческого решения

На стратегическом уровне определяются цели, ресурсы и политика компании;

на среднем уровне управления решаются вопросы эффективного управления ресурсами и взаимо­действия различных подразделений компаний

на уровне знаний оцениваются новые идеи по продукту и услугам компании, а также определяются каналы распространения знания внутри компании;

на оперативном уровне определяются наиболее эффективные пути реализации специальных задач в рамках выполнения стратегиче­ских и оперативных планов

Неструктурированные решения — это решения, по которым не могут быть определены точные процедуры и алгоритмы их разработки (например, принятие стратеги­ческих решений по новым продуктам и рынкам).

В отличие от них структурированные решения имеют четкие процедуры для их принятия (разработка производственных планов, сведение бюд­жета). К полуструктурированным относят решения, по которым лишь частично возможно определение четких процедур (напри­мер, размещение новых производственных мощностей, разработ­ка плана реализации проекта).

Итак, КИС должна:

· обеспечивать взаимосвязанность частей системы (изменения в одной части должны автоматически приводить к изменени­ям в другой части);

· обеспечивать реализацию существующих на предприятии бизнес-процессов;

· автоматизировать основные бизнес-процессы;

· давать руководителю возможность получать информацию в объеме, необходимом для принятия решений

· быть легка в обучении и использовании;

· предоставлять возможность для пользователя без помощи программиста редактировать все необходимые отчеты и документы, меняя их форму и создавая собственные форматы;

· давать возможность отследить, кто и когда внес изменения;

· включать надежные программы защиты данных и функции распределения прав доступа к ним

ИНФОРМАЦИОННАЯ КУЛЬТУРА

Выбор информационной системы в значительной степени определяется организационной культурой предприятия, частью которой является так называемая информационная культура. Она предопределяет как способ использования информации, так и информационное поведение работников компании и отражает приоритеты руководителей компании в использовании информации для достижения успеха или предотвращения провалов. Выделяют четыре разновидности информационной культуры (рис. 1.7)1.

 
Функциональная культура Менеджеры используют информацию, чтобы управлять подчиненными или влиять на них
     
Культура взаимодействия Менеджеры и служащие доверяют друг другу и делятся информацией (особенно о наличии проблем и неудач), чтобы повысить собственную эффективность
Культура исследования Менеджеры и служащие ищут инфу, чтобы лучше понимать будущее и то, как изменить собственную деятельность и приспособиться к будущим тенденциям
Культура открытости Менеджеры и служащие открыты для нового понимания природы кризисов и радикальных перемен и ищут способы прорыва в конкурентоспособности

Первая — это функциональная культура, когда информацию используют в первую очередь для оказания влияния на других. Эта культура в наибольшей степени присуща жестко иерархизированным механистическим компаниям, где информация служит прежде всего для управления и контроля. Контроль — характерное для этой культуры информационное поведение. Здесь этот термин используется не в отрицательном смысле, а просто как обозначе­ние необходимой для компании деятельности. Многие деловые процессы используются для контроля во всех областях — от бух­галтерского учета до снабжения.

В культуре взаимодействия менеджеры и специалисты в доста­точной степени доверяют друг другу и потому могут обмениваться информацией, важной для совершенствования процессов и роста эффективности. Прямой обмен информацией о возможных сры­вах и провалах необходим для устранения проблем и адаптации к изменениям. Существуют компании, внедряющие программы сис­темы управления качеством — Total Quality Management (TQM) или занимающиеся перестройкой системы управления, которые одно­временно наказывают служащих и менеджеров, решившихся заго­ворить о недостатках и ошибках. Но есть и компании, где такая информация рассматривается как необходимое условие успеха. Они полагают, что, доводя такую информацию до своих служб и рабочих групп, до потребителей и поставщиков, компания помо­гает устранению проблем и совершенствованию производства.

В культуре исследования менеджеры и служащие стремятся к пониманию будущих тенденций и нахождению лучшего способа отразить возможную угрозу. Здесь господствующим информаци­онным поведением является предвидение. Элементы исследова­тельской культуры можно встретить в службах, связанных с обслу­живанием клиентов, исследованиями рынка, технологическими исследованиями и разработками, а также со сбором информации.

В рамках культуры открытости служащие и менеджеры от­крыты для нового понимания природы кризисов и радикальных перемен. Эти компании сознательно отбрасывают старые подхо­ды к бизнесу, чтобы освободиться для поиска новых перспектив и идей, обещающих создание новых продуктов и услуг, которые могли бы изменить условия конкуренции. Примером такой куль­туры может служить корпорация Microsoft, которая одновременно действует на ряде рынков: онлайновой информации, развлече­ний и продаж видеопродукции. Компания не просто предвидит изменения и адаптируется к ним, но изменяет саму базу конку­ренции в разных отраслях. Существует немало компаний, в кото­рых можно увидеть отдельные элементы культуры открытости, где собирают и обрабатывают информацию, разрабатывают но­вые продукты и сценарии развития бизнеса, добиваются парт­нерских отношений с потребителями и поставщиками. Но пока таких компаний, как Microsoft, которые сделали культуру откры­тости неотъемлемой частью своей стратегии, мало.

Таким образом, невозможно представить современную ком­панию вне информационного поля. В то же время усложнение бизнес-пространства, увеличение объемов информации, которая должна собираться, анализироваться, обрабатываться для целей бизнеса, требуют формирования корпоративной информацион­ной системы, ее развития и поддержки. В структуре фирмы появ­ляется новая должность — CIO (Chief Information Officer) — дирек­тор информационной службы, а перед руководством компании возникает новая задача — создание КИС (корпоративной инфор­мационной системы).

9.

9.

9. Важную роль в моделировании предметной области информацион­ной системы играют ее информационные ресурсы. Во всех классах моде­лей, кроме случая темпоральных баз данных, информационные ресурсы системы представляют статическую модель предметной области, характеризуя ее текущее состояние. Темпоральные базы данных позволяют представлять динамику предметной области — изменение ее состояния во времени.

Следует заметить, что с элементами коллекции информационных ре­сурсов, представляющих статическую модель предметной области, могут ассоциироваться некоторые отметки времени, но эти временные харак­теристики могут воспринимать только пользователи. Такие отметки времени принято называть временем, определяемым пользователем. Например, доку­менты в системе текстового поиска могут быть датированными. Но сис­тема воспринимает указанную дату как обычный фрагмент текста.

Структурированные модели. Модели такого рода основаны на выяв­лении регулярной структуры предметной области. Для конструирова­ния таких моделей нужно типизировать сущности предметной области, относя к одному типу сущности с одинаковым набором свойств. Анало­гичным образом типизируются связи между сущностями. Связи определя­ются на множествах типов сущностей и могут иметь различную арность. Например, связи могут быть бинарными или n-арными. Представление предметной области, сконструированное с помощью рассматриваемого подхода, также называется структурированным.

Одной из разновидностей рассматриваемого подхода к моделирова­нию предметной области является объектный (или объектно-ориенти­рованный) подход, который дает возможность моделировать не только структуру предметной области, но и поведение экземпляров сущностей, относящихся к каждому определенному типу. С этой целью определение каждого типа сущностей включает определения допустимых на его эк­земплярах операций (или методов).

При использовании структурированных моделей представление пред­метной области имеет два уровня. Представление более высокого уровня абстракции — это модель предметной области, отображающая ее свойства, инвариантные во времени. Эта модель представляется в терминах типов сущностей предметной области и типов связей между ними. Такую модель называют интенсионалом предметной об­ласти. Второй, более конкретный уровень, моделирует состояние пред­метной области в зависимости от времени. Модель этого уровня пред­ставляется в терминах конкретных экземпляров сущностей и связей определенных типов между ними. Эту модель называют экстенсиона- лом предметной области.

На структурированных моделях предметной области с регулярной структурой основаны системы баз данных. В этом случае интенсионал предметной области называют схемой базы данных. Естественно назы­вать информационные ресурсы систем баз данных структурирован­ными данными.

Слабоструктурированные модели. При создании некоторых инфор­мационных систем применяется подход к моделированию предметной об­ласти, при котором регулярная ее структура не определена или она не существует в рассматриваемом случае. Такой подход используется, например, в системах, основанных на различного рода языках разметки.

В рассматриваемом подходе не предусматривается строгая типизация сущностей предметной области и связей между сущностями. Представ­ление предметной области обычно является одноуровневым. Поддержи­вается экстенсионал предметной области — ее представление в терми­нах конкретных экземпляров сущностей и связей между ними. Иногда предпринимается попытка некоторой типизации сущностей и связей. Но не гарантируется, что свойства типов обязательно присущи всем от­носящимся к ним экземплярам. Определенный в таком случае интен­сионал, по аналогии с системами баз данных иногда называемый схе­мой, не играет директивной роли. Конкретные экземпляры сущностей и связей, свойства которых не соответствуют схеме, системой не отвер­гаются.

Такого рода представления предметной области называют слабо­структурированными. Информационные ресурсы систем, основан­ных на рассматриваемом подходе, называют слабоструктурирован­ными данными.

Наиболее известной информационной системой, в которой поддержи­вается слабоструктурированное представление предметной области, яв­ляется WorldWideWeb(далее — Web), базирующаяся на технологи­ях HTML.

Формирующийся в настоящее время Webнового поколения, основан­ный на технологической платформе XML, позволяет поддерживать не только слабоструктурированные, но и структурированные представле­ния предметной области

10.Неструктурированные модели. К этой категории относятся вербаль­ные модели, то есть модели, описывающие реальность в виде текстов на естественном языке. В таких моделях явным образом не представляется структура предметной области — множество сущностей, их свойств, раз­личного рода связей между этими сущностями, интересующих пользо­вателей системы. Эта структура может быть реконструирована на осно­ве анализа содержания заданных текстов, однако не всегда однозначным образом. Автоматизация такого анализа — достаточно сложная задача, связанная с технологиями обработки естественного языка(NaturalLanguageProcessing).

Существует широкий спектр информационных систем, поддержива­ющих неструктурированные модели предметной области. В простейших из них задачи анализа и понимания естественного языка возлагаются на пользователя. В продвинутых системах большая часть нагрузки, связан­ной с решением этих задач, возлагается на систему.

Представления предметной области в вербальных моделях можно на­звать неструктурированными. Информационные ресурсы таких сис­тем часто называют неструктурированными данными. К числу ин­формационных систем, использующих вербальные модели предметной области, относятся системы текстового поиска

Модели данных. принятый разработчиком информационной системы подход к моделированию предметной области существенным образом влияет на ис­пользуемые в ней инф. технологии и инструменты разработки.

Для создания структурированных и слабоструктурированных пред­ставлений предметной области и выполнения операций в терминах таких представлений служат разнообразные реализованные в программных средствах инструменты моделирования, которые называют моделя­ми данных Концепция модели данных родилась в области баз данных.

В современном понимании модель данных — это не результат, а инс­трумент моделирования, то есть совокупность правил структурирования данных, допустимых операций над ними и видов ограничений целостнос­ти, которым они должны удовлетворять. Если перефразировать это опре­деление для случая объектного подхода, то можно сказать, что модель дан­ных — это некоторая система типов данных

в информационных системах приходится иметь дело с моделями различных уровней абстракции. С этой точки зрения можно рассматривать модель данных как метамодель для описания ин­тенсиональных моделей предметной области в среде выбранной СУБД или других средств управления данными. Операционные средства моде­ли данных используются для выполнения различных операций над эле­ментами экстенсиональной модели предметной области — экземпляра­ми данных и связей между ними в базе данных или для формулировки запросов.

В системах базы данных интенсиональная модель предметной области, выраженная с помощью дескриптивных средств модели данных, которая реализована в используемой СУБД, называетсясхемой базы данных.

11.

11.Сбор и регистрация информационных ресурсов. Эти функции обеспечивают «фотографирование» предметной области, формирова­ние и поддержку на этой основе модели предметной области экстенси­онального уровня.

Функции сбора и регистрации информационных ресурсов могут сов­мещаться во времени или выполняться последовательно. Возможны раз­личные варианты их осуществления, например:

❖ путем излечений (наблюдений) фактов в реальном мире и ввода дан­ных в систему вручную с помощью клавиатуры и/или каких-либо ма­нипуляторов;

❖ полуавтоматически путем ввода в компьютер с некоторых носи­телей и в случае необходимости их оцифровки (например, при ис­пользовании текстов на бумажных носителях или аналоговых ау­диозаписей);

❖ автоматически с помощью различного рода датчиков или обмена данными с другими автоматизированными системами.

Хранение информационных ресурсов. Эта функция информацион­ных систем связана с необходимостью управления двумя видами ресур­сов — ресурсами хранимых данных и ресурсами памяти. Требования к этим функциям различаются в разных классах информационных сис­темВ системах текстового поиска каждый документ хранится обычно в от­дельном файле. Доступ к документам осуществляется с помощью струк­тур данных, называемых индексами. Индексы в системах текстового по­иска позволяют определять адрес размещения нужного файла по так называемым индексирующим свойствам хранящегося в нем докумен­та — по значениям каких-либо атрибутов, ассоциированных с докумен­том, по содержащимся в нем словам или словосочетаниям и т.п. При этом единицей доступа является полный документ. Управление памятью осуществляется в таких системах средствами компонента операционной системы компьютера, называемого файловой системой или системой управления файлами. Индексы документов в системах текстового по­иска организуются в виде так называемых инвертированных списков. Для каждого значения индексирующего свойства документов в таких индек­сах поддерживаются адреса или идентификаторы файлов, их содержащих.

Файловая организация хранения информационных ресурсов исполь­зуется также в действующей версии Web, основанной на технологиях HTML. Здесь каждая HTML-страница представлена в общем случае в виде совокупности файлов. Главный из них — это основной структу­рообразующий файл данной страницы. Он имеет формат HTML. Кро­ме того, в отдельных файлах представлены встроенные изображения и другие компоненты страницы, на которые имеются ссылки в ее глав­ном файле. Доступ к страницам Webосуществляется непосредственно по их уникальным «адресам» в Web, называемым URL (UniversalResourceLocator) [10], либо с использованием навигации по гиперссылкам. Еди­ницей доступа здесь является полная страница Web, хотя при навигации очередная гиперссылка может указывать только на фрагмент страницы. Функции управления ресурсами памяти, служащими для хранения ре­сурсов Web, возлагаются на операционные системы тех компьютеров сети, которые содержат используемые страницы.

Актуализация информационных ресурсов. Для того чтобы эта модель была практически полезной, необходимо своевременно и адекватно отображать в ней изменения состояния предметной области. Требуется актуализировать модель. Для этой цели нужно актуализировать информационные ресурсы системы.

Актуализация информационных ресурсов системы заключается в приве­дении их в соответствие текущему состоянию предметной области системы. В реляционных системах баз данных эта задача сводится к включению и/или удалению строк в таблицах базы данных, обновлению значений столбцов в некоторых строках. В случаях, когда изменяется структура предметной области системы, актуализация информационных ресурсов заключается в изменении схемы базы данных — добавлении или удале­нии столбцов таблиц, существующих в базе данных, к созданию новых и/или удалению существующих таблиц и т.д.

В системах текстового поиска актуализация информационных ресур­сов чаще всего осуществляется путем ввода в систему новых или (реже) удаления существующих документов.

При актуализации Web-сайта в состав его ресурсов включаются но­вые или удаляются существующие страницы, модифицируются гипер­ссылки, связывающие страницы данного сайта и, возможно, страницы других сайтов, редактируется содержание существующих страниц.

Обработка информационных ресурсов.

Нужно заметить, что обработка информационных ресурсов в инфор­мационных системах не сводится лишь к продуцированию производной информации. Обработка осуществляется и для выполнения ряда систем­ных функций, например для проверки ограничений целостности, для по­иска в индексах, словарях и т.п.

Предоставление информационных ресурсов пользователям. Предоставление информационных ресурсов пользователям информа­ционной системы может осуществляться с помощью риИ-технологий и/илиpush-тех пологий.

В первом случае предполагается, что инициатором предоставления информационных ресурсов является пользователь, а во втором — сама система, в соответствии с определенным регламентом и для определен­ного круга пользователей.

Другие функции. управление распределенными информационными ресурсами, напри­мер фрагментация баз данных, тиражирование данных, синхрониза­ция копий; защита физической целостности информационных ресурсов и их вос­становление при разрушениях; обеспечение информационной безопасности в системе; управление метаданными; администрирование информационными ресурсами;

12. Разновидности информационных систем

Предметная область системы. Информационные системы применяют­ся в настоящее время во многих областях деятельности. Специфика конк­ретной предметной области существенно влияет на требования к системе.

Вид поддерживаемых информационных ресурсов.. От него зависит выбор базовых информационных технологий для разработки информа­ционной системы.

Функции обработки информационных ресурсов. Информационная система может обеспечивать широкий спектр возможностей по обработ­ке поддерживаемых в ней информационных ресурсов. Например, систе­ма текстового поиска может обеспечивать только поиск документов по запросам. Другие текстовые информационные системы могут дополни­тельно генерировать аннотации документов, осуществлять их классифи­кацию или кластеризацию и т.д.

Горизонт моделирования предметной области. Эту характеристику информационных систем нужно учитывать в системах, основанных на технологиях баз данных, где различия возможных подходов приводят к необходимости использования совершенно разных средств управления данными. В одних системах могут поддерживаться только данные, характе­ризующие в каждый момент времени текущее состояние предмет­ной области (ее моментальный снимок). Именно такой подход реализуют традиционные системы баз данных. Другие системы могут поддерживать с некоторой дискретностью по времени исторические данные, характе­ризующие изменения, происходившие в предметной области

Среда хранения информационных ресурсов. Могут приме­няться различные устройства внешней памяти, например стационарные магнитные диски, устройства третичной памяти на компактных магнито­оптических дисках. Специфический подход, который стал реализоваться в последние годы, предусматривает поддержку базы данных на стадии ис­полнения в оперативной памяти. Часто в информационных системах ис­пользуют иерархии памятей. Могут применяться также разнообразные методы индексирования информационных ресурсов.

Объем информационных ресурсов. Со­вершенно ясно, что при большом объеме данных требуются иные мето­ды организации хранения данных и методы доступа, чем в случае с неболь­шими объемами. В очень больших базах данных используются, естественно, особые методы обеспечения физической целостности данных.

Динамика информационных ресурсов. наряду с традиционной для систем баз данных ди­намичностью состояния базы данных на практике часто встречаются случаи, когда данные в системе не обновляются. Это имеет место, на­пример, в некоторых научных базах данных по свойствам материалов, в базах данных коллекций флоры и фауны, результатов научных эк­спериментов, во многих статистических базах данных. Для таких баз данных можно использовать простейшие способы поддержки физичес­кой целостности данных путем создания нескольких их копий. В этих случаях не требуются сложные механизмы управления транзакция­ми, составляющие одну из наиболее важных и сложных функциональ­ных частей традиционных СУБД. Поэтому для доступа к таким ста­тическим базам данных часто не используют коммерческие СУБД, а создают простые специализированные «оболочки», которые распро­страняются вместе с базой данных на компакт-дисках.

Состав лингвистических ресурсов системы. Эта характеристика от­носится прежде всего к текстовым информационным системам. В них могут поддерживаться различные лингвистические ресурсы в зависи­мости от функций системы и используемой техники работы с текста­ми

Архитектура системы. С точки зрения пространственной архитектуры любая информацион­ная система может быть сосредоточенной или распределенной; послед­няя может иметь мобильную архитектуру. Функциональная архитектура системы может основываться на принципе «клиент-сервер», быть одно­ранговой (Peer-to-Peer) или какой-либо иной. Информационные системы могут обладать также различными видами информационной архитектуры.

Регламент обслуживания пользователейНекоторые системы могут обслуживать пользовате­лей только во время заранее запланированных сеансов работы. В других системах обслуживается поток случайных запросов пользователей в лю­бое время.

Расписание функционирования системы. Система может функцио­нировать только по объявленному заранее расписанию, круглосуточно в течение всего года или в какие-либо иные периоды времени. Непре­рывное круглосуточное функционирование системы — наиболее слож­ный случай.

Способы доступа к системе терминальный доступ, доступ через локальную сеть, интерактивный теледоступ в среде Web, доступ по электронной почте и т.д.

Ограничения доступа к системе.. Существуют системы со свободным доступом для любого пользователя, системы, которые обслуживают только зарегистрированных пользова­телей, а также персональные системы для единственного пользователя. В некоторых системах реализован комбинированный подход.

Поддерживаемые стандарты информационных технологий..

От него зависит успех применения системы, срок ее жизни, возможнос­ти реинжиниринга, переход впоследствии на новые более прогрессивные технологии.

Компетентные разработчики крупных информационных систем ори­ентируются на стандарты открытых систем. Так называют системы, способные развиваться за счет технических и/или програм­мных средств на основе технологий, которые не зависят от их произ­водителя благодаря удовлетворению требований ряда международных и индустриальных стандартов. Стандартизация информационных технологий играет огромную роль в разработках информационных систем. Следование соответствующим стандартам позволяет обеспечить интероперабельность как систем­ных компонентов, так и различных взаимодействующих систем, меж­платформенную мобильность программного обеспечения, мобильность приложений и данных в технологиях баз данных, интеграцию распреде­ленных гипермедийных информационных ресурсов в единой глобальной гипермедийной информационной системе Webи т.д.

Существование во многих областях альтернативных стандартов созда­ет проблемы выбора и формирования профиля системы— набора совместимых стандартов, которым система должна соответствовать.

Пользовательские интерфейсы. во многих текстовых информационных сис­темах интерфейс конечного пользователя основан на естественном язы­ке. Часть таких систем поддерживает мультиязыковой интерфейс.

Программно-аппаратная платформа. В настоящее время инструментальные программные средства разработ­ки информационных систем поставляются для большинства выпускае­мых программно-аппаратных платформ

Коммуникационное оборудование. От него зависит Возможности информационных систем, обеспечивающих теледоступ для конечных пользователей, в том числе распределенных систем

Состав программного обеспечения. нужно оценить перспективы раз­личных программных продуктов, степень их соответствия выбранным стандартам информационных технологий, сопоставить их функциональ­ные возможности, а также достоинства и недостатки. Опытный эксперт может определить многие характеристики системы, зная об использо­ванных в ней программных продуктах.

Свойства специа­лизированного программного обеспечения также являются важными ха­рактеристиками информационной системы.

Возможное количество пользователей. Некоторые информацион­ные системы могут быть рассчитаны на определенный контингент пользо­вателей. существуют системы с распределенным свобод­ным доступом, для которых невозможно предсказать общее количество пользователей и распределение числа активных пользователей во вре­мени.

Состав системного персонала. определяют степень надежности и эффективности функцио­нирования системы, качества настройки ее компонентов, способности адаптации к изменению условий применения системы.

Методология и инструментальные средства разработки системы. При кустарной раз­работке системы без использования современных инструментов и ме­тодологий весьма проблематичным становится решение проблем ее реинжиниринга. Сомнительно, чтобы такая система была хорошо доку­ментирована. Она вряд ли проживет долгую жизнь.

Напротив, использование современных инструментальных средств CASE в процессе анализа и проектирования системы гарантирует, что разработчики основывались на современных методологиях, что проект системы основательно документирован. Обеспечена преемс­твенность в работе при изменениях в составе системного персонала. Та­кая система в значительно большей степени доступна для модернизации, чем система, созданная кустарным образом.

Основные понятия и круг проблем

Технологии текстового поиска имеют дело с информацией, представ­ленной на естественных языках.

Основная единица информации в системах текстового поиска назы­вается документом. Документ — это порция информации, обладаю­щая законченным содержанием и какого-либо рода уникальным иденти­фикатором.Системы текстового поиска оперируют электронными документа­ми, то есть документами, хранимыми в памяти компьютеров и доступны­ми для автоматизированной обработки. Представление текстового документа в оциф­рованном виде создается, например, с помощью:

-ввода содержания документа с клавиатуры

-сканирования его с бумажного носителя;

-генерации текста программным путем распознавателями голоса и др.

пользователи предъявляют к системам текстового поиска довольно высокие требования, современные технологии текстово­го поиска стали сложной синтетической областью исследований и разработок

Под обработкой естественного язы­ка понимается компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естествен­ном языке, а также с их генерацией. Этот класс задач относят к области искусственного интеллекта.

Работы по информационной супермагистрали, в частности связанные с созданием электронных библиотек, развернувшиеся во многих стра­нах мира в середине 90-х годов, в значительной мере оживили интерес к проблемам текстового поиска. Активное развитие технологий текстового поиска стимулировало со­здание поисковых систем более общего класса, которые имеют дело не только с текстовыми документами, но и с информацией, представленной в различных иных средах. В таких системах (их называют мультимедий­ными) содержание объектов поиска — документов — представляет со­бой сочетание текстовых элементов, статических изображений, музы­кальных произведений, мультфильмов, видеоклипов и т.п.

Новое зарождающееся направление текстового поиска связано с по­токами документов. здесь отсутствуют какие-либо сведения, характеризующие коллекцию документов в це­лом, для поиска в потоке документов необходимы новые подходы и но­вые методы.

Системы текстового поиска оказали значительное влияние на форми­рование специфического класса информационных систем, называемых системами управления документами.

Ранние системы были ориентированы на функцию поиска, поэтому назывались информа­ционно-поисковыми системами (ИПС). Разработки простейших сис­тем такого рода — дескрипторных ИПС — велись еще в 50-х годах. Одной из наиболее распространенных областей их применения был библиогра­фический поиск. Многие дескрипторные библиографические ИПС ис­пользуются до настоящего времени.

На этом этапе начали форми­роваться технологии полнотекстового поиска, то есть поиска по полному содержанию текстовых документов, представленных на ес­тественных языках.

Отечественные разработки раннего периода.

В связи с проводившимися в нашей стране в 50—60-е годы работами по машинному переводу исследовались подходы к моделирова­нию естественных языков, принципы создания тезаурусов и другие про­блемы. Разрабатывались методы построения больших машинных слова­рей с эффективной техникой поиска, поддержки пользовательских интерфейсов на основе естественного языка, а также общие прин­ципы построения информационно-поисковых систем. Результаты этих исследований нашли применение в создании систем текстового по­иска на основе русского и ряда иностранных языков.

Новаторские исследования и разработки 60-х годов. пол­нотекстового поиска на основе естественных языков, был выполнен в 1962—1965 годах Важное достоинство системы SMART состояло в том, что она позволяла исследовать различные автоматизированные методы анализа текстов и оценивать качество текстового поиска, сравнивать ре­зультаты обработки запросов при различных методах поиска.

В этот же период группой из Крэнфильда (Англия) была предложена методология сравнения средств индексирования документов в системах текстового поиска, основанная на использовании специально разрабо­танных указанной группой тестов для поисковой системы.

Создание профессионального сообщества. В связи с большим ин­тересом к проблематике систем текстового поиска под эгидой АСМ (AssociationofComputingMachinary) — профессионального междуна­родного сообщества специалистов по информатике — в конце 70-х го­дов была учреждена группа по информационному поиску ACMSIGIR (SpecialInterestGrouponInformationRetrieval) с тем, чтобы способство­вать исследованиям, прикладным разработкам и образованию в области информационного поиска, а также профессиональным контактам специ­алистов и организаций, заинтересованных в этой проблематике.

Цикл конференций TREC. в 1992 году под эгидой NIST (NationalInstituteforStandardsandTechnology) был учрежден цикл ежегодных конференций TREC (TextREtrievalConference), открытых для междуна­родного участия [50]. NIST— это правительственный орган США, со­зданный в результате реорганизации Национального бюро стандартов и ответственный за продвижение стандартов информационных техно­логий в организации правительственного сектора.

Для каждой конференции TRECсилами NISTзаблаговременно подго­тавливается набор тестовых коллекций с тем, чтобы участники конфе­ренции использовали их для оценки своих поисковых систем и предста­вили в NISTнеобходимые отчеты., за первые семь лет, прошедшие после уч­реждения конференций TREC, эффективность поисковых систем при­близительно удвоилась. Многие видят в этом заслугу TREC.





Дата публикования: 2015-02-03; Прочитано: 1458 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.019 с)...