Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Обоснование решения по направлению и технологии оптимизации бизнес-процессов



В России есть множество успешных внедрений Text Mining, но примеров в открытом доступе практически невозможно найти (многие компании стараются не афишировать внедрения интеллектуального анализа данных, чтобы сохранить свои конкурентные преимущества). Что в свою очередь является показателем важности внедрения подобных систем.

Из приведенных выше примеров становится ясно, что технология Text Mining решает ряд задач:

· Классификация (classification) - определение для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится, автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества;

· Автоматическое аннотирование (summarization) сокращение текста и сохранение его смысла. Результат включает в себя наиболее значимые предложения в тексте;

· Извлечения ключевых понятий (feature extraction) - идентификация фактов и отношений в тексте (имена существительные и нарицательные: имена и фамилии людей, названия организаций и др.);

· Навигация по тексту (text-base navigation) перемещение по документам по определённым темам и терминам. Это выполняется за счет идентификации ключевых понятий и некоторых отношений между ними;

· Анализ трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени;

· Поиск ассоциаций. В заданном наборе документов идентифицируются ассоциативные отношения между ключевыми понятиями.

Решение данных задач способствует достижению целей организации ООО «САКУРА», не противоречит миссии и политике компании.

В свою очередь, информационная система данного класса способна решить эти задачи. Основная идея внедрения системы - передача интеллектуальных способностей эксперта на машинную обработку.

Программная реализация

В настоящее время многие ведущие производители программного обеспечения предлагают свои продукты и решения в области Text mining. Как правило - это масштабируемые системы, в которых реализованы различные математические и лингвистические алгоритмы анализа текстовых данных. Они имеют развитые графические интерфейсы, богатые возможности визуализации и манипулирования с данными, предоставляют доступ к различным источникам данных, функционируют в архитектуре клиент-сервер. Вот несколько примеров таких систем:

· Intelligent Miner for Text (IBM)

· TextAnalyst, WebAnalyst (Мегапьютер Интеллидженс)

· Text Miner (SAS)

· SemioMap (Semio Corp.)

· Oracle Text (Oracle)

· Knowledge Server (Autonomy)

· Galaktika-ZOOM (корпорация "Галактика")

· InfoStream (Информационный центр "ЭЛВИСТИ")

Проведен анализ некоторых систем.

Intelligent Miner for Text

Продукт фирмы IBM Intelligent Miner for Text состоит из набора отдельных утилит, запускаемых из командной строки или скриптов независимо друг от друга. Эта система является одним из лучших инструментов глубинного анализа текстов, содержит следующие основные утилиты (Tools) для построения приложений управления знаниями:

· Language Identification Tool - утилита определения языка - для автоматического определения языка, на котором составлен документ.

· Categorisation Tool - утилита классификации - автоматического отнесения текста к некоторой категории (входной информацией на обучающей фазе работы этого инструмента может служить результат работы следующей утилиты - Clusterisation Tool).

· Clusterisation Tool - утилита кластеризации - разбиения большого множества документов на группы по близости стиля, формы, различных частотных характеристик выявляемых ключевых слов.

· Feature Extraction Tool - утилита определения нового - выявление в документе новых ключевых слов (собственные имена, названия, сокращения) на основе анализа заданного заранее словаря.

· Annotation Tool - утилита "выявления смысла" текстов и составления рефератов - аннотаций к исходным текстам.

IBM Intelligent Miner for Text объединяет мощную совокупность инструментов, базирующихся в основном на механизмах поиска информации (information retrieval), что является спецификой всего продукта. Система включает ряд базовых компонент, которые имеют самостоятельное значение вне пределов технологии "добычи текстов" - это информационно-поисковая система Text Search Engine, утилита сканирования Web-пространства Web crawler, Net Question Solution - решение для поиска в локальном Web-сайте или на нескольких intranet/Internet-серверах, Java Sample GUI - набор интерфейсов Java Beans для администрирования и организации поиска на основе Text Search Engine.

Intelligent Miner for Text как продукт IBM включен в комплекс "Information Integrator for Content" для СУБД DB2 в качестве средства Information Mining ("глубинного анализа информации"). Программа поддерживает 14 языков, русский язык не входит. Идентификатор языка является расширяемым. [26].

Стоимость продуктов разных уровней семейства Intelligent Miner составляет от 70 до 150 тысяч долларов.

TextAnalyst

Система TextAnalyst разработана российской компанией Мегапьютер Интеллидженс, которая решает такие задачи Text Mining, как: создание семантической сети большого текста, подготовка резюме текста, поиск по тексту и автоматическая классификация и кластеризация текстов. Построение семантической сети - это поиск ключевых понятий текста и установление взаимоотношений между ними. По такой сети можно не только понять, о чем говорится в тексте, но и осуществить контекстную навигацию. Подготовка резюме - это выделение в тексте предложений, в которых чаще других встречаются значимые для этого текста слова. В 80% случаев этого вполне достаточно для получения представления о тексте. Для поиска информации в системе предусмотрено использование запросов на естественном языке. По запросу строится уникальная семантическая сеть, которая при взаимодействии с сетью документа позволяет выделить нужные фрагменты текста. Кластеризация и классификация проводятся стандартными методами добычи данных.

Система Text-Analyst, рассматривает Text Miningв качестве отдельного математического аппарата, который разработчики программного обеспечения могут встраивать в свои продукты, не опираясь на платформы информационно-поисковых систем или СУБД. Основная платформа для применения системы - MS Windows 9x/2000/NT. Существует плагин TextAnalyst для браузера Microsoft Internet Explorer [26].
Детально рассматривать систему WebAnalyst не имеет смысла, так как в ней осуществляется анализ данных в Web-среде, что не подходит по требованиям к системе компании ООО «САКУРА», где на входе, помимо Web-ресурсов будут еще электронные документы.

Text Miner

Американская компания SAS Institute выпустила систему SAS Text Miner для сравнения определенных грамматических и словесных рядов в письменной речи. Text Miner весьма универсальна, поскольку может работать с текстовыми документами различных форматов - в базах данных, файловых системах и в Web.

Text Miner обеспечивает логическую обработку текста в среде мощного пакета SAS Enterprise Miner. Это позволяет пользователям обогащать процесс анализа данных, интегрируя неструктурированную текстовую информацию с существующими структурированными данными.

Программа Text Miner позволяет определять, насколько правдив тот или иной текстовый документ. Обнаружение лжи в документах производится путем анализа текста и выявления изменений стиля письма, которые могут возникать при попытке исказить или скрыть информацию. Для поиска таких изменений используется принцип, заключающийся в поиске аномалий и трендов среди записей баз данных без выяснения их смысла. При этом в Text Miner включен обширный набор документов различной степени правдивости, чья структура принимается в качестве шаблонов. Каждый документ, "прогоняемый" на детекторе лжи анализируется и сравнивается с этими эталонами, после чего программа присваивает документу тот или иной индекс правдивости [27].

Стоимость системы начинается от 20 000$.

SemioMap

SemioMap - это продукт компании Entrieva, созданный в 1996 г. ученым-семиотиком Клодом Фогелем (Claude Vogel). В мае 1998 г. продукт был выпущен как промышленный комплекс SemioMap 2.0 - первая система Text Mining, работающая в архитектуре клиент-сервер. Система SemioMap состоит из двух основных компонент - сервера SemioMap и клиента SemioMap. Работа системы протекает в три фазы:

· Индексирование; сервер SemioMap автоматически читает массивы неструктурированного текста, извлекает ключевые фразы (понятия) и создает из них индекс;

· Кластеризация понятий; сервер SemioMap выявляет связи между извлеченными фразами и строит из них, на основе совместной встречаемости, лексическую сеть ("понятийную карту");

· Графическое отображение и навигация; визуализация карт связей, которая обеспечивает быструю навигацию по ключевым фразам и связям между ними, а также возможность быстрого обращения к конкретным документам.

SemioMap поддерживает разбиение материала по "папкам", создание отдельной базы данных для каждой папки. Связи между понятиями, которые выявляет SemioMap, базируются на совместной встречаемости фраз в абзацах исходного текстового массива.

Центральным блоком SemioMap является лексический экстрактор - программа, которая извлекает фразы из текстовой совокупности и выявляет совместную встречаемость этих фраз (их взаимные связи). Лексический экстрактор базируется на патентованной технологии SEMIOLEX. Она реализует идеи вычислительной семиотики, науки о знаках в языковой коммуникации, разработанной Клодом Фогелем.

Сервер SemioMap Workgroup Search стоит $600, а SemioMap Global Search - $10 000. Программы работают в средах Solaris, Windows 95 и Windows NT [28].

InterMedia Text, Oracle Text

Средства Text Mining, начиная с Text Server в составе СУБД Oracle 7.3.3 и картриджа interMedia Text в Oracle8i, являются неотъемлемой частью продуктов Oracle. В Oracle9i эти средства развились и получили новое название - Oracle Text - программмный комплекс, интегрированный в СУБД, позволяющий эффективно работать с запросами, относящимися к неструктурированным текстам. При этом обработка текста сочетается с возможностями, которые предоставлены пользователю для работы с реляционными базами данных. В частности, при написании приложений для обработки текста стало возможным использовать SQL.

Основной задачей, на решение которой нацелены средства Oracle Text, является задача поиска документов по их содержанию - словам или фразам, которые при необходимости комбинируются с использованием булевых операций. Результаты поиска ранжируются по релевантности, с учетом частоты встречаемости слов запроса в найденных документах. Для повышения полноты поиска Oracle Text предоставляет ряд средств расширения поискового запроса, среди которых можно выделить три группы. Во-первых, это расширение слов запроса всеми морфологическими формами, что реализуется привлечением знаний о морфологии языка. Во-вторых, Oracle Text допускает расширение слов запроса близкими по смыслу словами за счет подключения тезауруса - семантического словаря, а также расширение запроса словами, близкими по написанию и по звучанию - нечеткий поиск и поиск созвучных слов. Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании - фамилии, названия организации и т.п.

Система Oracle Text обеспечивает проведение тематического анализа текстов на английском языке. В ходе обработки текст каждого документа подвергается процедурам лингвистического и статистического анализа, в результате чего определяются его ключевые темы и строятся тематические резюме, а также общее резюме - реферат.

Все описанные средства могут использоваться совместно, что поддерживается языком запросов в сочетании с традиционным синтаксисом SQL и PL/SQL для поиска документов. Oracle Text предоставляет возможность работать с современными реляционными СУБД в контексте сложного многоцелевого поиска и анализа текстовых данных.

Возможности обработки текстовой информации на русском языке в Oracle Text достаточно ограничены. Компания "Гарант-Парк-Интернет" разработала модуль Russian Context Optimizer (RCO), предназначенный для совместного использования с interMedia Text (или Oracle Text). Помимо поддержки русскоязычной морфологии, RCO включает в себя средства нечеткого поиска, тематического анализа и реферирования документов [28].

Galaktika-ZOOM

Система Galaktika-ZOOM - продукт российской корпорации "Галактика". Основное назначение системы - интеллектуальный поиск по ключевым словам с учетом морфологии русского и английского языков, а также и формирование информационных массивов по конкретным аспектам. При этом объемы информации могут достигать сотен гигабайт. Именно ориентация на большие информационные объекты - сообщения и статьи СМИ, отраслевую печать, нормативную документацию, деловую переписку и материалы внутреннего документооборота предприятия, информацию из Интернет. При этом система предоставляет определенный инструментарий для анализа объективных смысловых связей отобранных данных и формирования "образа" проблемы - многомерной модели в информационном потоке в форме ранжированного списка значимых слов, употребляемых совместно с темой проблемы. Большое внимание в системе уделено выявлению тенденций динамики развития изучаемой проблемы. Система содержит конверторы часто встречающихся форматов: простой текст, RTF, DOC, HTML. Galaktika-ZOOM функционирует в среде ОС Windows 2000 [].

InfoStream

Охват, обобщение больших динамических информационных массивов, непрерывно генерируемых в сети, потребовал качественно новых подходов. Возникла необходимость создания методов мониторинга информационных ресурсов, тесно связанных с методологией контент-анализа - контент-мониторинга. Для получения качественных и количественных срезов такой мониторинг должен производиться постоянно на протяжении не определенного заранее времени. Для решения этой задачи в Украине в Информационном центре "ЭЛВИСТИ" разработана технология InfoStream™. Программно-технологические средства InfoStream включают три основные составляющие:

· центр сбора и обработки информации;

· центр организации интерактивного доступа к базам данных;

· центр контент-мониторинга.

Ядром механизма обработки контента InfoStream является полнотекстовая информационно-поисковая система InfoReS. Технология позволяет создавать полнотекстовые базы данных и осуществлять поиск информации, формировать тематические информационные каналы, автоматически рубрицировать информацию, формировать дайджесты, таблицы взаимосвязей понятий (относительно встречаемости их в сетевых публикациях), гистограммы

распределения весовых значений отдельных понятий, а также динамики их встречаемости по времени. Технология InfoStream позволяет обрабатывать данные в форматах MS WORD (DOC, RTF), PDF, и всех текстовых форматов (простой текст, HTML, XML). Системы на основе InfoStream в настоящее время функционируют на платформах таких ОС: FreeBDS, Linux, Solaris [30].

Проблемы, которые требуют автоматизации описанного выше бизнес - процесса:

· Подготовка таблицы в импортере 1С занимает много времени.

· Ограничение некоторых функций приносит неудобства при работе.

· 3.Повторное прописывание данных, за невозможностью прописать на определенное количество ячеек таблицы одно и то же значение.

· Нехватка интеграции с электронной БД ТКС.

При помощи парсинга, повторяющуюся информацию уже не надо заносить повторно, будут использоваться сохраненные фрагменты.

При внедрении системы интеллектуального анализа текста, в компании, во-первых, сократится время на выполнение рутинных операций, во-вторых увеличится производительность и повысятся показатели прибыли и эффективности работы данного подразделения. В-третьих, сотрудники, которые до этого тратили большую часть своего времени на выполнение однотипных действий и ввод дублирующихся значений, теперь будут в большей степени осуществлять мониторинг процесса. И им можно будет поручить выполнение других функций, что также повысит эффективность работы компании и сократит расходы.

Основными критериями при выборе системы были:

· обработка документов различных форматов (pdf, doc, html, xls, pdf, zip, jpg);

· интеграция с Импортер 2.0,1С Бухгалтерия;

· На выходе сохранение на языке XML;

· стоимость.

Название системы Обработка разных форматов (pdf, doc, html, xls, zip, jpg) Анализ данных в Web-среде Интегра-ция с 1С Формат XML на выходе Приспособленность под российский рынок
Intelligent Miner for Text(IBM) + + - + -
TextAnalst + + +/- + +
Text Miner (SAS) + + + + +
SemioMap(Semio Corp.) - + - + +
Oracle Text + - +/- +/- +
Galaktika-ZOOM - + + + +


В ходе проведенного анализа, можно сделать вывод, что наиболее подходящим вариантом является система SAS Text Miner, полностью удовлетворяющая все заявленные ранее критерии.

Клиент-серверная архитектура. Анализ может выполняться одновременно на рабочей станции и на сервере. По поводу масштабируемости: возможность регулярной обработки данных, объемом в несколько сотен миллионов строк с минимальными требованиями к свободному дисковому пространству и оперативной памяти (рабочая станция должна быть оснащена 1 Гбайтом оперативной памяти и 100 Гбайтами дискового пространства).

Еще одним плюсом является то, что компания SAS проводит обучение методам Data Mining в собственных обучающих центрах по всему миру. Московское представительство компании предлагает ряд курсов по теме интеллектуального анализа текста.





Дата публикования: 2015-10-09; Прочитано: 1114 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.011 с)...