Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Десять мифов интеллектуального анализа данных



Вокруг технологии Data Mining ведутся активные дискуссии. Обширен спектр мнений по поводу этих технологий – от восторженных надежд на ожидаемые успехи до полного негативизма и отношения к ним как к преходящей моде. По-видимому, полезно сделать обзор указанных мнений и попытаться объективно разобраться, что здесь относится к областям фантазии и реальности.

Миф 1. Интеллектуальный анализ данных позволяет получить неожиданные результаты, на основании которых стратегия принятия решений в той или иной области может быть кардинально изменена.

Разоблачение мифа. Как правило, применение интеллектуального анализа данных позволяет лишь усовершенствовать действующую и приносящую успех организационную схему. Это происходит в основном за счет небольших и постепенных изменений, а не революционных преобразований.

Вместе с тем, применение современной технологии способно приводить и к существенным переменам. Небольшие достижения, накапливаясь в течение продолжительного периода, могут вылиться в значительный отрыв от конкурентов. Кроме того, интеллектуальный анализ данных позволяет обнаружить принципиально новые факты, радикально меняющие известные взгляды.

Миф 2. Технологии интеллектуального анализа данных настолько совершенны, что могут компенсировать недостаток знаний в предметной области или недостаток опыта по части построения моделей и их анализа.

Разоблачение мифа. Ни одна методика анализа не может заменить знание специалиста в своей области. Напротив, внедрение технологий интеллектуального анализа данных делает образование и опыт еще более важными факторами, чем раньше. В то время как опытным сотрудникам достаточно освоить одну-две новые аналитические методики, чтобы остаться на уровне требований дня и продолжить вносить свой вклад в повышение конкурентоспособности своего дела, от специалистов, не владеющим ничем, кроме техники анализа, нет абсолютно никакой пользы.

Чем меньше имеет знаний в предметной области специалист по интеллектуальному анализу, тем более он нуждается в тесном взаимодействии с людьми, которые такими знаниями обладают. В свою очередь, недостаток навыков и опыта в моделировании и применении соответствующих средств у экспертов в предметной области увеличивает их зависимость от поддержки специалистов по интеллектуальному анализу данных.

Например, предположим, что рассматривая возможности повышения доходности вложений своего клиента, эксперт-финансист обращается к специалисту по интеллектуальному анализу для обработки большой и сложной базы данных, содержащей информацию о деятельности других клиентов. Пусть этот специалист выявляет определенную связь некоторых переменных с прибыльностью инвестирования. Но только финансист способен сказать, в каких пределах допускается законом изменение этих переменных.

Миф 3. Средства интеллектуальной обработки данных автоматически обнаруживают различные закономерности.

Разоблачение мифа. Многие средства такой обработки действительно позволяют автоматически выявлять закономерности в исследуемых данных. Тем не менее, ставить конкретные цели им необходимо. Например, если подать на вход список адресов клиентов и попытаться получить на выходе набор «профилей» покупателей, применение которых позволило бы повысить эффективность адресной рекламы, особенно на многое рассчитывать не стоит. В постановке целей важна конкретность. Без такой конкретности информация бывает перегружена мелкими, ненужными, отвлекающими и даже вредными деталями.

Миф 4. Интеллектуальный анализ данных может с пользой применяться только в определенных областях.

Разоблачение мифа. Практически любой процесс – от фармакологического производства до обслуживания клиентов – можно изучить, понять, улучшить с помощью методов интеллектуального анализа. Это могут быть такие разнообразные области: управление производственными процессами, кадровая работа, менеджмент предприятий общепита, медицина, социология, геология и др.

Интеллектуальный анализ данных станет полезен везде, где собраны данные. Конечно, в некоторых случаях расчет окупаемости может показать, что «игра не стоит свеч».

Миф 5. Методы, используемые в средствах интеллектуального анализа данных, качественно отличаются от тех, которые применяются при традиционном построении количественных моделей.

Разоблачение мифа. Все методы, используемые в настоящее время для интеллектуального анализа данных, являются логическим развитием и обобщением аналитических подходов, известных уже на протяжении десятилетий. Все они предназначены для построения моделей зависимости между набором определяющих переменных и результатом.

Новизна интеллектуального анализ информации заключается в расширении сферы применения указанных методов, которое стало возможным благодаря возросшей доступности данных и удешевлению вычислений.

Кроме того, из-за слабой связи между деловым миром и специалистами по анализу данных, большинство из которых принадлежит к академической сфере, до недавнего времени не существовало программных реализаций указанных методик с дружественным интерфейсом пользователя. Наблюдающийся в последнее время рост интереса к средствам интеллектуального анализа данных объясняется отчасти именно усовершенствованиями в области интерфейса, которые сделали их доступными для использования различными прикладными специалистами.

Распространение мощных вычислительных методов интеллектуального анализа данных представляет собой значительный шаг вперед, однако не теряют своей ценности и применявшиеся ранее средства. Разнообразные регрессионные методы, дискриминантный анализ и даже простейшие графики также позволяют выявлять скрытые зависимости. Считается, что никакой один отдельно взятый метод не обеспечивает решение всех или хотя бы даже большинства задач. Чтобы преуспеть в интеллектуальном анализе данных, необходимо запастись достаточно широким набором инструментов, как старых, так и новых.

Миф 6. Интеллектуальный анализ данных представляет собой очень сложную процедуру.

Разоблачение мифа. Алгоритмы для интеллектуального анализа данных могут быть сложными, однако их применение, благодаря появлению новых программных средств, значительно упростилось. При этом часто не требуется обращаться к таким сложным алгоритмам, а достаточно использования относительно простых аналитических методов, табличных и графических представлений. Своей сложностью интеллектуальный анализ данных в значительной мере обязан тем же самым трудностям с организацией данных, которые характерны для любых методик моделирования. Это, в частности, работы по подготовке данных, такие как отбор переменных для включения в расчет и выбор способа их кодирования, а также интерпретация результата и принятия решения о путях его использования.

Миф 7. Применять интеллектуальный анализ имеет смысл только к базам данных больших объемов.

Разоблачение мифа. Действительно, некоторые из методов интеллектуального анализа данных были разработаны специально для применения к очень большим наборам данных, а многие использующие их приложения предназначены для обработки крупных массивов информации. Вместе с тем, полезные сведения можно извлекать и из наборов данных средних или малых размеров. Вообще, проблема необходимого и достаточного объема данных и по сей день остается открытой. Она решается отдельно для каждого конкретного случая.

Миф 8. Интеллектуальный анализ данных дает больший эффект, чем больше данных в него вовлечено, поэтому следует использовать в каждом случае все доступные данные.

Разоблачение мифа. Дополнительные данные приносят пользу, только если содержат новые сведения о рассматриваемых показателях или целях. В иных случаях их привлечение может оказаться не только бесполезным, но и вредным. Например, это происходит, если в данных содержится один из важных элементов информации, но нет других связанных с ним или не отражены взаимосвязи между такими элементами. Введение в процессе анализа данных, содержащих малую часть всей информации, может привести к снижению ценности получаемых решений, «зашумлять» информацию. Кроме того, эффективность применения средств интеллектуального анализа снижается в случае учета иррелевантной информации или дублирующих друг друга измерений одной и той же величины. Например, при использовании регрессионного анализа, если включить в число обрабатываемых признаков одновременно и возраст, и дату рождения, средство интеллектуального анализа обнаружит равную релевантность обоих факторов и понизит их вес.

Миф 9. Построение рабочей модели на основе выборки из базы неэффективно, так как информация, содержащаяся в базе данных, но не охваченная выборкой, оказывается потерянной для анализа.

Разоблачение мифа. Целью большинства усовершенствований методов формирования выборок является увеличение информационной эффективности по отношению к затраченным усилиям.

Любой набор данных уже представляет собой некую выборку из более мощной совокупности. Иногда просто не бывает иного выхода, как только обратиться к выборке. В некоторых случаях сбор полных данных оказывается невозможным. Но это ни в коей мере не снижает объективности грамотно проведенного анализа. В действительности даже относительно небольшая, но правильно составленная случайная выборка может дать великолепные результаты.

В выборах президента США принимают участие более 60 млн граждан, имеющих право голоса, но последний предвыборный опрос, охватывающий две тысячных процента этого числа голосующих, редко дает ошибку прогноза более 2%. Даже располагая базой данных обо всех 60 млн граждан с сотнями измерений по каждому их них, получить лучшую модель для предсказания исхода выборов было бы вряд ли возможно.

И в тех случаях, кода построение модели на основе полной БД вполне реально, часто бывает больше пользы от анализа нескольких моделей, основанных на выборках.

Миф 10. Интеллектуальный анализ данных – это еще одно веяние моды, которое уйдет так же скоро, как и пришло.

Разоблачение мифа. Название средств интеллектуального анализа данных может еще не раз измениться, но они сами навсегда останутся в числе важнейших инструментов. Внедрение методов интеллектуального анализа данных – очередной этап процесса, развивающегося с начала XX века. Бурный рост вычислительной мощности компьютеров в сочетании с появлением дешевых электронных методов сбора больших объемов данных логично вывели нас на этот этап.

Игнорировать интеллектуальный анализ данных невозможно. Применяемые для него методы многочисленны, а преимущества, открываемые в результате выявления новых знаний, – огромны. Предприятия, руководствующиеся в своих действиях в данной области «мифологией», окажутся в серьезном проигрыше по сравнению с организациями, использующими точно просчитанный рациональный подход, опирающийся на реальные факты.





Дата публикования: 2015-10-09; Прочитано: 749 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...