Технологии интеллектуальной обработки данных (ИАД)
ИАД - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Большинство методов ИАД было первоначально разработано в рамках теории искусственного интеллекта (ИИ) в 70-80-х гг. XX в., но получило распространение только в последние годы, когда проблема обработки быстро растущих объемов корпоративных данных потребовала их использования в качестве надстройки над хранилищами данных.
«Сырьем» для ИАД могут быть плоские таблицы реляционных СУБД. Именно с них и начиналась история ИАД. Во многих случаях более эффективным является применение ИАД к данным, полученным после обработки с помощью OLAP-технологий.
Задачи ИАД классифицируются прежде всего по типам извлекаемой информации, т.е. по видам находимых закономерностей.
Выделяют следующие пять видов.
1. Классификация - позволяет выявить признаки, характеризующие однотипные группы объектов (классы), для того чтобы по известным значениям этих характеристик можно было отнести новый объект к тому или иному классу. Предполагается, что характеристики классов заранее (до анализа) известны. В качестве методов решения задачи классификации применяют алгоритм ближайшего соседа (Nearest Neighbor), индукцию деревьев решений, «обучаемые учителем» нейронные сети [11,21,30].
2. Кластеризация - распространение идеи классификации на более сложный случай, когда сами классы не предопределены. В результате выполнения процедуры кластеризации исходные данные разбиваются на однородные группы (кластеры). Это позволяет предприятию выработать по отношению к каждой из групп (например, к группам покупателей) определенную политику. Задача кластеризации значительно сложнее задачи классификации.
В настоящее время наиболее часто задачи кластеризации решаются методом «обучения без учителя» специального вида нейронных сетей - сетей Кохонена [11,21].
3. Выявление ассоциаций. Ассоциация - закономерность в данных, фиксирующая наступление двух (или более) одновременных событий. Типичный пример ассоциации исследуется в задаче определения пар одновременно покупаемых продуктов (телевизоры и DVD-проигрыватели, зубные пасты и зубные щетки и т.д.).
4. Выявление последовательностей. Последовательность – закономерность в данных, фиксирующая наступление событий не одновременно, а с некоторым определенным разрывом во времени.
Таким образом, ассоциация есть частный случай последовательности с нулевым временным лагом. Так, например, если DVD-проигрыватель не был куплен вместе с телевизором, то в течение месяца после покупки нового телевизора покупка DVD-проигрывателя производится в 51% случаев [30].
5. Прогнозирование - формализованная процедура предсказания, которая на основе исследования текущих и прошлых данных позволяет оценить будущие значения числовых показателей.
В задачах подобного типа наиболее часто используются традиционные методы математической статистики, а также нейронные сети. Из всего многообразия методов, применяемых для решения задач ИАД, наиболее часто применяются нейронные сети (более правильно говорить об искусственных нейронных сетях (ИНС)), моделируемые на ПК, и системы поиска логических правил в данных.
Контрольные вопросы и задачи
10.1. В чём заключается сущность подхода к реализации методологии «синхронное планирование и оптимизация» (СПО) ?
10.2. Охарактеризуйте взаимодействие систем СПО и ERP.
10.3. Дайте краткую характеристику современных технологий, используемых для поддержки принятия управленческих решений.
10.4. На чём основаны технологии OLAP ?
10.5. Назовите основные причины необходимости создания хранилищ данных.
10.6. Дайте определение технологий интеллектуальной обработки данных (ИАД).
Глава 11
Дата добавления: 2016-07-18; просмотров: 2592;