Технологии Data Mining
Дословно слова Data Mining означают «добыча, раскопки, извлечение данных». Data mining - это процесс выделения (селекции), исследования и моделирования из больших объемов данных неявной и неструктурированной информации и представления ее в виде пригодном для принятия эффективных решений в бизнесе. Это нахождение скрытых структур и закономерностей среди групп записей, которые преобразуют данные в информацию. Технология DM придумана для решения вопросов бизнеса, которые программирование на SQL и средства Query/OLAP не могут решить адекватно.
Рассмотрим пример из области финансов: “Люди каких категорий наиболее предрасположены отозваться на ваше бизнес-предложение?" или "Кто из ваших потенциальных потребителей наиболее вероятно уйдет к конкурентам?". В распределении: "Через какой канал и кому следует предлагать эти продукты, сервисы?". В розничной торговле: "Какие продукты следует продвигать со скидками, чтобы это привело к росту продаж наиболее прибыльных линеек?" или "Кто наши наиболее выгодные покупатели, какова потенциальная прибыль от них и каков риск их истощения?". В случае, если с помощью DM удается ответить на поставленный вопрос, фирма сможет увеличить прибыль, повысить уровень обслуживания клиентов (предвидеть запросы, лучше удовлетворять спрос) и добиться конкурентного преимущества на рынке. Отметим, что есть области бизнеса, где большие фирмы не могут конкурировать с маленькими. Последние знают предпочтения каждого клиента и имеют свои индивидуальные подходы к нему. Первый шаг к повышению качества обслуживания — запись всего, что делает клиент. Это обеспечивают OLTP-системы. Следующий шаг — данные из различных систем должны быть собраны для анализа — тут на помощь приходят технологии хранилищ данных. Наконец, важнейший этап - данные должны быть проанализированы и на основании этого анализа предприняты действия, полезные для бизнеса. Это область технологий DM. Отметим, что процесс обнаружения знаний не полностью автоматический - он требует участия пользователя. Пользователь должен знать, что он ищет, основываясь на собственных гипотезах, и на основе выявленных структур и закономерностей он должен суметь принять эффективное решение. В итоге часто вместо подтверждения имеющейся гипотезы процесс поиска вызывает появление новых гипотез.
Технология DM - это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы пытаетесь получить. Некоторые методы перечислены ниже:
Используется, например, при оценке рисков при выдаче кредита;
· оценивание;
· нечеткая логика;
· статистические методы, позволяющие находить кривую, наиболее близко расположенную к набору точек данных;
· генетические алгоритмы;
· фрактальные преобразования;
· нейронные сети - данные пропускаются через слои узлов, "обученных" распознаванию тех или иных структур.
К технологии DM можно добавить еще визуализацию данных - построение графического образа из данных, использование цвета. Это помогает при общем анализе данных увидеть аномалии, структуры, тренды. Частично к DM примыкают деревья решений и параллельные базы данных. Технология DM тесно связана (интегрирована) с хранилищами данных (Data Warehousing) и можно сказать, что они обеспечивают работу Data Mining.
Дата добавления: 2016-10-26; просмотров: 2071;