Технологии анализа и интерпретации данных
2.2.1 Технологии оперативной аналитической обработки данных OLAP и многомерные модели данных.Термин OLAP (или FASMI - быстрый анализ распределенной многомерной информации) обозначает методы, которые дают возможность пользователям многомерных баз данных в реальном времени генерировать описательные и сравнительные сводки ("views") данных и получать ответы на различные другие аналитические запросы [16]. Несмотря на свое название, этот метод не подразумевает интерактивную обработку данных (в режиме реального времени); он означает процесс анализа многомерных баз данных (которые, в частности, могут содержать и динамически обновляемую информацию) путем составления эффективных "многомерных" запросов к данным различных типов. Средства OLAP могут быть встроены в корпоративные (масштаба предприятия) системы баз данных и позволяют аналитикам и менеджерам следить за ходом и результативностью своего бизнеса или рынка в целом (например, за различными сторонами производственного процесса или количеством и категориями совершенных сделок по разным регионам). Анализ, проводимый методами OLAP, может быть как простым (например, таблицы частот, описательные статистики, простые таблицы), так и достаточно сложным (например, он может включать сезонные поправки, удаление выбросов и другие способы очистки данных). Технологии OLAP были разработаны для анализа данных в системах баз данных с целью поддержки принятия решений и ориентированы, главным образом, на обработку нерегламентированных интерактивных запросов. Основной целью анализа является количественная и качественная оценка достигнутых результатов и/или динамики деятельности компании. Используемые для этого методы сводятся к генерации различного рода выборок, формированию агрегированных данных, трансформациям способов представления данных. OLAP имеет дело, как правило, с историческими данными, которые обычно не представлены в оперативных информационных системах, поскольку для поддержки бизнес-процессов компании требуются чаще всего данные, относящиеся к текущему моменту времени.
В силу особенностей интерактивной аналитической обработки для ее реализации нужны средства управления данными, несколько иные по сравнению с предоставляемыми традиционными системами управления базами данных, ориентированными на обработку транзакций [15,16]. По указанным причинам в качестве источников данных для OLAP часто используют не оперативные базы данных, а хранилища данных.
Термин OLAP был введен в 1993 году Эдгаром Коддом (Edgar Codd), основателем реляционного подхода в технологиях баз данных. Кодд сформулировал основные принципы этих технологий в виде требований к функциональности программных продуктов, которые предназначены для их поддержки. Среди этих требований центральное место занимает поддержка многомерного представления данных и анализа данных. Дляобеспечения эффективности технологий OLAP необходимо, чтобы используемые в хранилищах данных методы моделирования данных были адекватны потребностям средств анализа данных. Многомерное представление данных идеально удовлетворяет этим потребностям.
В многомерной модели данных база данных представляется в виде одного или нескольких кубов данных, называемых иногда гиперкубами [15]. Такой куб имеет несколько независимых измерений, своего рода систему координат представляемого им многомерного пространства данных. Каждому измерению соответствует некоторый атрибут, характеризующий какое-либо качественное свойство данных. Примерами таких атрибутов являются время, территория, категория продукции и т.д.
На множестве значений некоторых атрибутов измерений (элементов) могут быть определены иерархические отношения. Например, для атрибута-времени может использоваться иерархия «годы — кварталы — месяцы», для атрибута-территории — «регион — город — район».
Наборы значений измерений по одному для каждого из них определяют точки куба, называемые ячейками. С ячейками ассоциируются значения различных других количественных атрибутов, называемых показателями.
Для целей анализа могут строиться сечения куба данных (называемые также его проекциями) путем фиксации значений различных наборов атрибутов-координат. Может также осуществляться сжатие куба на основе использования значений атрибутов измерений более высоких уровней иерархии и соответствующего агрегирования значений ассоциированных с ними показателей. Возможна также и обратная операция детализации данных. Таким образом, возможен анализ данных с нужной степенью детализации. Для удобства восприятия данных в процессе анализа используются различные операции визуализации данных, в частности вращение куба путем изменения порядка измерений.
Важно заметить, что куб данных рассматривается в технологиях OLAP как концептуальное, а не физическое представление данных. Такое многомерное представление чаще всего поддерживается над реляционной базой данных. Однако имеются и инструментальные средства OLAP, основанные на СУБД, непосредственно поддерживающих многомерные модели данных. Существуют также и гибридные реализации. Соответствующие разновидности технологий OLAP в зависимости от способа организации источников данных называются ROLAP (Relational OLAP), MOLAP (Multi-Dimentional OLAP) и HOLAP (Hybrid OLAP) [15-17].
Для технологий ROLAP в настоящее время широко используется подход к организации данных в базе данных, основанный на применении схемы типа звезды или типа снежинки.
Схема типа звезды — это схема реляционной базы данных, служащая для поддержки многомерного представления содержащихся в ней данных. Описываемая база данных включает таблицу фактов и ряд таблиц измерений.
Каждая строка таблицы фактов содержит набор фактов и по одному значению внешнего ключа для каждой таблицы измерений. Наряду с атомарными фактами строки этой таблицы могут также содержать агрегированные факты, соответствующие некоторым совокупностям значений элементов измерений. Таблица фактов, таким образом, связана с каждой таблицей измерений с помощью соответствующего внешнего ключа.
Строки таблиц измерений содержат значения первичных ключей, представляющих собой значения атрибутов, соответствующих различным измерениям. При обработке запросов выполняются операции соединения таблицы фактов и участвующих в запросе таблиц измерений. Таблицы измерений могут иметь составные первичные ключи и являются денормализованными. Благодаря этому упрощается восприятие структуры данных пользователем и формулировка запросов, уменьшается количество операций соединения таблиц при обработке запросов [16]. Однако в связи с избыточностью данных возрастает требуемый для их хранения объем памяти.
Для того чтобы минимизировать эту избыточность, используется разновидность схемы типа звезды, называемая схемой типа снежинки. В ней таблицы измерений нормализованы путем их декомпозиции.
В процессе анализа данных в хранилищах данных методами OLAP пользователям часто бывают необходимы агрегированные данные. При больших объемах данных их вычисление требует значительных ресурсов. Если такие запросы относительно некоторых совокупностей агрегированных данных носят регулярный характер, то одним из способов ускорения обработки подобных запросов является заблаговременное вычисление соответствующих представлений данных и их сохранение в базе данных. Такой подход, называемый техникой материализованных представлений (Materialized Views), возможен, поскольку данные в хранилищах данных практически не подвергаются изменениям. Они отражают уже состоявшиеся факты. Вот почему вычисленные хранимые представления остаются актуальными на протяжении времени, и их не требуется вычислять каждый раз, когда содержащиеся в них данные необходимы для выдачи ответа на запрос пользователя.
2.2.2 Технология глубинного анализа данных.Наряду со средствами OLAP для анализа данных и поддержки принятия решений в хранилищах данных, как уже указывалось, используются технологии глубинного анализа данных (Data Mining). Заметим, что термин «Data Mining» в отечественной литературе часто переводится буквально, как добыча данных. Этот термин появился в научно-технической литературе в середине 90-х годов, и обозначаемые им технологии быстро получили широкое практическое применение для поддержки принятия решений в крупных компаниях на основе различных источников данных, в качестве которых могут использоваться информационные ресурсы больших баз данных, в том числе унаследованных, хранилищ данных, а также Web. Специфика систем глубинного анализа данных состоит в том, что пользовательские запросы не только имеют, как правило, нерегламентированный характер, но и, в отличие от запросов в OLAP, нечетко формулируются.
Хотя методы добычи данных можно применять к любой, предварительно не обработанной и даже неструктурированной информации, их можно также использовать для анализа данных и отчетов, полученных средствами OLAP, с целью более углубленного исследования, как правило, в более высоких размерностях. В этом смысле методы добычи данных можно рассматривать как альтернативный аналитический подход (служащий иным целям, нежели OLAP) или как аналитическое расширение систем OLAP.
Технологии глубинного анализа данных позволяют анализировать структурированные данные с помощью математических моделей, основанных, как правило, на статистических, вероятностных или оптимизационных методах, с целью выявления в них заранее неизвестных закономерностей или зависимостей и извлечения различной непредвиденной информации.
К настоящему времени в области глубинного анализа данных сложился традиционный круг задач, для решения которых разработаны математические модели и эффективные в смысле вычислительной сложности алгоритмы. На этой основе различными поставщиками создаются программные продукты. Они ориентируются обычно на источники данных определенного вида, например на SQL-серверы баз данных или на какую-либо конкретную СУБД.
К числу традиционных задач глубинного анализа данных относятся в настоящее время задачи классификации, кластеризации, выявления ассоциаций, поиска типовых образцов на заданном множестве (например, определение типичного набора продуктов в покупках — классическая задача глубинного анализа данных о типовой рыночной корзине), выявления объектов данных, не соответствующих характеристикам и поведению, общим для всех рассматриваемых данных, моделирования тенденций во временных рядах и т.д. При решении этих задач обрабатываются большие объемы данных, поддерживаемых в хранилищах данных. Поэтому одной из злободневных проблем здесь является создание эффективных алгоритмов и подходящей техники организации данных.
Задачи указанных классов являются традиционным предметом исследований в прикладной математике уже в течение нескольких десятилетий. Были разработаны многочисленные постановки этих задач и методы их решения. Новизна связанных с ними проблем в области глубинного анализа данных заключается в том, что нужно принимать во внимание организацию источника данных, весьма значительный объем исходных данных и, следовательно, большие размерности задач. Поэтому главные сферы интересов специалистов в данной области заключаются в разработке новых методов анализа данных, создании эффективных масштабируемых алгоритмов, а также в расширении области применения рассматриваемых технологий.
Формирующиеся в последнее время новые подходы в глубинном анализе данных базируются на интеграции этих технологий с технологиями OLAP. Соответствующее новое направление называется интерактивным глубинным анализом данных (On-Line Analytical Mining или OLAP Mining, OLAM) [15-17].
2.2.3 Технология визуализации данных.Важной составной частью технологий анализа данных является также визуализация данных. В процессе анализа данных оказываются полезными разнообразные формы графического представления данных, облегчающие их понимание и обеспечивающие возможности визуальной качественной оценки их свойств. При этом пользователю чаще всего недостаточно иметь возможность пассивного восприятия данных в графической форме. Необходимы также средства для выполнения различных операций над данными в терминах такого их представления. В частности, здесь применяются уже упоминавшаяся операция вращения куба данных, операция «пролистывания» сечений куба — перехода от одного его сечения к другому путем последовательной фиксации различных значений атрибута какого-либо измерения, которым эти сечения соответствуют, и др.
Дата добавления: 2020-10-25; просмотров: 401;