Доступ к хранилищу данных


В этом разделе обсуждается, как пользователи могут использовать информацию, хранящуюся в хранилище данных, для принятия решений. В следующем подразделе, после ознакомления с особенностями многомерной модели, мы рассмотрим два основных подхода к анализу информации: отчетность и OLAP.

Многомерная модель. Причины, по которым многомерная модель повсеместно используется в качестве парадигмы для представления данных в хранилищах данных, заключаются в ее простоте, пригодности для бизнес-анализа и интуитивности для неквалифицированных пользователей компьютеров, что также обусловлено широким использованием электронных таблиц в качестве инструментов индивидуальной производительности. К сожалению, несмотря на то, что в литературе предпринимались некоторые попытки формализовать многомерную модель, ни одна из них до сих пор не стала стандартной.

Многомерная модель основана на наблюдении, что процесс принятия решений определяется фактами делового мира, такими как продажи, отгрузки, банковские транзакции и покупки. Фактические данные соответствуют событиям, которые происходят динамически: например, каждая совершенная продажа или отгрузка является событием. Для каждого факта важно знать значения набора показателей, которые количественно описывают события: выручка от продажи, количество отгруженных товаров, сумма банковской транзакции и скидка на покупку.

Очевидно, что событий, происходящих в корпоративном мире, слишком много, чтобы анализировать их по отдельности. Таким образом, чтобы их было легко выбирать и группировать, мы представляем их в виде n-мерного пространства, оси которого, называемые измерениями анализа, определяют различные точки зрения для их идентификации. Измерения обычно представляют собой дискретные буквенно-цифровые атрибуты, которые определяют минимальную степень детализации для анализа фактов. Например, продажи в сети магазинов могут быть представлены в трехмерном пространстве, измерениями которого являются продукты, магазины и даты.

Концепция измерения породила хорошо известную метафору куба для представления многомерных данных. Согласно этой метафоре, события соответствуют ячейкам куба, ребра которого представляют измерения анализа. Ячейка куба определяется уникальным образом путем присвоения значения каждому измерению и содержит значение для каждой меры. На рисунке 3 показано интуитивно понятное графическое представление куба, в центре которого находится факт продажи.

Рисунок 3. Трехмерный куб, моделирующий продажи в сети магазинов. В магазине S-Mart 1.05.2007 было продано три телевизора LE32M, общая выручка составила 2500 долларов

Измерениями являются продукт, магазин и дата. Событие соответствует продаже данного товара в данном магазине в определенный день и описывается двумя показателями: количеством проданного товара и выручкой. На рисунке подчеркивается, что куб разрежен, то есть что несколько событий вообще не произошли: очевидно, что не все товары продаются каждый день в каждом магазине.

Как правило, каждое измерение структурировано в виде иерархии уровней измерений (иногда называемой сводной иерархией), которые группируют его значения различными способами. Например, продукты могут быть сгруппированы в соответствии с их типом и брендом, а типы могут быть дополнительно сгруппированы по категориям. Магазины сгруппированы по городам, которые, в свою очередь, сгруппированы по регионам и странам.

Даты сгруппированы по месяцам и годам. В верхней части каждой иерархии существует конечный уровень, на котором группируются все возможные значения иерархии (все продукты, все магазины и все даты). Каждый уровень измерения может быть более подробно описан одним или несколькими описательными атрибутами (например, продукт может быть описан его названием, цветом и весом).

Полезно кратко упомянуть некоторые альтернативные термины, используемые в литературе или в коммерческих инструментах. Хотя под термином измерение мы подразумеваем атрибут, который определяет минимальную степень детализации фактов, иногда целые иерархии называются измерениями. Показатели иногда называют переменными, метриками, категориями, свойствами или индикаторами. Наконец, уровни измерения иногда называют параметрами или атрибутами.

Теперь мы видим, что ячейки куба и содержащиеся в них данные, хотя и обобщают элементарные данные, хранящиеся в оперативных источниках, по-прежнему очень сложны для анализа из-за их огромного количества. Для уменьшения объема данных и, таким образом, получения полезной информации используются два основных метода, возможно, совместно: ограничение и агрегирование. В обоих случаях иерархии играют фундаментальную роль, поскольку они определяют, как события могут быть объединены и отобраны.

Ограничение данных означает вырезание части куба для ограничения объема анализа. Простейшей формой ограничения является нарезка, при которой размерность куба уменьшается за счет фокусировки на одном значении для одного или нескольких измерений. Например, как показано на рис. 4, принимая решение о том, что интерес представляют только продажи магазина ‘S-Mart’, лицо, принимающее решение, фактически отрезает часть куба, получая двумерный подкуб.

Нарезка кубиками - это обобщение нарезки ломтиками, в котором подкуб определяется с помощью логических условий на уровнях иерархии. Например, пользователя могут заинтересовать продажи товаров типа ‘Hi-Fi’ в магазинах Рима в январе 2007 года (см. рис. 4).

Рисунок 4. Нарезка (слева) и dicing (справа) на кубе продаж

Хотя ограничение используется широко, агрегирование играет наиболее важную роль при анализе многомерных данных. На самом деле, чаще всего пользователи не заинтересованы в анализе событий с максимальным уровнем детализации. Например, может быть интересно анализировать события распродаж не на ежедневной основе, а по месяцам. В метафоре куба этот процесс означает группировку для каждого продукта и каждого магазина всех ячеек, соответствующих дням одного месяца, в одну макроячейку.

В полученном агрегированном кубе каждая макроячеечка представляет собой обобщение данных, хранящихся в ячейках, которые она агрегирует: в нашем примере это общее количество товаров, проданных за каждый месяц, и общая месячная выручка, которые рассчитываются путем суммирования значений количества и выручки в соответствующих ячейках. В конечном счете, путем агрегирования по временной иерархии получается агрегированный куб, в котором каждая макроячеечка представляет общий объем продаж за весь период времени для каждого продукта и магазина. Агрегирование также может осуществляться по двум или более иерархиям. Например, как показано на рис. 5. продажи могут быть агрегированы по месяцам, типу продукта и городу.

Рисунок 5. Агрегирование в кубе продаж

Следует отметить, что не каждый показатель может быть последовательно агрегирован по всем измерениям с помощью оператора суммы. В некоторых случаях вместо этого можно использовать другие операторы (например, среднее значение или минимум), тогда как в других случаях агрегирование вообще невозможно. Для получения подробной информации о двух взаимосвязанных проблемах - аддитивности и обобщаемости - обратитесь к ссылке 2.

Отчет. Система отчетности ориентирована на пользователей, которым необходимо периодически получать доступ к информации, структурированной определенным образом. Например, больница должна ежемесячно отправлять отчеты о расходах на пребывание пациентов в региональное отделение. Эти отчеты всегда имеют одну и ту же форму, поэтому разработчик может написать запрос, который сгенерирует отчет, и ‘заморозить’ его в приложении, чтобы он мог быть выполнен в соответствии с потребностями пользователей.

Отчет связан с запросом и презентацией. Запрос обычно включает в себя выбор и агрегирование многомерных данных, хранящихся в одном или нескольких фактах. Представление может быть в табличной или графической форме (диаграмма, гистограмма, cake и т. д.). Большинство инструментов отчетности также позволяют автоматически рассылать периодические отчеты заинтересованным пользователям по электронной почте на основе подписки или размещать отчеты на сервере корпоративной интранет-сети для скачивания.

 



Дата добавления: 2024-07-23; просмотров: 102;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.01 сек.