Хранилище данных. Архитектуры


Чтобы сохранить разделение между транзакционной и аналитической обработкой, большинство архитектур хранилищ данных основаны как минимум на двух уровнях данных: источниках данных и хранилище данных.

Источники данных неоднородны; они могут быть частью корпоративной информационной системы (операционные базы данных, устаревшие системы, электронные таблицы, плоские файлы и т. д.). Или даже находиться за пределами компании (веб-базы данных, потоки и т.д.).

Эти данные извлекаются, очищаются, дополняются, проверяются, интегрируются в единую информационную систему. единая схема и загружается в хранилище данных с помощью так называемых инструментов ETL (извлечение, преобразование и загрузка).

Хранилище данных - это централизованное хранилище интегрированной информации. Здесь, в отличие от источников, данные хранятся в многомерной форме, а их структура оптимизирована для обеспечения высокой производительности при выполнении OLAP-запросов.

На практике чаще всего хранилище данных физически заменяется набором витрин данных, которые включают в себя ту часть информации, которая имеет отношение к конкретной сфере бизнеса, подразделению предприятия и категории пользователей. Обратите внимание на наличие хранилища метаданных, содержащего ‘данные о данных’, например, описание логической организации данных в источниках, хранилище данных и витринах данных.

Наконец, пользователи получают доступ к информации в хранилище данных с помощью различных типов инструментов: инструментов отчетности, OLAP-инструментов, инструментов интеллектуального анализа данных и инструментов анализа "что, если".

Некоторые архитектуры включают дополнительный уровень, называемый выверенным уровнем или оперативным хранилищем данных. Он материализует оперативные данные, полученные путем извлечения и очистки исходных данных: таким образом, он содержит интегрированные, непротиворечивые, правильные, подробные и актуальные данные. Эти выверенные данные затем используются непосредственно для загрузки в хранилище данных.

Несмотря на то, что согласованный уровень обеспечивает значительную избыточность, он также имеет ряд заметных преимуществ. Фактически, он определяет эталонную модель данных для всей компании и в то же время четко разделяет вопросы, связанные с извлечением, очисткой и интеграцией данных, и вопросы, связанные с загрузкой хранилища данных.

Примечательно, что в некоторых случаях согласованный уровень также используется для более эффективного выполнения некоторых операционных задач (например, для составления ежедневных отчетов, которые невозможно качественно подготовить с помощью корпоративных приложений).

На практике эти компоненты смешиваются по-разному, что дает начало пяти основным архитектурам, широко известным в литературе:
- Архитектура независимых витрин данных
- Архитектура шины
- Архитектура "Концентратор-спица"
- Архитектура централизованного хранилища данных
- Федеративная архитектура

В архитектуре independent data mart различные витрины данных проектируются отдельно и создаются неинтегрированным образом (рис. 1). Эта архитектура, хотя иногда изначально и внедряется в отсутствие серьезной поддержки складского проекта в масштабах предприятия или когда организационные подразделения, входящие в состав компании, слабо связаны, как правило, вскоре заменяется другими архитектурами, которые лучше обеспечивают интеграцию данных и перекрестную отчетность.

Рисунок 1. Независимые витрины данных и бизнес-архитектуры (без подтвержденных измерений и фактов или с подтвержденными фактами).

Архитектура шины, по-видимому, похожа на предыдущую, с одним важным отличием: базовый набор согласованных параметров и фактов, полученный в результате тщательного анализа основных корпоративных процессов, принят и используется совместно в качестве общего руководства по проектированию для обеспечения логической интеграции витрин данных и представления информации в масштабах всего предприятия.

В архитектуре hub-and-speak большое внимание уделяется масштабируемости и расширяемости, а также обеспечению представления информации в масштабах всего предприятия. Атомарные, нормализованные данные хранятся на выверенном уровне, который предоставляет набор витрин данных, содержащих обобщенные данные в многомерной форме (рис. 2). Пользователи в основном обращаются к витринам данных, но иногда могут запрашивать согласованный уровень.

Рисунок 2. Архитектура "концентратор-спица"; ODS расшифровывается как хранилище оперативных данных

Централизованную архитектуру можно рассматривать как конкретную реализацию архитектуры "концентратор-спица", в которой согласованный уровень и витрины данных объединены в единое физическое хранилище.

Наконец, федеративная архитектура иногда применяется в тех случаях, когда требуется неинвазивная интеграция уже существующих хранилищ данных/витрин данных для обеспечения единой среды поддержки принятия решений в масштабах всей организации (например, в случае слияний и поглощений). Каждое хранилище данных/витрина данных виртуально или физически интегрировано с другими, используя различные передовые технологии, такие как распределенные запросы, онтологии и совместимость метаданных.

 



Дата добавления: 2024-07-23; просмотров: 106;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.008 сек.