Хранилище данных. Архитектуры
Чтобы сохранить разделение между транзакционной и аналитической обработкой, большинство архитектур хранилищ данных основаны как минимум на двух уровнях данных: источниках данных и хранилище данных.
Источники данных неоднородны; они могут быть частью корпоративной информационной системы (операционные базы данных, устаревшие системы, электронные таблицы, плоские файлы и т. д.). Или даже находиться за пределами компании (веб-базы данных, потоки и т.д.).
Эти данные извлекаются, очищаются, дополняются, проверяются, интегрируются в единую информационную систему. единая схема и загружается в хранилище данных с помощью так называемых инструментов ETL (извлечение, преобразование и загрузка).
Хранилище данных - это централизованное хранилище интегрированной информации. Здесь, в отличие от источников, данные хранятся в многомерной форме, а их структура оптимизирована для обеспечения высокой производительности при выполнении OLAP-запросов.
На практике чаще всего хранилище данных физически заменяется набором витрин данных, которые включают в себя ту часть информации, которая имеет отношение к конкретной сфере бизнеса, подразделению предприятия и категории пользователей. Обратите внимание на наличие хранилища метаданных, содержащего ‘данные о данных’, например, описание логической организации данных в источниках, хранилище данных и витринах данных.
Наконец, пользователи получают доступ к информации в хранилище данных с помощью различных типов инструментов: инструментов отчетности, OLAP-инструментов, инструментов интеллектуального анализа данных и инструментов анализа "что, если".
Некоторые архитектуры включают дополнительный уровень, называемый выверенным уровнем или оперативным хранилищем данных. Он материализует оперативные данные, полученные путем извлечения и очистки исходных данных: таким образом, он содержит интегрированные, непротиворечивые, правильные, подробные и актуальные данные. Эти выверенные данные затем используются непосредственно для загрузки в хранилище данных.
Несмотря на то, что согласованный уровень обеспечивает значительную избыточность, он также имеет ряд заметных преимуществ. Фактически, он определяет эталонную модель данных для всей компании и в то же время четко разделяет вопросы, связанные с извлечением, очисткой и интеграцией данных, и вопросы, связанные с загрузкой хранилища данных.
Примечательно, что в некоторых случаях согласованный уровень также используется для более эффективного выполнения некоторых операционных задач (например, для составления ежедневных отчетов, которые невозможно качественно подготовить с помощью корпоративных приложений).
На практике эти компоненты смешиваются по-разному, что дает начало пяти основным архитектурам, широко известным в литературе:
- Архитектура независимых витрин данных
- Архитектура шины
- Архитектура "Концентратор-спица"
- Архитектура централизованного хранилища данных
- Федеративная архитектура
В архитектуре independent data mart различные витрины данных проектируются отдельно и создаются неинтегрированным образом (рис. 1). Эта архитектура, хотя иногда изначально и внедряется в отсутствие серьезной поддержки складского проекта в масштабах предприятия или когда организационные подразделения, входящие в состав компании, слабо связаны, как правило, вскоре заменяется другими архитектурами, которые лучше обеспечивают интеграцию данных и перекрестную отчетность.
Рисунок 1. Независимые витрины данных и бизнес-архитектуры (без подтвержденных измерений и фактов или с подтвержденными фактами).
Архитектура шины, по-видимому, похожа на предыдущую, с одним важным отличием: базовый набор согласованных параметров и фактов, полученный в результате тщательного анализа основных корпоративных процессов, принят и используется совместно в качестве общего руководства по проектированию для обеспечения логической интеграции витрин данных и представления информации в масштабах всего предприятия.
В архитектуре hub-and-speak большое внимание уделяется масштабируемости и расширяемости, а также обеспечению представления информации в масштабах всего предприятия. Атомарные, нормализованные данные хранятся на выверенном уровне, который предоставляет набор витрин данных, содержащих обобщенные данные в многомерной форме (рис. 2). Пользователи в основном обращаются к витринам данных, но иногда могут запрашивать согласованный уровень.
Рисунок 2. Архитектура "концентратор-спица"; ODS расшифровывается как хранилище оперативных данных
Централизованную архитектуру можно рассматривать как конкретную реализацию архитектуры "концентратор-спица", в которой согласованный уровень и витрины данных объединены в единое физическое хранилище.
Наконец, федеративная архитектура иногда применяется в тех случаях, когда требуется неинвазивная интеграция уже существующих хранилищ данных/витрин данных для обеспечения единой среды поддержки принятия решений в масштабах всей организации (например, в случае слияний и поглощений). Каждое хранилище данных/витрина данных виртуально или физически интегрировано с другими, используя различные передовые технологии, такие как распределенные запросы, онтологии и совместимость метаданных.
Дата добавления: 2024-07-23; просмотров: 90;