Хранилище данных. Основные определения
Систему хранения данных можно определить как набор методов, техник и инструментов, которые помогают так называемому работнику умственного труда (тому, кто работает в основном с информацией или разрабатывает и использует знания на рабочем месте: например, корпоративному менеджеру или аналитику данных) принимать решения путем преобразования данных в информацию.
Основные возможности хранилища данных можно резюмировать следующим образом:
- Простота доступа к компьютерам для неквалифицированных пользователей.
- Интеграция данных на основе модели предприятия.
- Гибкие возможности запроса, позволяющие использовать преимущества информационных ресурсов.
- Синтез, позволяющий проводить целенаправленный и эффективный анализ.
- Многомерное представление, позволяющее пользователю интуитивно и удобно просматривать информацию.
- Корректность, полнота и свежесть информации.
В основе этого процесса лежит хранилище данных, отвечающее вышеуказанным требованиям. Согласно классическому определению Билла Инмона (см. дальнейшее чтение), хранилище данных - это совокупность данных, обладающая следующими характеристиками:
1. Предметно-ориентированный, что означает, что все элементы данных, относящиеся к одному и тому же бизнес-объекту, связаны.
2. Временный, что означает, что история бизнеса отслеживается и записывается для создания временных отчетов.
3. Энергонезависимый, что означает, что данные доступны только для чтения и никогда не обновляются и не удаляются.
4. Интегрированный, что означает сбор и согласование данных из различных корпоративных приложений.
Хотя оперативные данные обычно охватывают ограниченный временной интервал, поскольку большинство бизнес-операций включают только последние данные, хранилище данных должно поддерживать анализ, охватывающий несколько лет.
Таким образом, хранилище данных периодически обновляется, начиная с оперативных данных. Согласно распространенной метафоре, мы можем представить, что периодически делаются фотографии операционных данных; затем последовательность фотографий сохраняется в хранилище данных, где создается своего рода видеофильм, отражающий историю бизнеса вплоть до текущего времени.
Поскольку данные, в принципе, никогда не удаляются, а обновления производятся в автономном режиме, хранилище данных можно рассматривать как базу данных, доступную только для чтения. Эта особенность, наряду с важностью, придаваемой обеспечению высокой производительности запросов, имеет два основных следствия.
Во-первых, системы управления базами данных (СУБД), используемые для управления хранилищем данных, не требуют сложных методов поддержки транзакций. Во-вторых, методы проектирования, используемые для хранилищ данных, полностью отличаются от методов, принятых для операционных баз данных.
Как уже упоминалось, еще одно существенное различие между операционными базами данных и хранилищами данных связано с поддерживаемыми типами запросов. OLTP-запросы в операционных базах данных обычно считывают и записывают относительно небольшое количество записей из некоторых таблиц, связанных простыми отношениями (например, поиск данных клиентов для добавления новых заказов).
И наоборот, OLAP-запросы к хранилищам данных обычно считывают огромное количество записей, чтобы вычислить несколько фрагментов сводной информации. Самое главное, несмотря на то, что рабочая нагрузка OLTP ‘заморожена’ в приложениях и лишь изредка формулируются специальные запросы, рабочая нагрузка OLAP по своей сути интерактивна и динамична.
Дата добавления: 2024-07-23; просмотров: 80;