Особенности построения современных информационных систем

Актуальность проблемы хранения и оперативного поиска данных привела к появлению такого понятия, как хранилище данных. Следует упомянуть о необходимости использования единых информационных хранилищ в аналитических системах и в первую очередь в системах поддержки принятия решений (СППР). СППР пользуются информацией, собранной с помощью компьютерных сетей из множества систем обработки данных (СОД). Данные в СОД собираются, хранятся и по достижении установленного срока выгружаются. В различных СОД данные могут не быть согласованы между собой, информацияв них может быть по-разному структурирована, степень ее достоверности определить сразу бывает достаточно трудно. Все это свидетельствует о том, что архивные данные из СОД без предварительной доработки использовать в информационных хранилищах нецелесообразно.

В настоящее время для совместного использования данных осуществляется интеграция различных СОД на основе единого справочника метаданных.

Информационные хранилища для СППР должны обладать некоторыми специфическими свойствами. От них требуется хранение информации в хронологическом порядке, так как без отражения хронологии данных нельзя говорить о решении задач прогнозирования и анализа тенденций (основных задач СППР). Важнейшее требование, предъявляемое к информационным хранилищам, — даже не оперативность, также необходимая, а достоверность информации, которую без согласованности данных обеспечить невозможно. Дело в том, что различные СОД на один и тот же запрос могут дать различные ответы по ряду причин:

•асинхронность модификации данных в разных СОД;

•различия в трактовке событий, понятий и т.д.;

•изменение семантики данных в процессе развития предметной области;

• ошибки при вводе и обработке;

• частичная утрата фрагментов информации из архива и т.п.

Задача создания информационных хранилищ чрезвычайно сложна, и достаточно часто се решение связано с рядом проблем.

Хранилища данных работают с внешними источниками, т.е. различными информационными системами, электронными архивами, каталогами и справочниками, статистическими сборниками и т.д. Все внешние источники реализованы на основе различных программных и аппаратных средств. На основе этих разнородных средств и решений необходимо построить единую информационную, функционально согласованную систему.

Если единая информационная система должна иметь распределенное решение, то следует физически разделить узлы компьютерной сети, где происходит операционная обработка информации, и узлы, в которых выполняется анализ данных.

Создание единых хранилищ данных предполагает использование технологий статистической обработки информации для ее предварительного анализа, определения состава и структуры тематических рубрик. Начальный этап предварительного анализа — выделение групп с однородными данными и расчленение информации на однокачественные интервалы, т.е. группировка по типу информации.

Если существующие в настоящее время технологии анализа данных хранилищах распределить по увеличению аналитических возможностей, то список будет выглядеть так: Online Transaction Processing (OLTP), Online Analytical Processing (OLAP), Data Mining.

Технология оперативного анализа распределенных данных (ОLАР-
технология), занимающая среднее положение в этом списке, наиболее распространена. Эта технология обеспечивает:

*построение многомерных моделей баз данных;

*иерархическое представление информации по семантическим связям;

*выполнение сложных аналитических расчетов;
*динамическое изменение структуры отчета;

*обновление БД.

Аналитические приложения для поддержки принятия решений в бизнесе основываются на модели данных, разработанной для конечного пользователя. Такая модель может обрабатывать информацию из реляционных баз данных и других плоских таблиц многомерным образом.

Программные продукты, использующие ОLАР-технологию, сочетают модель представления данных, оптимизированную для анализа, с простыми средствами доступа к этим данным.

К основным преимуществам ОLАР-технологии относятся:

*возможность пользователя работать с данными самому, а не через посредника-программиста;

*время ответа на сложный запрос, предполагающий анализ большого объема данных, в этих технологиях намного меньше, чем в ОLАР-технологии;

*ОLАР-приложения предназначены и наиболее эффективны для анализа большого объема данных.

При выборе СУБД следует учитывать, что скорость работы в сети зависит не только от аппаратных возможностей оборудования, но и в значительной степени от ПО. В классической сетевой технологии БД хранится на сервере. Программы исполняются на рабочих станциях, данные поступают по сети. При локальной работе с базами особенных проблем не возникает. Но когда к таблицам пытаются обратиться по сети одновременно несколько пользователей, возникают трудности. В рамках этой технологии два и более пользователя не могут одновременно изменить одни и те же данные.

Допустим, при работе прикладного ПО, когда автоматизирован отпуск товара со склада с последующей загрузкой автомобиля, дна пользователя, в данном случае кладовщики, осуществляющие загрузку разных автомобилей, пытаются списать со склада один и тот же товар. Первый пользователь заблокировал поле «ос таток товара», и пока он не закончит запись, остальные пользователи должны ждать. При возникновении ошибки в работе одного из пользователей (сбой питания компьютера, аварийное завершение программы и т.д.) всем остальным приходится завершать работу и ждать, пока администратор не восстановит испорченные индексные файлы (в худшем случае — саму базу данных).

Так как и сама база, и индексы являются последовательными файлами, при больших объемах данных операции с ними выполняются крайне медленно.

С приходом технологии «клиент - сервер» ситуация несколько улучшилась. Стали создаваться распределенные системы. Современные серверы баз данных (Огас1е, Sybase, Informix, Interbase и т.д.) способны перенести часть нагрузки на сервер. Так, возможно выполнение хранимых на сервере процедур, запускаемых как с клиентской части программы, так и с серверной, как реакция на события (с помощью триггеров). Однако, несмотря на улучшение эксплуатационных параметров, уменьшение сетевого трафика не очень значительно. Так, если необходимо обработать значительные объемы информации, на клиентскую часть приходится передавать достаточно много данных. К тому же программы все равно должны исполняться на мощных рабочих станциях. Сегодня решение этой проблемы — перенос всей математической обработки на центральные компьютеры, когда у клиентов остаются только ввод и отображение данных.