Классификационные признаки систем аналитических исследований

Основание для классификации	Классификационные признаки
Способ хранения данных	Многомерные OLAP-продукты (MOLAP – Multidimensional OLAP). Исходные и многомерные данные хранятся в многомерной БД или в многомерном локальном кубе. Это обеспечивает высокую скорость выполнения OLAP-операций. Но многомерная база в этом случае чаще всего будет избыточной. Куб, построенный на ее основе, будет во многом зависеть от числа измерений. При увеличении количества измерений объем куба будет экспоненциально расти. Это может привести к росту объема данных, замедляющему скорость выделения запросов пользователей. Реляционные OLAP (ROLAP – Relational OLAP). Исходные данные хранятся в реляционных БД или в плоских локальных таблицах на файл-сервере. Агрегатные данные могут помещаться в служебные таблицы в той же БД. Преобразование данных из реляционной БД в многомерные кубы происходит по запросу OLAP-средства. При этом скорость построения куба будет находиться в зависимости от типа источника данных и приводить к увеличению времени отклика системы. Гибридные OLAP (HOLAP – Hybrid ОLАР). Исходные данные остаются в реляционной базе, а агрегаты размещаются в многомерной. Построение OLAP-куба выполняется по запросу OLAP-средства на основе реляционных и многомерных данных. Это позволяет избежать взрывного роста данных и обеспечить минимизацию времени выполнения клиентских запросов.
Место размещения OLAP- машины	OLAP–серверы. Вычисления и хранение агрегатных данных выполняются сервером. Клиентское приложение получает результаты запросов к многомерным кубам, хранящимся на сервере. Некоторые OLAP-серверы поддерживают три способа хранения данных: MOLАР, ROLAP и HOLAP. Часто применяется OLAP-сервер корпорации Microsoft. OLAP-клиенты. Построение многомерного куба и OLAP-вычисления выполняются в памяти клиентского компьютера. OLAP-клиенты также поддерживают три способа хранения ROLAP, MOLAP и HOLAP.
Степень готовности к применению	OLAP-компоненты. С их помощью разрабатываются клиентские OLAP-программы, они бывают двух типов: МOLAP-компонентами (служат инструментами генерации запросов к OLAP-серверу и обеспечивают визуализацию полученных данных) и ROLAp компонентами (содержат собственную OLAP-машину, которая о6еспечивает построение OLAP-кубов в оперативной памяти и отображает их на экране).
Степень готовности к применению	Инструментальные OLAP-системы. Они предназначены для создания аналитических приложений и бывают системами для программирования (средой разработчика аналитических систем) и системами для быстрой настройки (визуальный интерфейс для создания OLAP-приложений без программирования). Конечные OLAP-приложения. Это готовые прикладные решения для конечного пользователя, требующие только установки и настройки для анализа данных в различных отраслях и для решения различных аналитических задач.
Инструменты добычи данных	Методы добычи данных (Data Mining) являются составной частью процесса поиска полезных знаний в разрозненных данных (KDD – Knowledge Discovery in Databases). KDD состоит из подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining, обработки и интерпретации полученных результатов. Первый элемент добычи данных – фильтрация. Необходимость в фильтрации возникает, когда нужно отделить полезную информацию от искажающего ее шума за счет сглаживания, очистки, редактирования аномальных значений, устранения незначащих факторов, понижения размерности информации. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных и точность результатов анализа. Дерево решений. Оно позволяет представлять правила в иерархической структуре, где каждому объекту соответствует единственный узел, дающий решение. Это может быть логическая конструкция «если то…». Элемент применяется при решении задач поиска оптимальных решений на основе описанной модели поведения. Ассоциативные правила. Ассоциативные правила позволяют находить закономерности между связанными событиями. Например, если произошло событие А, то произойдет и событие В с вероятностью С. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).
Инструмент добычи данных	Генетические алгоритмы. Генетические алгоритмы применяются при решении задач оптимизации. Они нужны для решения различных задач, в которых можно составить описание возможных вариантов решения в виде вектора параметров, и известен критерий, определяющий эффективность каждого варианта. Генетические алгоритмы применяются, например, для составления портфелей ценных бумаг, расписаний, выбора маршрутов движения, конфигурации оборудования заполнения контейнеров при перевозке грузов. Нейронные сети. Нейронные сети реализуют алгоритмы обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других алгоритмов анализа данных. Нейронные сети применяются для восстановления пропусков в данных, прогнозирования и поиска закономерностей.
Средства построения хранилищ и витрин данных	Средства проектирования хранилищ данных. Они входят в состав реляционных и многомерных СУБД Microsoft, Oracle, IBM и Sybase. После описания структур хранения данных специальными системными утилитами выполняется их генерация, что позволяет быстро построить индивидуальное хранилище или витрину. Средства извлечения, преобразования и загрузки данных (ETL - extraction, transformation, loading). Они обеспечивают процессы при переносе данных из одного приложения или системы в другие. Примером ETL-системы может служить Ascential DataStage компании Ascential Software. Готовые предметно-ориентированные хранилища данных. В них уже имеются механизмы построения хранилищ и витрин данных: процедуры извлечения, преобразования, очистки и загрузки данных, функции генерации баз данных и процедур обработки, механизмы построения выборок данных, интерфейсы просмотра и анализа данных. Однако если они ориентированы на одну область применения, их нельзя использовать в другой.
Инструменты конечного пользователя для выполнения запросов и построения отчетов	Инструменты выполнения запросов и построения отчетов (Query & Reporting) предназначены для формирования запросов к информационным системам в пользовательских терминах, их исполнения, просмотра полноценных отчетов. Эти системы могут быть встроены в состав OLAP-систем. Инструменты в виде специализированных систем Query & Reporting, когда пользователь составляет запрос к источнику данных, используя заранее подготовленный программистом каталог терминов, получая таблицы, графики, диаграммы на экран или в виде распечатки.

Экспертные системы

Многие специалисты в соответствии со своими должностными обязанностями заняты составлением различных аналитических материалов (справок, обзоров и других подобных документов). Кроме того, специалисты принимают ответственные решения, последствия которых важны для всего управленческого процесса. Чтобы сделать выполнение этих функций более быстрым, эффективным и легким, используются экспертные системы.

Назначение экспертных систем – помочь сотрудникам выполнять качественный анализ исходных данных в определенной области и принимать обоснованные и взвешенные решения.

Экспертные системы представляют собой особый класс автоматизированных информационных систем, которые проводят анализ, выполняют классификацию, ставят диагноз и выдают консультации. Они воспроизводят при анализе схему рассуждений человека-эксперта – рассуждения, опирающиеся на неформальные правила, используемые в целях повышения эффективности решения конкретной задачи.

Экспертные системы не только выполняют необходимые функции, но и на каждом шаге могут объяснить пользователю причину той или иной рекомендации и последовательность анализа. Широкое использование экспертных систем в зарубежных странах объясняется тем фактом, что аналитические задачи решаются компьютером не хуже, чем человеком, а в ряде случаев надежнее и быстрее. В отличие от человека, у экспертных систем нет предубеждений, они не делают поспешных выводов, не поддаются влиянию внешних факторов. Такие системы работают методично, систематизировано, рассматривая все детали, выбирая оптимальную альтернативу из всех возможных. Несомненным преимуществом экспертных систем является и то, что содержащиеся в них знания сохраняются навсегда, как бы обширны они не были.

Теоретически экспертные системы по мере своего развития и расширения должны проходить следующие уровни.

«Ассистент» – система освобождает сотрудника от рутинной и однообразной аналитической работы, позволяя заниматься только самыми важными и требующими творческого решения вопросами.

«Коллега» – система участвует в решении проблемы на равных с сотрудником, общение между ними представляет собой постоянный диалог.

«Эксперт» – уровень знаний системы во много раз превосходит уровень знаний сотрудника, так как знания системы постоянно пополняются при помощи наиболее компетентных экспертов.

Как третий, так и второй уровни экспертных систем пока не достигнуты и имеются значительные трудности при их реализации.

В настоящее время реально применяются экспертные системы первого уровня, которые облегчают работу сотрудников и помогают сделать ее более эффективной и быстрой. Такие системы накапливают знания и опыт наиболее квалифицированных экспертов-аналитиков.

Экспертные системы, в основе которых лежат знания и опыт высококвалифицированных экспертов, позволяют специалисту с обычной квалификацией решать различные аналитические задачи, требующие высокого уровня знаний, практически так же успешно, как это делают сами эксперты. Таким образом, уникальный индивидуальный опыт отдельных и немногочисленных экспертов становится доступным многим пользователям.

CASE-технологии

Системы интеллектуального проектирования и совершенствования управления предназначены для использования так называемых CASE-технологий (Computer Aid System Engineering), предназначенных для автоматизированной разработки проектных решений по созданию и совершенствованию систем организационного управления.

CASE-технологии появились в первую очередь для проектирования информационных систем (ИС). Но, так как накопленный опыт оказался удачным, они начали применяться также для реинжиниринга бизнес-процессов. Современные CASE-технологии охватывают обширную область поддержки многочисленных технологий проектирования ИС: от простых средств анализа и документирования до полномасштабных средств автоматизации, покрывающих весь жизненный цикл программного обеспечения.

Наиболее трудоемкими этапами разработки ИС являются этапы анализа и проектирования, в процессе которых CASE-технологии обеспечивают качество принимаемых технических решений и подготовку проектной документации. При этом большую роль играют методы визуального представления информации. Это предполагает построение структурных или иных диаграмм в реальном масштабе времени, использование многообразной цветовой палитры, сквозную проверку синтаксических правил. Графические средства моделирования предметной области позволяют разработчикам в наглядном виде изучать существующую ИС, перестраивать ее в соответствии с поставленными целями и имеющимися ограничениями.

В разряд CASE-технологий попадают как относительно дешевые системы для персональных компьютеров с весьма ограниченными возможностями, так и дорогостоящие системы для неоднородных вычислительных платформ и операционных сред. Так, современный рынок программных средств насчитывает около 300 различных CASE-технологий, наиболее мощные из которых используются почти всеми ведущими западными фирмами.

Обычно к CASE-технологиям относят любое программное средство, автоматизирующее совокупность процессов жизненного цикла программного обеспечения и имеющее следующие основные характерные особенности:

•наличие мощных графических средств для описания и документирования ИС, обеспечивающих удобный интерфейс с разработчиком и развивающих его творческие возможности;

•интеграция отдельных компонентов CASE-технологий, обеспечивающих управляемость процессом разработки ИС;

•использование специальным образом организованного хранилища проектных метаданных (репозитория).

Интегрированная CASE-технология (или комплекс средств, поддерживающих полный жизненный цикл программного обеспечения) содержит следующие компоненты:

•репозиторий, являющийся основой CASE-технологии. Он должен обеспечивать хранение версий проекта и его отдельных компонентов, синхронизацию поступления информации от различных разработчиков при групповой разработке, контроль метаданных на полноту и непротиворечивость;

•графические средства анализа и проектирования, обеспечивающие создание и редактирование иерархически связанных диаграмм, образующих модели ИС;

•средства разработки приложений;

•средства конфигурационного управления;

•средства документирования;

•средства тестирования;

•средства управления проектом;

•средства реинжиниринга.

Можно привести много примеров различных классификаций CASE-технологий. Остановимся на двух наиболее распространенных вариантах: по типам и категориям. Классификация по типам отражает функциональную ориентацию CASE-технологии на те или иные процессы жизненного цикла. Классификация по категориям определяет степень интегрированности по выполняемым функциям и включает отдельные локальные средства, решающие небольшие автономные задачи, набор частично интегрированных средств, охватывающих большинство этапов жизненного цикла ИС, и полностью интегрированные средства, поддерживающие весь жизненный цикл. Помимо этого CASE-технологии можно классифицировать по следующим признакам:

•применяемым методологиям и моделям систем и БД;

•степени интегрированности с СУБД;

•доступным платформам.

Классификация по типам в основном совпадает с компонентным составом CASE-технологии и включает следующие основные типы:

•средства анализа, предназначенные для построения и анализа моделей предметной области;

•средства анализа и проектирования, поддерживающие наиболее распространенные методологии проектирования и использующиеся для создания проектных спецификаций. Выходом таких средств являются спецификации компонентов и интерфейсов системы, архитектуры системы, алгоритмов и структур данных;

•средства проектирования баз данных, обеспечивающие моделирование данных и генерацию схем баз данных для наиболее распространенных СУБД;

•средства разработки приложений;

•средства реинжиниринга, обеспечивающие анализ программных кодов и схем баз данных и формирование на их основе различных моделей и проектных спецификаций.

На сегодняшний день российский рынок программного обеспечения располагает следующими наиболее развитыми CASE-технологиями:

•Vantage Team Builder (Westmount I-CASE);

•Designer/2000;

•Silverrun;

•Erwin+Bpwin;

•S-Designer;

•CASE.Аналитик;

•Enterprise Modeling Tool.