Отличие баз данных от файловой системы хранения данных.

Базы данных

Часть I состоит из семи глав.

· В главе 1 определены основные понятия баз данных, указываются отличия баз данных от файловой системы хранения данных. Обсуждаются цели использования баз данных. Рассматривается трехуровневая архитектура баз данных. Приводится структура и процесс функционирования системы управления базами данных.

· В главе 2 рассматриваются модели представления баз данных: ранние модели – иерархическая, сетевая, модель «сущность-связь»; наиболее распространенная реляционная модель и другие модели.

· В главе 3, посвященной вопросам проектирования схем реляционных баз данных, излагаются функциональные зависимости, нормализация отношений, многозначные зависимости, четвертая нормальная форма, этапы проектирования базы данных.

· Глава 4 посвящена системам управления базами данных. Рассматриваются функциональные возможности систем управления, базами данных, различные структуры индексов для осуществления быстрого потока данных, а также процедура хэширования данных.

· В главе 5 излагается язык запросов SQL: запросы манипулирования данными, действий, специальные запросы, определения данных, а также использование транзакций и управление доступом к данным.

· В главе 6, посвященной архитектуре баз данных, рассматриваются различные технологии доступа к данным, распределенные базы данных, многопользовательские базы данных.

· Глава 7 посвящена системе управления базами данных Access. Здесь излагаются средства построения таблиц, запросов, форм, отчетов, а также разработки интерфейсов приложений.

ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ БАЗ ДАННЫХ

Опыт использования вычислительной техники в области обработки данных показал, что в системах автоматизированного управления функция вычислительной системы заключается в поиске, накоплении и обработке информации, тогда как интеллектуальные задачи в основном решаются человеком. Информационные системы, ориентированные на конкретные приложения, не отвечали требованиям потребителей, поскольку процесс обработки данных ими был несовершенен. Это обстоятельство положило начало разработке теории баз данных, применение которой способствовало их интенсивному использованию.

В данной главе рассматриваются основные понятия и предпосылки появления баз данных, цели их использования, концептуальный, внешний и внутренний уровни представления, функциональная структура системы управления базами данных.

Основные понятия и предпосылки появления баз данных

Поскольку термин «Базы данных» неразрывно связан с понятиями данных и информации, то изложение материала начнем с формулировки этих понятий.

Информация — совокупность сведений, воспринимаемых из окружающей среды, передаваемых в окружающую среду либо сохраняемых внутри информационной системы.

Понятие информации предполагает обязательное наличие источника и приемника информации. Когда источником и приемником информации являются люди, то говорят, что они обмениваются сообщениями. Таким образом, информация передается в виде сообщений. В случае, если источником информации является объект наблюдения, то наблюдатель получает информацию либо путем наблюдения, либо в процессе активного воздействия на объект наблюдения. Если источником и приемником информации являются технические устройства, то говорят, что они обмениваются сигналами. И если приемником информации является некоторая информационная система, то говорят, что она получает, выдает и преобразует данные.

Данные — это запись в соответствующем коде наблюдения, факта, объекта, песни, текста и т.д., пригодная для коммуникации, интерпретации, передачи, обработки и получения новой информации.

Таким образом, данные— это преобразованнаяинформация, представленная в виде, позволяющем автоматизировать ее сбор, хранение и дальнейшую обработку человеком или информационным средством.

Информация получается из данных в результате решения некоторой задачи. Однако большая часть информации не может быть выведена из данных. Так, практически еще невозможен автоматический перевод поэтических произведений с одного языка на другой. Трудно рассчитывать и на то, что в ближайшем будущем компьютер-переводчик сможет донести до нас тонкие оттенки юмора, чувств и т. п.

Файл — последовательность записей, размещаемых на запоминающих устройствах и рассматриваемых в процессе обработки как единое целое.

База данных — совокупность взаимосвязанных данных при такой их минимальной избыточности, которая допускает их использование оптимальным образом для одного или нескольких приложений в определенной предметной области человеческой деятельности.

Предметная область — это совокупность объектов реального мира с их связями, относящихся к некоторой области знаний и имеющих практическую ценность для пользователей. Например, предметная область ЛОГИСТИКА включает такие объекты, как: ПОСТАВЩИКИ, ПОКУПАТЕЛИ, ТОВАРЫ, СКЛАДЫ, МАРШРУТЫ ДОСТАВКИ ТОВАРОВ и т.п. Предметная область ОБРАЗОВАНИЕ – это совокупность объектов: ВУЗЫ, ПРЕПОДАВАТЕЛИ, СТУДЕНТЫ, СПЕЦИАЛЬНОСТИ, УЧЕБНЫЕ ПЛАНЫ, ДИСЦИПЛИНЫ, РАСПИСАНИЕ и т.п.

Таким образом, база данных является динамической информационной моделью некоторой предметной области, отображением внешнего мира (объекта, явления, процесса). База данных состоит из множества связанных файлов, разделяемых различными пользователями. Данные в БД рассматриваются с разных точек зрения. Это означает, что каждый пользователь работает только с конкретной частью БД и различные потребители могут применять одни и те же данные.

Каждый объект реального мира характеризуется рядом присущих ему свойств (признаков, параметров). Например, объект ПОСТАВЩИК имеет следующие свойства: НАИМЕНОВАНИЕ, НАИМЕНОВАНИЕ ПОСТАВЛЯЕМЕГО ПРОДУКТА, ЮРИДИЧЕЧСКИЙ АДРЕС и др. Свойства объекта отображаются с помощью переменных величин, которые являются элементарными единицами информации и называются атрибутами.

Атрибут — это логически неделимый элемент, относящийся к свойству некоторого объекта или процесса. Для каждого атрибута определяется множество его значений. Так, атрибут ДЕНЬ НЕДЕЛИ может иметь семь значений.

При проектировании БД и обработке информации атрибуты подразделяются на атрибуты-признаки и атрибуты-основания. Атрибуты-признаки(ключи) являются качественной характеристикой объекта и обычно участвуют в логических операциях таких, как сравнение, сортировка, компоновка, редактирование. В качестве атрибутов-признаков могут выступать, например, НОМЕР ПРОПУСКА, ДОЖНОСТЬ, ФАМИЛИЯ, НОМЕР ЦЕХА и др. Атрибуты-основанияхарактеризуют количественную сторону объекта, зависят от атрибутов-признаков и принимают участие в вычислительных операциях. Атрибуты-основания, например КОЛИЧЕСТВО, ВЕС, ВРЕМЯ, без атрибутов-признаков не идентифицируют объект. Каждый объект характеризуется набором атрибутов-признаков и атрибутов-оснований.

Любой документ самой сложной структуры можно представить в виде атрибутов-признаков и атрибутов-оснований. Однако ни сам документ, ни его атрибуты не относятся к основным элементам проектируемой БД. Таким элементом является составная единица информации показатель, состоящая из одного атрибута-основания и присущих ему атрибутов-признаков. Показатель является минимальной информационной единицей, способной к документообразованию. Всякий документ можно разделить на показатели, которые играют важную роль в проектировании БД.

Доменом называют множество всех возможных значений некоторого атрибута. Один и тот же домен может служить областью определения различных атрибутов. Например, на домене ГОРОД определяются атрибуты АДРЕС, СТАНЦИЯ-ОТПРАВЛЕНИЯ, СТАНЦИЯ-НАЗНАЧЕНИЯ. Каждому домену и атрибуту присваивается уникальное имя. Допускается совпадение имени атрибута и имени соответствующего ему домена.

Часто наряду с понятием «атрибут» употребляется понятие «данное». Под данным понимают имеющую множество значений минимальную единицу информации, на которую ссылаются по имени. Групповое данное - это совокупность данных (элементарных или групповых). Например, групповое данное АДРЕС включает данные ИНДЕКС, ГОРОД, УЛИЦА, ДОМ, КВАРТИРА.

Необходимо различать тип записи, соответствующий некоторому имени записи, и экземпляр записи. Например, тип записи РАБОЧИЙ включает следующие атрибуты:

НОМЕР ПРОПУСКА, ФИО, ДОЛЖНОСТЬ, НОМЕР ЦЕХА

и экземпляр записи содержит следующие значения указанных выше атрибутов:

4657, ИВАНОВ ИВАН ИВАНОВИЧ, МЕНЕДЖЕР, 5

Проблемы проектирования систем обработки данных способствовали выделению типовых языковых и программных средств работы с данными. Так, в языках программирования, например, КОБОЛ, ПЛ/1, Visual C, Java и др. имеются средства описания и обработки данных. Типовые программы и языковые средства работы с данными выделены в самостоятельную часть операционных систем (ОС), называемую управлением данными. Подобные программы являются основой процессов управления данными, но они не предназначены для эффективной реализации разнообразных структур данных. Это послужило одной из причин создания специального языка и программного обеспечения, которые предназначены для описания, представления и обработки различных структур данных.

Таким образом, под СУБД понимают совокупность языковых и программных средств, обеспечивающих создание, поддержание (редактирование) и доступ к данным как со стороны пользователей, так и со стороны приложений. Кроме средств поддержки структуры данных и операций с данными СУБД также предоставляет:

· развитый пользовательский интерфейс, который позволяет выводить информацию в текстовом и графическом виде;

· средства программирования высокого уровня, с помощью которых можно создавать свои собственные приложения – БД;

· набор средств администрирования, обеспечения секретности и безопасности информации.

Задачи обработки информации, например задачи автоматизированных систем управления (АСУ) или систем автоматизации проектирования (САПР), моделируют информационную систему объекта. Информацию, циркулирующую в таких системах, можно разделить с точки зрения ее обработки на входную, промежуточную и выходную, а с точки зрения стабильности — на переменную и постоянную (условно-постоянную).

Для организации и ведения постоянной информации со времени разработки первых АСУ и САПР проектировщики стремились создать специальное программное обеспечение. Так, например, в АСУ среднего машиностроительного предприятия числится более пятидесяти массивов, для организации и ведения которых требуется разработать программы ввода, контроля, компоновки, сортировки, корректировки, вывода и копирования информации. Структурирование постоянной информации, выделение ее в специальную часть, называемую «нормативно-справочная информация», создание соответствующего программного обеспечения для ее организации и ведения — одна из важных предпосылок появления теории баз данных.

Целесообразность такого подхода объяснялась прежде всего централизацией управления данными, необходимыми для решения многих функциональных задач. Подобный подход способствовал экономии усилий и времени программистов, а также созданию специальной службы по ведению информации об объекте. Однако отсутствие в то время большого объема памяти и устройств прямого доступа, с помощью которых можно было бы хранить постоянную информацию об объекте, не позволяло в полной мере использовать преимущества централизованного управления информацией. В связи с этим плодотворная идея противоречила той ситуации, когда каждому применению соответствует собственный файл. Очень часто такие файлы размещены на отдельных устройствах, в результате чего обрабатываемые данные не имели связей друг с другом. Это в свою очередь требовало дополнительных затрат, например, при изменении одинаковой информации в различных файлах.

Централизованное управление информацией позволило отделить приложения от данных. Идея отделения заключалась в том, что изменение структуры и содержимого информации не должно было повлечь за собой изменения приложений. Предпосылкой реализации такой идеи послужили следующие обстоятельства:

1) необходимость изменения информационной системы объекта без изменения приложений;

2) внедрение типовых проектных решений (постановок, задач, алгоритмов, программ и документации), пакетов приложений для решения функциональных задач на однотипных объектах, различающихся структурой и содержанием информации.

Реализация идеи независимости программ от данных потребовала создания специальных языков и программного обеспечения для централизованного управления информацией, которое впоследствии оформилось в СУБД.

Работа с интегрированной БД многочисленных потребителей, каждый из которых пользуется некоторой ее частью, может оказаться затруднительной и малоэффективной. В связи с этим содержимое интегрированной БД разделяется на части, хранимые в ЭВМ однотипных или различных уровней (больших, малых, персональных). Такие БД называют распределенными. Управление подобными базами осуществляется с помощью систем управления распределенными БД. Таким образом, реальные системы обработки данных используют централизованное управление информацией наряду с ее распределением между потребителями.

Отличие баз данных от файловой системы хранения данных.

Базы данных появились тогда, когда традиционная файловая система хранения перестала удовлетворять нарастающему потоку данных и требованиям по их обработке. Рассмотрим основные отличия способа хранения данных в БД от файловой системы хранения.

Первое отличие состоит в том, что БД хранит данные в упорядоченном и специально организованном виде, исключающим совместное хранение разнородной информации. К примеру, в текстовых файлах на порядок размещения данных не накладывается сколько-нибудь серьезных ограничений, и данные могут быть расположены произвольно. В электронных таблицах данные уже располагаются упорядоченно по строкам и столбцам, но все еще достаточно произвольно. Человек сам решает в момент создания таблицы как лучше и нагляднее разместить данные. И лишь в базах данных структура данных строго фиксирована (если определен столбец «Фамилия», то в него должны записываться только фамилии, а не имена и т.п.) и определяется стандартом используемой модели данных.

Второе отличие состоит в том, что БД хранит не только данные, но и описание структуры данных (мета-данные). Мета-данные хранятся отдельно от самих данных в так называемом словаре (системном каталоге) данных. Таким образом, любая СУБД может работать с разными наборами данных, поскольку структура хранения данных доступна при чтении этих данных. В традиционной файловой системе способ хранения данных – дело каждой программы, осуществляющей хранение и обработку данных. Структура данных встроена в программу доступа и не может быть прочитана другими программами.

В объектно-ориентированных и объектно-реляционных БД можно определить операции над данными как часть определения данных. Операция (также называемая функцией) состоит из двух частей: интерфейса (или подпись – signature) включающего ее имя со списком аргументов и тела (имплементации – method). Имплементация хранится отдельно и может быть изменена независимо от интерфейса. Таким образом, использование мета-данных проявляется в:

1) независимости программ и данных (program-data independence);

2) независимости программ и операций (program-operation independence).

Третьим серьезным отличием БД от файловой системы хранения является наличие расширенных средств поиска информации. Практически всегда в БД применяют индексированное хранение информации. Наряду с упорядоченностью данных индексированное хранение информации дает многократное повышение скорости поиска. Можно даже сказать, что появление БД было вызвано невозможностью дальнейшего повышения скорости поиска в файловых системах с ростом объема хранимой информации.

Соответственно, файловой системе хранения присущи следующие ограничения:

· разделение и изоляция данных;

· дублирование данных;

· зависимость от данных;

· несовместимость файлов и программ доступа.