Формирование данных
В соответствии с определением, данные являются результатом отображения источника информации в сигнал в некоторой форме с целью их последующего использования потребителем информации. Явно эта фаза присутствует в учетной функции на оперативном уровне управления.
Поскольку формирование данных является начальной фазой информационного процесса, качество ее проведения во многом определяет результаты использования информации потребителем, поэтому при формировании данных вводятся различные приемы их верификации.
Формирование данных как отображение реализуется последовательным выполнением процедур первичного восприятия и регистрации.
Первичное восприятие– это преобразование информации, полученной в ходе наблюдения за реальным объектом, в формализованный вид. Здесь в результате наблюдения выделяются качественные и количественные характеристики объекта, наиболее существенные для решения задач потребителем информации. Совокупность этих характеристик создает образ источника, который находится, как правило, в голове наблюдателя, т.е. имеет биологический носитель. Помощь наблюдателю в корректном проведении первичного восприятия крайне ограниченна: единственное решение – в обучении, специализации и профориентации наблюдателей.
Регистрация – это запись сформированного наблюдателем образа источника информации на носитель, отличный от биологического, в виде данных. Это позволяет долгое время сохранять информацию и обеспечивать ее коллективное использование. Здесь возможно проведение классификации и кодирования данных и регистрация с использованием полученных кодов.
В случае регистрации на бумажный носитель осуществляется визуальный контроль – это зрительный просмотр документа в целях проверки полноты, актуальности, наличия подписей ответственных лиц и т.д. Используются следующие виды бумажных носителей:
1) содержащие произвольный текст, т.е. текст или иллюстрации произвольного вида и содержания (примером такого носителя является конспект, который студент ведет на лекциях);
2) стилизованные, ориентированные на использование информации автоматом, например, индекс на почтовом конверте, налоговая декларация и т.п.
В случае электронного носителя при записи применяется некоторый машинный код (построенный, например, на базе ASCII-кода), который может выполнять дополнительные функции эффективного, криптографического или помехозащитного характера.
Часто бумажный носитель используют как промежуточное звено для последующего переноса данных на электронный носитель. В этом случае для уменьшения числа возможных ошибок при переносе данных применяют следующие приемы:
1) разрабатывают правила составления документа на бумажном носителе (это связано с унификацией и стандартизацией форм документов);
2) обеспечивают совместимость форматов исходного бумажного и электронного документов.
Примером первичного восприятия может служить деятельность преподавателя, оценивающего ответ студента на экзамене. Оценив ответ, преподаватель записывает оценку в экзаменационную ведомость – регистрирует ее. Объективность полученной студентом оценки при этом тем больше, чем выше квалификация преподавателя. Переносом данных с одного носителя на другой занимается, например, методист деканата, когда переписывает экзаменационные оценки из ведомости преподавателя в журнал учета (бумажный или электронный). Уменьшение числа ошибок при таком переносе может достигаться, в частности, регламентацией для преподавателя формы оценки в ведомости: всегда цифра (4, 3 и т.д.), а не символьное данное («хор.», «хорошо» и т.п.); а также единой структурой ведомости и самого журнала. Так, если ведомость последовательно содержит графы «ФИО студента», «Дата сдачи экзамена», «Оценка», то такая же последовательность граф желательна и в журнале.
При регистрации данныхна электронный носитель используется экран монитора, который позволяет применять следующие приемы, облегчающие оператору проводить регистрацию и обрабатывать ошибки ввода:
1) начало зоны ввода данных указывается курсором;
2) на экране содержится описание значения, которое должно быть помещено в рабочую зону (своеобразная подсказка оператору);
3) используются средства визуализации для показа ошибок;
4) используются редактирующие функции, такие как дублирование символов, пропуск нескольких позиций, стирание символов, вставка символов, дополнение нулями или удаление незначащих нулей, автозамена;
5) автоматически добавляются данные, например, дата, номера страниц, время и т.д.
Примеры этих приемов можно найти в таких программных пакетах, как Word, Excel, Access, которые хорошо знакомы читателю.
После того, как данные записаны на электронный носитель, можно организовать дополнительный контроль правильности данных. Для этого используются следующие приемы:
1) контроль формата данного (типа и числа символов);
2) контроль идентичности: введенное данное сравнивается с имеющимся в системе;
3) проверка допустимости данного: может выполняться для всего набора записанных данных или для отдельного данного путем вычислительных операций и сравнения с некоторой суммой;
4) контроль по граничным значениям (диапазон);
5) контроль сопоставлением, когда дважды вводится одно и то же данное.
Некоторые из этих приемов можно также найти в программных пакетах Word, Excel, Access (этот вопрос обсуждается также в разделе «Защита данных»).
Передача данных
В случае если персонал, выполняющий ту или иную функцию управления, территориально разобщен, но между функциями имеется информационная связь, в структуру информационного процесса включается фаза передачи данных.
Передача данных - это перенос данных в виде сигнала в пространстве посредством физических сред любой природы. Если информационный процесс автоматизирован, то передача данных реализуется с помощью сетевых технологий, включающих, в частности, операции криптографического, эффективного и/или помехозащитного кодирования – декодирования, модуляции – демодуляции, мультиплексирования сигнала, маршрутизации и коммутациипотоков данных.
Задача маршрутизациивозникает из-за разветвленности связей сети передачи данных: передаваемые данные должны «знать», как добраться до получателя сообщения. При этом в реальных сетях ставятся две дополнительные задачи: маршрут должен быть минимальным, а загруженность сети должна быть равномерной, т.е. никакие каналы связи не должны простаивать или нагружаться недостаточно интенсивно. Выделяются следующие методы маршрутизации:
1. Централизованная. Выбор пути осуществляется центром управления сети – одним из компьютеров, специально выделенным в сети для решения, в частности, задачи маршрутизации (такие компьютеры называют роутерами или маршрутизаторами). При этом роутер поддерживает таблицы маршрутов, в которых для каждого компьютера сети отражаются возможные направления передачи данных в порядке убывания их предпочтительности;
2. Распределенная. Решение принимается каждым узлом сети независимо на основании аналогичных таблиц, которые касаются только маршрутов, исходящих из данного узла.
Коммутацияпотоков данных связана с методами передачи данных. Различают коммутацию каналов, сообщений и пакетов.
Обработка данных
Это любое преобразование значений и структур данных с целью решения определенных функциональных задач. Если производственные задачи относятся к структурированным или частично структурированным, обработка данных выполняется (полностью или частично) по заданным предписаниям с известными входными и выходными параметрами. Если информационный процесс автоматизирован, то в качестве таких предписаний выступают алгоритмы, представленные средствами какого-либо языка программирования. Дальнейшее изложение касается автоматизированного информационного процесса.
Обработка данных включает, как правило, стандартные операции (сортировку, поиск, фильтрацию, группирование, создание и преобразование структур данных) и нестандартные, обусловленные конкретными задачами управления. Стандартные операции хорошо документированы в специальной литературе по программированию и часто бывают включены в инструментарий технологии программирования как встроенные в библиотеки средства.
Нестандартные операции требуют специальной разработки. При этом, поскольку они учитывают специфику предметной области, в них должны быть отражены те процедуры преобразования информации, которые имеют место в СУ при решении задач управления. Такие процедуры могут быть документированы, тогда аналитику или программисту остается по описаниям понять суть этих процедур и представить их более формально.
Сложнее обстоит дело, если процедуры не документированы или документированы недостаточно полно. Это может быть следствием недоработки в СУ или принципиальной невозможности документирования, поскольку иногда трудно бывает выразить вербально (т.е. в текстовой форме) те действия, которые с легкостью выполняются в реальности[1]. В таком случае носителем информации о недокументированных операциях является производственный персонал, и аналитику не остается ничего другого, как извлекать знания из представителей персонала – экспертов (этот вопрос подробно рассмотрен далее). Следует отметить, что в соответствии со степенью документированности стандартных процедур, составляющих СУ, различают хорошо документированные, средне документированные и слабо документированные производства (или предметные области).
Таким образом, при реализации обработки данных как одной из фаз информационного процесса мы сталкиваемся еще с одной формой информационного ресурса – знаниями, а именно, - со знаниями о предметной области (производстве). Следует понимать, что и вся процедура автоматизации информационного процесса использует систему знаний – но уже о методологии автоматизации. Носителем этих знаний является разработчик – аналитик, программист, или, в современной терминологии, ИТ-специалист. Иначе говоря, автоматизация информационного процесса – это синтез двух систем знаний: о предметной области, куда внедряется автоматизированная система, и о методике и технологии ее проектирования.
Традиционная структура процесса автоматизации нестандартных операций обработки данных показана на рисунке.
Постановка задачи |
Формализация задачи |
Программирование задачи |
Сдача задачи в эксплуатацию |
Структура процесса автоматизации обработки данных
Постановка задачивыполняется заказчиком – он определяет, какую задачу управления производством он хотел бы решить, какие результаты и в какой форме получить. Формализация задачиреализуется аналитиком – специалистом в области системотехники, возможно, с математическим образованием. Цель аналитика – представить решение задачи как последовательность некоторых действий по преобразованию входных данных в выходные или построить математическую модель, соответствующую данному преобразованию. Для этого ему надо хорошо представлять, как на практике решается задача. Если она сложна или недостаточно документирована, для более полного понимания аналитиком ее решения требуется привлечение специалистов - экспертов в данной области. При этом в роли эксперта может выступать и сам заказчик, если он решает данную задачу в системе управления и хорошо представляет ход ее решения. Однако часто к формализации задачи привлекаются и другие специалисты. Можно утверждать, что суть формализации при этом состоит в извлечении аналитиком знаний от экспертов и в представлении их в некоторой форме.
Программирование задачивыполняется программистом. Оно заключается в кодировании формализованного представления задачи средствами какого-либо языка программирования и в отладке программы. Сдача задачи в эксплуатациюзаключается в демонстрации заказчику спроектированной технологии и передаче ему всей технической документации на проект.
Забегая вперед, можно отметить, что рассмотренная схема является информационной технологией (ИТ) разработки прикладного программного обеспечения, т.е. это схема ИТ для проектирования другой, прикладной, ИТ.
Хранение данных
Хранение данных - это перенос данных во времени путем организации долговременного размещения данных в виде информационных массивов. В случае электронных носителей, если информационный процесс автоматизирован, в роли информационных массивов выступают файлы или базы данных (БД). При хранении данные организуются таким образом, чтобы достаточно просто и оперативно выполнить поиск нужной информации, который осуществляется по специальным ключевым реквизитам. Методика поиска определяется организацией информационных массивов. Для минимизации времени поиска часто при использовании электронных носителей вводятся дополнительные служебные массивы. При этом имеет значение экономический аспект хранения: стоимость хранения должна быть соизмерима с ценностью данных.
При хранении различают структурированные и неструктурированные данные. В структурированных данных отражаются отдельные факты предметной области. Эта форма наиболее распространена в современных БД. Неструктурированные данные произвольны по формату и содержат тексты, графику и другие форматы. Данная форма широко используется, например, в Интернет-технологиях, а сами данные предоставляются пользователю в виде отклика поисковыми системами Интернета.
Для структурированных данных файл -это совокупность однотипно построенных записей, где под записью понимают элемент линейного списка, в состав которого входит группа взаимосвязанных полей. Эта группа конструируется на основе какой-то реальной задачи и может повторяться как конструкция с изменением лишь значений отдельных полей записей.
Особенности файловой организации структурированных данных, связанные с ее недостатками:
1) по мере возникновения новых задач в предметной области создаются новые файлы;
2) организация файлов независима, поэтому нельзя представить информацию, отражающую взаимодействие файлов между собой;
3) использование файлов зачастую требует знания их принципа организации и языков программирования;
4) большое время затрачивается на получение ответа на запрос, качество решений бывает невысоким из-за отсутствия целостного представления данных;
5) имеет место дублирование данных;
6) усложнены процедуры модификации данных.
Для неструктурированных данных файл– это собственно информационный элемент, произвольный по структуре и содержанию, например, некоторый документ, подготовленный в Ms Word.
С увеличением сложности решаемых задач и расширением возможностей используемых средств вычислительной техники с начала 60-х г.г. 20-го века получает развитие концепция БД. Первоначально они были ориентированы на структурированные данные. Отличительные особенности БД:
1) взаимная связь данных, что упрощает их модификацию;
2) возможность разделения данных на данные общего пользования (формируют глобальные БД) и данные для конкретных прикладных задач (составляют локальные БД). Такая технология называется распределенной. Она может привести к некоторой избыточности в данных. Распределенная технология вызывает проблему защиты данных и управления правами доступа;
3) для поддержания глобальных БД и разработки общей структуры БД вводится должность администратора БД.
Для управления данными в БД разрабатывались специальные языковые средства: языки описания структур данных и языки манипулирования данными, которые составляли системы управления базами данных - СУБД. Современные СУБД, в основном, ориентированы на структурированные данные. Они характеризуются направленностью на распределенную обработку и имеют графический интерфейс для описания данных и манипулирования ими. Тем не менее, остаются встроенные языки программирования, которые позволяют решать задачи, не укладывающиеся в принятые интерфейсные средства.
В настоящее время разрабатываются СУБД и для неструктурированных данных.
Хранение включает следующие функции:
1) актуализацию данных – поддержание их на уровне, соответствующем информационным потребностям решаемых задач. Осуществляется с помощью добавления новых данных и изменения уже имеющихся;
2) уничтожение данных – логическое или физическое удаление данных из информационных массивов. В первом случае данные помечаются как неактуальные, что обеспечивает их интерпретацию как уничтоженных, хотя физически они остаются на носителе. Во втором случае данные физически удаляются (стираются), что исключает их восстановление, но высвобождает реальную память для хранения других данных.
3) оценку данных – их анализ, который выполняется в связи со старением данных. Устаревшие данные, утратившие ценность, должны исключаться из информационных массивов - уничтожаться;
4) защиту данных – предотвращение предумышленного или случайного искажения, уничтожения или утечки данных.
Подробно вопросы хранения данных для первых двух функций рассмотрены в [31]. Оценка и защита данных включены в настоящее учебное пособие
Оценка данных
Оценка – это анализ данных, который выполняется в связи со старением данных: данные, утратившие ценность, должны исключаться из информационных массивов полностью или переводиться на более дешевые носители.При этом следует иметь в виду необходимость поддержания целостности данных, которая рассматривается далее.
Для оценки данных используются следующие критерии: «возраст», «спрос», «важность».
При оценке возрастаданных из информационных массивов исключаются данные, имеющие более раннюю дату размещения в массивах.
При учете критерия спросаанализируется использование данных при реализации процедур обработки: если в течение длительного периода времени данные не задействуются, их хранение признается нецелесообразным, и они исключаются из информационных массивов.
Учет критерия важности характерен для неструктурированных данных. По мере обработки запросов пользователей увеличиваются показатели важности для релевантных данных, а нерелевантные «штрафуются» - их показатели важности уменьшаются, и при достижении некоторого порогового значения эти данные исключаются из информационных массивов.
Защита данных
Защита данных связана с обеспечением их безопасности при случайном или преднамеренном искажении, разрушении или утечки. Включает следующие аспекты:
1) идеологический - разъяснения, убеждения, приемы воспитания персонала, направленные на обеспечение безопасности данных;
2) управленческий –это различные организационные решения (распоряжения, приказы и т.д.), направленные на обеспечение безопасности данных;
3) организационный. Заключается в выполнении технических норм работы с носителями информации, например:
Ø носители должны храниться в местах, не доступных для посторонних лиц;
Ø важная информация должна иметь несколько копий на разных носителях;
Ø защиту данных на жестких дисках следует поддерживать периодическим копированием их на другие машинные носители. При этом частота копирования должна выбираться из соображений минимизации среднего времени на копирование и времени на восстановление информации после последнего копирования в случае возникновения дефектов в модифицированной версии;
Ø данные, относящиеся к различным задачам, целесообразно хранить отдельно;
Ø необходимо строго руководствоваться правилами обращения с носителями;
4) программно-технический. Включает процессы управления доступом и управления целостностью. Управление доступом- это защита данных от несанкционированного доступа путем использования замков и ключей; таблиц управления доступом; протоколирования и аудита; экранирования, криптографии данных. Управление целостностью- это защита от неверных изменений и разрушений; рассматривается в следующих аспектах: обеспечение достоверности данных, управление параллелизмом; восстановление данных.
Математические методы
и автоматизированные системы
поддержки принятия решений
Учебные вопросы
1. Многообразие задач принятия решений.
2. Языки описания методов принятия решений.
3. Выбор в условиях неопределенности.
4. Решение как компромисс и баланс различных интересов. О некоторых ограничениях оптимизационного подхода.
Дата добавления: 2016-06-22; просмотров: 4450;