Формирование данных
На данном этапе возможно проведение классификации полученной информации с помощью иерархического и фасетногометодов. Каждый из методов использует выделенное ранее множество свойств объектов и их значений (здесь они называются классификационными признаками).
При иерархической классификации все исходное множество объектов, соответствующих анализируемой предметной области, образует нулевой уровень классификации (он вначале является текущим). Затем выполняются шаги:
1) нулевой уровень делится на классы в зависимости от выбранного классификационного признака. Полученные группы образуют первый уровень;
2) каждый класс первого уровня делится на подклассы в соответствии со своим признаком классификации - получается второй уровень классификации (использование оригинального признака классификации при этом и каждом последующем разбиении на классы позволяет применять независимые классификационные признаки в разных ветвях иерархической структуры);
3) полученный уровень классификации становится текущим, и к нему применяется первый шаг.
Пример 1. Пусть решается задача анализа успеваемости отдельных студентов в учебных группах первого курса специальностей кафедры СУиВТ по итогам зимней сессии. Наблюдателем выявлены следующие характеристики предметной области, существенные для решаемой задачи:
1) на первом курсе по кафедре СУиВТ набраны 2 учебные группы с шифрами АС и ВС;
2) в зимнюю сессию включены экзамены по дисциплинам (условно):
· для группы АС – информатика, математика;
· для группы ВС – физика, культурология;
3) возможные оценки за экзамены – от 2 до 5.
Требуется построить классификацию студентов первого курса кафедры СУиВТ для решения задачи анализа результатов сессии, применив метод иерархической классификации.
Решение
Зададимся нулевым уровнем классификации – это все множество студентов первого курса кафедры СУиВТ (табл.. 1.1). Применим первый классификационный признак – пусть это шифр учебной группы. Получим первый уровень классификации.
Таблица 1.1
Классификатор для примера 1
студенты первого курса кафедры СУиВТ | 0-й уровень | |||||||
ВС | АС | 1-й уровень | ||||||
информатика | математика | физика | культурология | 2-й уровень | ||||
2 3 4 5 | 2 3 4 5 | 2 3 4 5 | 2 3 4 5 | 3-й уровень | ||||
К каждому классу первого уровня применим классификационный признак – дисциплина с соответствующими учебной группе значениями. Получим второй уровень классификации. К каждому классу второго уровня применим классификационный признак – оценка. Получим третий уровень классификации.
Классификатор построен.
При фасетной классификации признаки классификации называются фасетами и выбираются независимо друг от друга. Каждый фасет содержит совокупность однородных значений данного классификационного признака.
Пример 2. Построить фасетный классификатор для задачи из примера 1.
В соответствии с выявленными классификационными признаками и их значениями имеем табл. 1.2:
Таблица 1.2
Классификатор для примера 2
Учебные группы | Дисциплины | Оценки |
ВС | Информатика | |
АС | Математика | |
Физика | ||
Культурология |
Полученная таблица и есть классификатор. При этом данные, находящиеся в одной строке, никак не связаны.
Регистрация данных
В случае регистрации на бумажный носитель (документ) осуществляется визуальный контроль – это зрительный просмотр документа в целях проверки полноты, актуальности, наличия подписей ответственных лиц и т.д. Используются следующие виды бумажных носителей:
1) содержащие произвольный текст, т.е. текст или иллюстрации произвольного вида и содержания (примером такого носителя является конспект, который студент ведет на лекциях);
2) стилизованные, ориентированные на использование информации автоматом, например, индекс на почтовом конверте, налоговая декларация и т.п.
Часто бумажный носитель используют как промежуточное звено для последующего переноса данных на электронный носитель. В этом случае для уменьшения числа возможных ошибок при переносе данных применяют следующие приемы:
1) разрабатывают правила составления документа на бумажном носителе (это связано с унификацией и стандартизацией форм документов);
2) обеспечивают совместимость форматов исходного бумажного и электронного документов.
Совместное использование бумажного и электронного носителя имеет место при регистрации результатов сдачи сессии. Оценив ответ студента, преподаватель записывает оценку в экзаменационную ведомость – регистрирует ее. Переносом данных с одного носителя на другой занимается методист деканата, когда переносит экзаменационные оценки из ведомости преподавателя в электронный журнал учета. Уменьшение числа ошибок при таком переносе может достигаться следующими приемами:
· единой структурой бумажных экзаменационных ведомостей, которые заполняет преподаватель,
· регламентацией для преподавателя формы оценки в ведомости: всегда цифра (4, 3 и т.д.), а не символьное данное («хор.», «хорошо» и т.п.);
· единой структурой ведомости и самого журнала: так, если ведомость последовательно содержит графы «ФИО студента», «Дата сдачи экзамена», «Оценка», то такая же последовательность граф желательна и в электронном журнале.
В случае электронного носителя при регистрации применяется некоторый машинный код (построенный, например, на базе ASCII-кода), который может выполнять дополнительные функции эффективного, криптографического или помехозащитного характера. При этом используется экран монитора, который позволяет применять следующие приемы, облегчающие оператору проводить регистрацию и обрабатывать ошибки ввода:
1) начало зоны ввода данных указывается курсором;
2) на экране содержится описание значения, которое должно быть помещено в рабочую зону (своеобразная подсказка оператору);
3) используются средства визуализации для показа ошибок;
4) используются редактирующие функции: дублирование символов, пропуск нескольких позиций, стирание символов, вставка символов, дополнение нулями или удаление незначащих нулей, автозамена;
5) автоматически добавляются данные, например, дата, номера страниц, время, оглавление и т.д.
После того, как данные записаны на электронный носитель, можно организовать дополнительный контроль правильности данных. Для этого используются следующие приемы:
1) контроль формата данного (типа и числа символов);
2) контроль идентичности: введенное данное сравнивается с имеющимся в системе;
3) проверка допустимости данного: может выполняться для всего набора записанных данных или для отдельного данного путем вычислительных операций и сравнения с некоторой суммой;
4) контроль по граничным значениям (диапазон);
5) контроль сопоставлением, когда дважды вводится одно и то же данное.
Некоторые из этих приемов можно найти в прикладных пакетах Word, Excel, Access.
При регистрации возможно кодирование информации регистрационными и классификационнымиметодами. Цель такого кодирования (замена данного на условное обозначение) - уменьшение объема регистрируемой информации и, возможно, защита от несанкционированного доступа.
Регистрационные методы кодирования не требуют предварительной классификации объектов и включают порядковоеисерийно-порядковое кодирование.
При порядковом кодированииобъекты обозначаются числами натурального ряда или другими символами. Применяется, когда количество объектов невелико.
Пример 3. Выполнить порядковое кодирование для названий дисциплин, шифров учебных групп и оценок из примера 1.
При решении этой задачи преследуем две цели – уменьшение объема информации (для учебных групп и дисциплин) и шифрование для защиты от несанкционированного доступа (для оценок). Примерная система кодирования будет иметь вид:
Шифры учебных групп | Коды | Названия дисциплин | Коды | Оценки | Коды | ||
ВС | Информатика | # | |||||
АС | Математика | $ | |||||
Физика | @ | ||||||
Культурология | ) |
При серийно-порядковом кодированиипредварительно выделяются группы объектов, которые составляют серию, затем в каждой серии производится порядковое кодирование. Сами серии также кодируются с помощью порядкового кодирования. Между кодами серии и кодами ее элементов ставится разделитель. Применяется, когда число объектов сравнительно велико, но классификация не применяется.
Пример 4. Выполнить серийно-порядковое кодирование для названий дисциплин, условно предположив, что их число велико.
Для кодирования упорядочим значения по алфавиту и разобьем список на две равные части - серии. Первой серии присвоим код А, второй – В. Элементы в каждой серии пронумеруем по порядку. Получим:
Серия А Серия В
1 Информатика 1 Математика
2 Культурология 2 Физика
Тогда получим коды:
Дисциплины Коды
Информатика А.1
Математика В.1
Физика В.2
Культурология А.2
Классификационные методы кодирования ориентированы на проведение предварительной классификации объектов на основе иерархического или фасетного методов. Включают последовательноеипараллельное кодирование.
Последовательное кодирование используется для иерархической классификации – сначала записывается код класса первого уровня, затем – второго и т.д. Коды классов формируются способом регистрационного кодирования, между кодами разных уровней классификации возможны разделители.
Пример 5. Выполнить последовательное кодирование для вершин третьего уровня классификатора из примера 1. При этом использовать коды признаков, полученные при порядковом кодировании из примера 3.
Припишем коды из примера 3 вершинам классификатора из примера 1. Результат представлен в табл. 1.3 (коды приписаны вершинам справа и выделены жирным стилем).
Таблица 1.3
Последовательное кодирование для примера 5
студенты первого курса кафедры СУиВТ | 0-й уровень | |||||||
ВС | АС | 1-й уровень | ||||||
информатика 1 | математика 2 | физика 3 | культурология 4 | 2-й уровень | ||||
2) 3@ 4$ 5# | 2) 3@ 4$ 5# | 2) 3@ 4$ 5# | 2) 3@ 4$ 5# | 3-й уровень | ||||
Тогда, например, для класса студентов из группы ВС, получивших оценку 5 на экзамене по информатике, сформируем код: 1.1.#, где точка играет роль разделителя.
Параллельное кодирование используется для фасетной классификации. Фасеты кодируются с использованием регистрационного кода, между кодами разных уровней возможны разделители.
Пример 6. Выполнить параллельное кодирование для класса со следующими значениями классификационных признаков (при построении кода учитывается и порядок признаков): дисциплина = физика; учебная группа = АС; оценка = 3. При этом использовать коды признаков, полученные при порядковом кодировании из примера 3.
Имеем код: 3.2.@, где точка играет роль разделителя.
Дата добавления: 2017-05-02; просмотров: 1531;