Графические методы РАД (визуализация данных)


Широкий набор мощных методов разведочного анализа данных представлен также средствами графической визуализации данных. С их помощью можно находить зависимости, тренды и смещения, скрытые в неструктурированных наборах данных.

Графические средства дают особые преимущества и позволяют выявить закономерности, которые трудно поддаются количественному описанию и которые весьма сложно обнаружить с помощью вычислительных процедур (например, сложные взаимосвязи, исключения или аномалии). В этих случаях графические методы предоставляют уникальные возможности многомерного аналитического исследования или "добычи" данных.

- Закрашивание.Возможно, самым распространенным и исторически первым из методов, которые с полным основанием можно отнести к графическому разведочному анализу данных, стало закрашивание -интерактивный метод, позволяющий пользователю выбирать на экране компьютера отдельные точки-наблюдения или группы таких точек, находить их характеристики (в том числе общие) и изучать влияние отдельных наблюдений на соотношения между различными переменными. Эти соотношения между переменными также могут быть визуализированы с помощью подгоночных функций (например, прямыми в двумерном или поверхностями в трехмерном случае) вместе с соответствующими доверительными интервалами, и, таким образом, пользователь может в интерактивном режиме исследовать изменения параметров этих функций, временно удаляя или добавляя фрагменты набора данных [15]. С помощью закрашивания, например, можно выбрать (выделить) на одной из матричных диаграмм рассеяния все точки данных, принадлежащие определенной категории. Таким образом можно определить, как эти наблюдения влияют на взаимосвязи между другими переменными этого набора данных.

- Категоризованные графики.Одним из наиболее мощных аналитических методов исследования является разделение ("разбиение") данных на группы для сравнения структуры получившихся подмножеств. Эти методы широко применяются как в разведочном анализе данных, так и при проверке гипотез и известны под разными названиями (классификация, группировка, категоризация, разбиение, расслоение и пр.). Эти графики представляют собой наборы двумерных, трехмерных, тернарных или n-мерных графиков (таких как гистограммы, диаграммы рассеяния, линейные графики, поверхности, тернарные диаграммы рассеяния и пр.), по одному графику для каждой выбранной категории (подмножества) наблюдений. Эти графики располагаются последовательно в одном графическом окне, позволяя сравнивать структуру данных для каждой из указанных подгрупп. Для выбора подгрупп можно использовать множество методов, самый простой из них - это введение категориальной переменной [15-17]. Некоторые программы (например, система STATISTICA) поддерживают двухвходовую или многомерную категоризацию, где для задания подгрупп используется не один, а два или более критериев. Двухвходовые категоризованные графики можно рассматривать как таблицы графиков, где каждый входящий график находится на пересечении определенных значений первой и второй группирующих переменных.

Для категоризованных графиков требуется такой же выбор переменных, как и для некатегоризованных графиков соответствующего типа (например, две переменных для диаграммы рассеяния). В то же время для категоризованных графиков необходимо указать по крайней мере одну группирующую переменную (или способ разбиения наблюдений на категории), где содержалась бы информация о принадлежности каждого наблюдения к определенной подгруппе. Группирующая переменная не будет непосредственно изображена на графике (т.е. не будет построена), однако она будет служить критерием для разделения всех анализируемых наблюдений на отдельные подгруппы. Для каждой группы (категории), определяемой группирующей переменной, будет построен один график.

Сглаживание двумерных распределений.Для наглядного представления таблицы значений двух переменных используются трехмерные гистограммы. Их можно рассматривать как объединение двух простых гистограмм для совместного анализа частот значений двух переменных. Чаще всего на этом графике для каждой ячейки таблицы нарисован один трехмерный столбец, а его высота соответствует частоте значений в этой ячейке. Когда предусмотрены процедуры сглаживания данных, то трехмерное представление частот значений можно аппроксимировать поверхностью. Такое сглаживание можно осуществить для любой трехмерной гистограммы. Для достаточно простой структуры данных такое сглаживание не имеет особого смысла.

- Послойное сжатие.На графиках этого типа за счет сокращения
области основного графика освобождается место для графиков на полях,
которые располагаются в правой и верхней части графического окна
(включая, маленький угловой график). Эти графики на полях представляют
собой соответственно вертикально и горизонтально сжатые изображения
основного графика. Послойное сжатие двумерных графиков является
методом разведочного анализа данных, который дает возможность исследовать скрытые тренды и структуры двумерных наборов данных.

- Проекции трехмерных наборов данных.Полезным методом
изучения и аналитического исследования структуры поверхности (созданной,
как правило, по трехмерным наборам данных) является построение ее
проекции на плоскость в виде карты линий уровня. Эти графики менее
эффективны для быстрого визуального анализа формы трехмерных структур
по сравнению с графиками поверхности, однако их преимущество
заключается в возможности точного исследования формы поверхности - на
картах линий уровня отображается ряд не искаженных горизонтальных
сечений.

- Пиктографики.На пиктографиках каждое наблюдение представлено в
виде многомерного символа, что позволяет использовать эти типы
графического представления данных в качестве не очень простого, но
мощного исследовательского инструмента. Главная идея такого метода
анализа основана на человеческой способности автоматически фиксировать
сложные связи между многими переменными, если они проявляются в
последовательности элементов (в данном случае "пиктограмм"). Конкретную
природу проявившихся взаимосвязей между переменными позволяет
выявить уже последующий анализ данных, основанный на изучении этого
интуитивно обнаруженного сходства. Основная идея пиктографиков
заключается в представлении элементарных наблюдений как отдельных
графических объектов, где значения переменных соответствуют
определенным чертам или размерам объекта (обычно одно наблюдение =
одному объекту). Это соответствие устанавливается таким образом, чтобы
общий вид объекта менялся в зависимости от конфигурации значений. Таким
образом, объекты имеют определенный "внешний вид", который уникален
для каждой конфигурации значений и может быть идентифицирован
наблюдателем. Изучение таких пиктограмм помогает выявить как простые
связи, так и сложные взаимодействия между переменными.

Как правило, при построении пиктографиков значения переменных должны быть стандартизованы, чтобы их можно было сравнивать в пределах одной пиктограммы. Исключения составляют те случаи, когда на пиктограммах необходимо отобразить глобальные различия диапазонов выбранных переменных. Поскольку масштаб пиктограммы определяется наибольшим значением, то на пиктограмме могут отсутствовать те переменные, которые имеют значения другого порядка малости, например, на пиктограмме звезды некоторые лучи могут оказаться настолько короткими, что совсем не будут видны.

Пиктографики обычно используются: для обнаружения структур или кластеров наблюдений и для исследования сложных взаимосвязей между несколькими переменными. Первый вариант соответствует кластерному анализу; т.е. процедуре классификации наблюдений.

- Вращение (в трехмерном пространстве).Изменение угла зрения при отображении трехмерной диаграммы рассеяния (простой, спектральной или пространственной) может оказаться эффективным средством для выявления некоторой структуры, которая видна только при определенном повороте "облака" точек. Некоторые программы предоставляют полезный инструмент для интерактивного изменения перспективы и вращения изображения. Эти средства контроля изображения позволяют подобрать подходящий угол зрения и перспективу, чтобы найти наиболее удачное расположение "точки зрения" на график, а также дают возможность управлять его вращением в горизонтальной и вертикальной плоскости. Эти инструменты могут оказаться весьма полезными не только при начальном разведочном анализе данных, но и при исследовании факторного пространства или пространства размерностей.

- Проверка результатов РАД

Предварительное исследование данных может служить лишь первым этапом в процессе их анализа, и пока результаты не подтверждены (методами кросс-проверки) на других фрагментах базы данных или на независимом множестве данных, их можно воспринимать самое большее как гипотезу. Если результаты разведочного анализа говорят в пользу некоторой модели, то ее правильность можно затем проверить, применив ее к новым данных и определив степень ее согласованности с данными (проверка "способности к прогнозированию"). Для быстрого выделения различных подмножеств данных (например, для очистки, проверки и пр.) и оценки надежности результатов удобно пользоваться условиями выбора наблюдений.

 



Дата добавления: 2020-10-25; просмотров: 436;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.01 сек.