Метод главных компонент


 

В компонентном анализе вычисляются главные компоненты, т.е. некоррелированные комбинации исходных показателей, сохраняющие их общую дисперсию без изменений.

Определение главных компонент (ГК) производится по корреляционной матрице исходных показателей. Результатом компонентного анализа на ЭВМ являются дисперсии главных компонент, их доли в общей дисперсии и сами главные компоненты.

Другими словами, метод главных компонент (МГК) позволяет по заданной (вычисленной) m–мерной корреляционной матрице R исходных показателей найти новую ортогональную m–мерную систему координат и именно так, чтобы максимум полной дисперсии лежал в направлении первой главной оси, а максимум оставшийся дисперсии – в направлении второй главной оси и т.д.

Процедуру вычисления последовательностей осей можно прекратить в любом месте и, например, выбрать только две первые главные компоненты, которые воспроизводят, например, лишь 80% полной дисперсии.

Главные компоненты представляют собой новое множество показателей .

До определения главных компонент следует центрировать и нормализовать исходные данные.

Так как величины могут иметь различный физический смысл и различные шкалы измерений, удобнее перейти к стандартизированной матрице исходных данных .

Переход осуществляется по формуле:

Для стандартизованных переменных легко вычисляются все основные числовые характеристики:

Каждый стандартизованный показатель имеет нулевое среднее значение, единичную дисперсию и безразмерен, что облегчает его интерпретацию.

Пусть – корреляционная матрица стандартизованный показателей. Тогда, в соответствии с определением, дисперсия вектора равна

Необходимо найти вектор–столбец , который максимизирует эту дисперсию при условии которое обеспечивает единственность решения.

Выражение для дисперсии можно переписать в эквивалентной форме в виде скалярного произведения

Решением этого соотношения является максимальное собственное значение матрицы и соответствующий ему собственный вектор .

Аналогично находятся остальные ГК.

Таким образом, первые главных компонент объясняют

процентов дисперсии исходных переменных.

На практике обычно ограничиваются таким числом компонент, при котором .

При этом условии число ГК получается значительно меньшим числа исходных показателей, что облегчает процесс анализа данных.

Коэффициенты главных компонент определяются по формуле

где – максимальное собственное значение матрицы и соответствующий ему собственный вектор применительно к j–й ГК.

Исходя из значений коэффициентов главных компонент можно ранжировать факторы по степени их значимости в главной компоненте.

Можно вычислить индивидуальные значения главных компонент (для каждого наблюдения) и использовать их в дальнейшем для построения уравнения регрессии для исходных показателей.

 

Факторный анализ

 

Факторный анализ (ФА) – это способ приведения (синтеза) множества непосредственно наблюдаемых показателей Xj = {xij}, (i = 1,2,...,n; j = 1,2,...,m) к меньшему числу Q < m новых линейно независимых факторов (признаков, показателей) Yq, (q = 1, 2, 3, ..., Q).

Пусть исходные данные представлены в виде матрицы X = {xij}, (i = 1, 2, ..., n; j = 1, 2, ..., m), где n – количество наблюдений, m – количество показателей).

Так как величины Xj могут иметь различный физический смысл и различные шкалы измерений, удобнее перейти к стандартизированной матрице исходных данных X* = {x*ij}.

 

Здесь каждый показатель X*j имеет нулевое среднее значение и единичную дисперсию.

В факторном анализе предполагается линейная связь между измеряемыми показателями и факторами:

,

где – подлежащиe определению коэффициенты.

Справедливо соотношение

где – соответственно общность и специфичность j–го показателя.

Это равенство выполняется при условии, что переменные стандартизированы и не коррелированы и в основу положена линейная модель.

Проблема общности состоит в определении доли дисперсии показателя, обусловленной общностью.

Оценка hj2 должна быть определена до выделения факторов, что и составляет проблему.

Проблема факторов состоит в установлении числа и вида осей координат, необходимых для отображения m переменных. Здесь применяются три основные модели: модель главных компонент, модель центроидных компонент и факторная модель.

При любых способах решения проблемы факторов вводятся различные ограничения для того, чтобы однозначно определить систему равенств R = А AT + U2, где AT – транспонированная матрица факторных нагрузок.

Процедура выделения факторов имеет бесконечно много эквивалентных решений, которые одинаково хорошо удовлетворяют равенству Rh = А AT.

При решении проблемы вращения речь идет о том, чтобы в уже установленном нами пространстве общих факторов дать каждой переменной наиболее простое факторное объяснение (максимальные нагрузки для одних факторов, минимальные для других).

Конечным результатом факторного анализа является получение содержательно интерпретируемых факторов, воспроизводящих матрицу коэффициентов корреляции между переменными.

Для отдельного наблюдения (объекта) имеем

Здесь yiq – значение фактора q у i–го объекта.

Измерение факторов осуществляется, исходя из равенства:

Y = ATX;

Существенное отличие МГК от факторного анализа заключается в том, что диагональные элементы матрицы R, используемые в МГК, каждый раз равны единице. Это означает, что общности равны единице, т.е. характерные факторы отсутствуют.



Дата добавления: 2022-05-27; просмотров: 116;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.009 сек.