Оценка параметров линейного уравнения множественной регрессии
Рассмотрим три метода расчета параметров множественной линейной регрессии.
1. Матричный метод. Представим данные наблюдений и параметры модели в матричной форме.
- вектор – столбец наблюдений зависимой переменной;
- вектор – столбец параметров уравнения регрессии (3);
- n – мерный вектор – столбец отклонений выборочных значений yi от значений , получаемых по уравнению (4).
Для удобства записи столбцы записаны как строки и поэтому снабжены штрихом для обозначения операции транспонирования.
Наконец, значения независимых переменных запишем в виде прямоугольной матрицы размерности :
Каждому столбцу этой матрицы отвечает набор из n значений одного из факторов, а первый столбец состоит из единиц, которые соответствуют значениям переменной при свободном члене.
В этих обозначениях эмпирическое уравнение регрессии выглядит так:
(6)
Отсюда вектор остатков регрессии можно выразить таким образом:
(7)
Таким образом, функционал , который, собственно, и минимизируется по МНК, можно записать как произведение вектора – строки е’ на вектор – столбец е:
(8)
В соответствии с МНК дифференцирование Q по вектору В приводит к выражению:
(9)
которое для нахождения экстремума следует приравнять к нулю. В результате преобразований получаем выражение для вектора параметров регрессии:
10)
Здесь - матрица, обратная к .
Пример. Бюджетное обследование пяти случайно выбранных семей дало следующие результаты (в тыс. руб.):
Семья | Накопления, S | Доход, Y | Имущество, W |
3,5 | |||
1,5 |
Оценить регрессию S на Y и W.
Введем обозначения:
S=[3;6;5;3,5;1,5]’ – вектор наблюдений зависимой переменной;
B=[a;b1;b2]’ – вектор параметров уравнения регрессии;
- матрица значений независимых переменных.
Далее с помощью матричных операций вычисляем (используем табличный процессор MS Excel и функции ТРАНСП, МУМНОЖ и МОБР в нем):
Регрессионная модель в скалярном виде:
Скалярный метод. При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии:
(11)
Решить эту систему можно любым подходящим способом, например, методом определителей или методом Гаусса.
Рассмотрим пример, приведенный выше. Здесь для двух факторов, Y и W, система нормальных уравнений запишется так:
Рассчитываем значения сумм, получаем:
Рассчитаем значения определителей этой системы, используем функцию МОПРЕД в Excel:
Отсюда получим оценки параметров модели:
Регрессионная модель в стандартизованном масштабе. Уравнение регрессии в стандартизованном масштабе имеет вид:
(12)
где - стандартизованные переменные:
(13)
для которых среднее значение равно нулю: , а среднее квадратическое отклонение равно единице: ; βj – стандартизованные коэффициенты регрессии, или β – коэффициенты (не следует путать их с параметрами уравнения (2)).
Применяя МНК к уравнению (12), после соответствующих преобразований получим систему нормальных уравнений:
(14)
В этой системе - элементы расширенной матрицы парных коэффициентов корреляции или, другими словами, коэффициенты парной корреляции между различными факторами или между факторами и результативным признаком. Имея измеренные значения всех переменных, вычислить матрицу парных коэффициентов корреляции на компьютере не составляет большого труда, используя, например, табличный процессор MS Excel или программу Statistica.
Решением системы (14) определяются β-коэффициенты. Эти коэффициенты показывают, на сколько значений с.к.о. изменится в среднем результат, если соответствующий фактор хj изменится на одну с.к.о. при неизменном среднем уровне других факторов. Поскольку все переменные заданы как центрированные и нормированные, β – коэффициенты сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии, в отличие от коэффициентов обычной регрессии, которые несравнимы между собой.
Пусть функция издержек производства y (тыс. руб.) характеризуется уравнением вида:
где факторами являются основные производственные фонды (тыс. руб.) и численность занятых в производстве (чел.). Отсюда видно, что при постоянной занятости рост стоимости основных производственных фондов на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение числа занятых на одного человека при неизменной технической оснащенности приводит к росту затрат в среднем на 1,1 тыс. руб.. Однако это не означает, что первый фактор сильнее влияет на издержки производства по сравнению со вторым. Такое сравнение возможно, если обратиться к уравнению регрессии в стандартизованном масштабе. Пусть оно выглядит так:
Это означает, что с ростом первого фактора на одно с.к.о. при неизменном числе занятых затраты на продукцию увеличиваются в среднем на 0,5 с.к.о. Так как β1<β2 (0,5<0,8), то можно заключить, что большее влияние на производство продукции оказывает второй фактор, а не первый, как кажется из уравнения регрессии в натуральном масштабе.
В парной зависимости стандартизованный коэффициент регрессии есть не что иное, как линейный коэффициент корреляции r. Подобно тому, как в парной зависимости коэффициенты регрессии и корреляции связаны между собой, так и во множественной регрессии коэффициенты «чистой» регрессии bj связаны с β – коэффициентами:
(15)
Это позволяет от уравнения регрессии в стандартизованном масштабе:
(16)
переходить к уравнению регрессии в натуральном масштабе (4). Параметр а определяется так:
(17)
Свободный член в уравнении (16) отсутствует, поскольку все стандартизованные переменные имеют нулевое среднее значение.
Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет использовать их при отсеве факторов – из модели исключаются факторы с наименьшим значением βj.
В заключение приведем расчет стандартизованного уравнения регрессии по данным рассмотренного выше числового примера. Используя функцию КОРРЕЛ в Excel, рассчитаем расширенную матрицу парных коэффициентов корреляции:
в которой последний столбец состоит из элементов и соответственно, а неединичные элементы в первых двух столбцах соответствуют . Эта матрица является расширенной матрицей системы уравнений для определения β – коэффициентов:
Решаем систему методом определителей, получаем:
Δ=0,926291; Δ1=0,688461; Δ2=-0,44504;
β1=0,688461/0,926291=0,743245;
β2=-0,44504/0,926291=-0,48045;
Тогда стандартизованное уравнение регрессии запишется так:
Отсюда видно, что первый фактор оказывает большее воздействие на результат, чем второй (|β1|>|β2|), однако эта разница не так велика, как для коэффициентов в натуральном масштабе (0,1229 и –0,0294). От этого уравнения можно перейти к уравнению в натуральном масштабе. Для этого с помощью функции СТАНДОТКЛОН в Excel определим стандартные отклонения всех переменных:
а с помощью функции СРЗНАЧ – средние значения:
Далее определяем оценки параметров:
Эти значения оценок совпадают с оценками, полученными ранее.
Дата добавления: 2016-07-27; просмотров: 3807;