Парная нелинейная регрессия и корреляция
До сих пор мы рассматривали лишь линейную модель регрессионной зависимости y от x (3). В то же время многие важные связи в экономике являются нелинейными. Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом, капиталом и т.п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары – с другой).
При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.
Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:
, (34)
к которой обычный МНК можно применять без всякой предварительной линеаризации.
Рассмотрим указанную процедуру применительно к параболе второй степени:
(35)
Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.
Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений:
(36)
Решать эту систему можно любым способом, в частности, методом определителей.
В нелинейных зависимостях, не являющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.
Зависимости гиперболического типа имеют вид:
(37)
Примером такой зависимости является кривая Филлипса, констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля. Другим примером зависимости (37) являются кривые Энгеля, формулирующие следующую закономерность: с ростом доходов доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае b<0, а результативный признак в (37) показывает долю расходов на непродовольственные товары.
Линеаризация уравнения (37) сводится к замене фактора z=1/x, и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z:
(38)
К такому же линейному уравнению сводится полулогарифмическая кривая:
(39)
которая может быть использована для описания кривых Энгеля. Здесь ln(x) заменяется на z, и получается уравнение (38).
Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде:
(40)
или в виде
(41)
Возможна и такая зависимость:
(42)
В регрессиях типа (40) – (42) применяется один и тот же способ линеаризации – логарифмирование. Уравнение (40) приводится к виду:
(43)
Замена переменной сводит его к линейному виду:
, (44)
где . Если Е удовлетворяет условиям Гаусса-Маркова, параметры уравнения (40) оцениваются по МНК из уравнения (44). Уравнение (41) приводится к виду:
, (45)
который отличается от (43) только видом свободного члена, и линейное уравнение выглядит так:
, (46)
где . Параметры А и b получаются обычным МНК, затем параметр a в зависимости (41) получается как антилогарифм А. При логарифмировании (42) получаем линейную зависимость:
, (47)
где , а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (42) получается как антилогарифм коэффициента В.
Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида:
(48)
особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х. Преобразуя (48) путем логарифмирования, получаем линейную регрессию:
(49)
где .
Еще одним видом нелинейности, приводимым к линейному виду, является обратная зависимость:
(50)
Проводя замену u=1/y, получим:
(51)
Наконец, следует отметить зависимость логистического типа:
(52)
Графиком функции (52) является так называемая «кривая насыщения», которая имеет две горизонтальные асимптоты y=0 и y=1/a и точку перегиба , а также точку пересечения с осью ординат y=1/(a+b):
Уравнение (52) приводится к линейному виду заменами переменных .
Любое уравнение нелинейной регрессии, как и линейной зависимости, дополняется показателем корреляции, который в данном случае называется индексом корреляции:
(53)
Здесь - общая дисперсия результативного признака y, - остаточная дисперсия, определяемая по уравнению нелинейной регрессии . Следует обратить внимание на то, что разности в соответствующих суммах и берутся не в преобразованных, а в исходных значениях результативного признака. Иначе говоря, при вычислении этих сумм следует использовать не преобразованные (линеаризованные) зависимости, а именно исходные нелинейные уравнения регрессии. По-другому (53) можно записать так:
(54)
Величина R находится в границах , и чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии. При этом индекс корреляции совпадает с линейным коэффициентом корреляции в случае, когда преобразование переменных с целью линеаризации уравнения регрессии не проводится с величинами результативного признака. Так обстоит дело с полулогарифмической и полиномиальной регрессий, а также с равносторонней гиперболой (37). Определив линейный коэффициент корреляции для линеаризованных уравнений, например, в пакете Excel с помощью функции ЛИНЕЙН, можно использовать его и для нелинейной зависимости.
Иначе обстоит дело в случае, когда преобразование проводится также с величиной y, например, взятие обратной величины или логарифмирование. Тогда значение R, вычисленное той же функцией ЛИНЕЙН, будет относиться к линеаризованному уравнению регрессии, а не к исходному нелинейному уравнению, и величины разностей под суммами в (54) будут относиться к преобразованным величинам, а не к исходным, что не одно и то же. При этом, как было сказано выше, для расчета R следует воспользоваться выражением (54), вычисленным по исходному нелинейному уравнению.
Поскольку в расчете индекса корреляции используется соотношение факторной и общей СКО, то R2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R2 для нелинейных связей называют индексом детерминации.
Оценка существенности индекса корреляции проводится так же, как и оценка надежности надёжности коэффициента корреляции.
Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:
, (55)
где n-число наблюдений, m-число параметров при переменных х. Во всех рассмотренных нами случаях, кроме полиномиальной регрессии, m=1, для полиномов (34) m=k, то есть степени полинома. Величина m характеризует число степеней свободы для факторной СКО, а (n-m-1) – число степеней свободы для остаточной СКО.
Индекс детерминации R2 можно сравнивать с коэффициент детерминации r2 для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем больше разница между R2 и r2. Близость этих показателей означает, что усложнять форму уравнения регрессии не следует и можно использовать линейную функцию. Практически, если величина (R2-r2) не превышает 0,1, то линейная зависимость считается оправданной. В противном случае проводится оценка существенности различия показателей детерминации, вычисленных по одним и тем же данным, через t-критерий Стьюдента:
(56)
Здесь в знаменателе находится ошибка разности (R2-r2), определяемая по формуле:
(57)
Если , то различия между показателями корреляции существенны и замена нелинейной регрессии линейной нецелесообразна.
В заключение приведем формулы расчета коэффициентов эластичности для наиболее распространенных уравнений регрессии:
Вид уравнения регрессии | Коэффициент эластичности |
Тема 29. Модель множественной регрессии.
Дата добавления: 2016-07-27; просмотров: 5996;