Проста регресія в контексті множинної регресії
Припущення (5.1.6) класичної лінійної регресії стверджує, що модель регресії коректно специфікована, тобто помилка зсуву внаслідок неправильної специфікації відсутня. Наведені в попередніх розділах відомості дозволяють пояснити це твердження.
Припустимо, що (5.5.7) є “істинна” модель, що пояснює рівень дійсної інфляції за допомогою рівня безробіття й рівня очікуваної інфляції. Водночас припустимо, що хтось застосовує таку модель регресії:
,
| (5.6.1) |
де Yt – дійсний на момент часу t рівень інфляції; Х2t – рівень безробіття на той же момент часу;
– залишковий складова. Кутовий коефіцієнт b12 визначає зміну середнього рівня інфляції, викликану одиничною зміною рівня безробіття.
Оскільки «істинною моделлю» є (5.6.1), та рівність (5.6.1) має помилку специфікації, яка полягає у відсутності в моделі змінної Х3 очікуваного рівня інфляції.
Ми знаємо, що
у множинній регресії (5.5.7) є незміщеною оцінкою
, тобто
. Чи може коефіцієнт b12 простої регресії Y по Х2 також бути незміщеною оцінкою
? Тобто чи виконуватиметься
? У термінах нашого прикладу це питання можна сформулювати таким чином. Чи буде коефіцієнт рівня безробіття в (5.6.1) давати незміщену оцінку істинного впливу на рівень інфляції, якщо ми знаємо, що в рівняння не включена змінна Х3 (очікуваний рівень інфляції)? У загальному випадку відповідь звучить так: b12 не буде незміщеною оцінкою
. Крім того, var(b12) може бути зміщеною оцінкою
. Можна показати, що насправді виконується рівність
,
| (5.6.2) |
де b32 – кутовий коефіцієнт у регресії Х3 за Х2, тобто
.
| (5.6.3) |
Із (5.6.2) можна отримати рівність
.
| (5.6.4) |
За даними вибірки b23 обчислюється за формулою
.
|
Як бачимо з рівняння (5.6.3), у випадку
коефіцієнт b12 є зміщеною оцінкою
. Якщо
, то зсув буде у бік завищення, а у випадку
– у бік заниження.
Із цього випливає, що згідно з (5.6.2), коефіцієнт простої регресії b12 враховує не тільки «прямий», або «нетто», вплив Х2 на Y (при фіксованому значенні впливу Х3), але й непрямий вплив на Y через невключену змінну Х3. Коротше кажучи, b13 визначає «загальний ефект» (прямий + непрямий) Х2 на Y, тоді як
позначає тільки прямий ефект впливу Х2 на Y, оскільки вплив Х3 зберігається фіксованим.
Зі сказаного вище робимо висновок: загальний ефект Х2 на Y (=b12) складається з прямого (=b2) та непрямого (=b3b32) ефекту Х2 на Y.
У визначеннях нашого прикладу це звучить таким чином. Загальний вплив одиничної зміни рівня безробіття на дійсний рівень інфляції складається з прямого впливу (при фіксованому рівні очікуваної інфляції) і непрямого ефекту через дію безробіття на очікуваний рівень інфляції. Цей результат може бути пояснений за допомогою діаграми (рис.5.2).

Рис. 5.2. Прямий і непрямий ефекти Х2 на Y
Проілюструємо теоретичне міркування на прикладі кривої Філіпса.
Використовуючи дані табл.5.1, одержуємо для моделі (5.6.1) такі результати:
(4,2853) (0,6304)
t = (1,4298) (0,3885) R2=0,135.
| (5.6.5) |
Несподіваним в (5.6.5) є те, що b12=0.2448 не тільки має позитивний знак (позитивний кутовий коефіцієнт кривої Філіпса), але також мало відрізняється від нуля. Водночас у (5.6.2) ми бачимо, що
не тільки має очікуваний негативний знак, але й статистично значно відрізняється від нуля, що пояснюється непрямим ефектом доданку b3b32 з (5.6.4). Із (5.5.8) ми знаємо, що
. Для знаходження b32 виконаємо регресію (5.6.2) за наявними даними:
(2,7267) (0,4011)
t = (–0,2659) (2,7769), r=0,4120.
| (5.6.6) |
Значення b32=1,1138 позначає, що збільшення Х2 на одиницю приводить до зростання (в середньому) Х3 приблизно на 1,11 одиниць. Але якщо на цю величину зросте Х3, то її дія на Y буде
. Отже, з (5.6.2) ми маємо остаточно
.
|
Із наведених міркувань можна зробити такий висновок. Якщо з якоїсь причини ухвалити рішення про застосування моделі тривимірної регресії, не слід звертатися до найпростішої двовимірної регресії. У більш загальному випадку це звучить так. Якщо ви віддали перевагу конкретній моделі регресії і вважаєте її «істинною», то не слід модифікувати її шляхом виключення з моделі якої-небудь змінної. Якщо ви знехтуєте цією рекомендацією, то отримаєте зміщені оцінки параметрів. Крім того, ви можете отримати хибне значення
і некоректні довірчі інтервали для параметрів регресії. Звернемо увагу, що стандартна похибка коефіцієнта
в моделі (5.5.8) набагато менша (у порівнянні з величиною
), ніж у моделі (5.6.5). Тому довірчі інтервали й перевірка гіпотез на підставі (5.5.8) мають більший ступінь довіри, ніж за моделлю (5.6.5).
5.7. R2і скорегований R2
Коефіцієнт детермінації R2 є неспадна функція від кількості пояснювальних змінних або регресорів у моделі. При збільшенні кількості регресорів R2 майже неминуче зростає і ніколи не спадає. Інакше кажучи, додавання змінної Х до моделі не зменшить R2. Щоб переконатися в цьому, пригадаємо визначення коефіцієнта детермінації:
.
| (5.7.1) |
Величина
не залежить від кількості змінних Х у моделі, оскільки це просто
. Величина RSS
, проте, залежить від кількості присутніх у моделі регресорів. Зрозуміло, що при зростанні кількості змінних Х величина
повинна спадати (принаймні не зростати). Отже, R2 зростатиме. Враховуючи це, при порівнянні двох моделей регресії з однаковою залежною змінною, але різною кількістю змінних Х, потрібно бути дуже обережними з наданням переваги моделі з більш високим R2.
Порівнюючи два коефіцієнти детермінації R2, потрібно обов’язково враховувати кількість регресорів Х, присутніх у моделі. Це можна зробити, якщо скористатися визначенням альтернативного коефіцієнта детермінації, обчислюваного за такою формулою:
,
| (5.7.2) |
де k – кількість параметрів у моделі (для моделі з трьома змінними k=3). Визначений таким чином коефіцієнт детермінації називається скоректованим R2 і позначається
. Термін «скорегований» позначає скоректованість за кількістю степенів вільності, пов’язаних із сумами квадратів, що входять в (5.7.2).
має (N–k) степенів вільності. У разі моделі з трьома змінними ми знаємо, що
має (N–3) степенів вільності.
Рівняння (5.7.2) можна також переписати у вигляді
,
| (5.7.3) |
де
– дисперсія залишків, а
– вибіркова дисперсія Y:
.
Легко показати, що R2 і
пов’язані між собою співвідношенням
.
| (5.7.4) |
Цю рівність можна отримати, якщо підставити (5.7.1) у (5.7.2). Із (5.7.4) бачимо, що для k>1
, а це означає, що при збільшенні змінних Х
зростає меншою мірою, ніж R2. Крім того,
може набувати й негативних значень, тоді як
завжди позитивний. У прикладних задачах у випадках, коли
виявляється негативним, його вважають таким, що дорівнює нулю. Для розглянутого нами прикладу кривої Філіпса маємо
, а
.
Порівняння величин R2
У першу чергу дуже важливо відзначити, що при порівнянні моделей на основі значень коефіцієнтів детермінації, як нескоректованих, так і скоректованих, повинні бути однаковими об’єми вибірки N і одними й тими ж залежні змінні. Пояснювальні змінні можуть бути будь-якого вигляду. Так, для моделей
;
| (5.7.5) |
| (5.7.6) |
не можна порівнювати підраховані
. Причина полягає в тому, що за визначенням
визначає частину дисперсії залежної змінної, поясненої за рахунок пояснювальних змінних, отже, в (5.7.5)
виміряє частину в дисперсії
, пояснену за рахунок Х2 і Х3, а в (5.7.6) це частина в дисперсії
, пояснена тими ж змінними. Зрозуміло, що це різні речі. Раніше ми відзначали, що змінювання
дає відносне змінювання Y, тоді як змінювання Y є абсолютним змінюванням. Отже,
не одне й те ж, що
. Тому коефіцієнти детермінації (5.7.5) і (5.7.6) не можна порівнювати.
Якщо ми звернемося до функції попиту на каву (2.7.1):
;
, ;
, , ;
, ,
|
що являє собою лінійну модель, і функції попиту (6.4.5):
R2=0,7448
(0,0152) (0,0494) F1,9=26,27
t = (51,0045) (–5,1251),
|
що представляє Log-Lin – модель, то порівнювати їх коефіцієнти детермінації безпосередньо не можна. Як же все-таки порівнювати величини
для моделей вигляду (3.7.1) і (6.4.5)? Покажемо це на прикладі функції попиту на каву.
Для порівняння коефіцієнтів детермінації, отриманих із моделей із різним видом залежної змінної, як, наприклад, у моделях (3.7.1) і (6.4.5), можна застосувати два способи.
1. За відомим значенням
у моделі (6.4.5) знаходимо
, а потім підраховуємо
між
і
за формулою (2.5.14):
.
|
Підрахований таким чином
можна порівнювати з коефіцієнтом детермінації з моделі (6.4.5).
2. Підраховуємо за відомими
з моделі (3.7.1)
і
, обчислюємо
між ними. Цей коефіцієнт детермінації можна порівнювати з
із моделі (6.4.5).
Припустимо, що ми спочатку вирішили порівнювати величину
лінійної моделі (3.7.1) з величиною
подвійної логарифмічної моделі (6.4.5). Використаємо значення
моделі (3.7.1) і знайдемо за ними
, а потім за фактичними значеннями
знайдемо
. За отриманими значеннями
і
ми можемо підрахувати
, наприклад, за формулою
.
|
Використовуючи дані, наведені в (5) і (6) стовпцях табл. 2.1, можна підрахувати за цією формулою величину
. Отримуємо
. Цю величину
вже можна порівняти зі значенням
з подвійної логарифмічної моделі. Порівняння цих величин виявляється на користь логарифмічної моделі.
Якщо ж ми хочемо порівняти величину
із подвійної логарифмічної моделі з
із лінійної моделі, то необхідно за значеннями
з моделі (6.4.5) обчислити
, а потім за цими значеннями і
обчислити
. Використовуючи дані (4) і (1) стовпців табл. 2.1, знаходимо
. Це значення
вже можна порівнювати зі значенням коефіцієнта детермінації з лінійної моделі
. Як і раніше, подвійна логарифмічна модель має високий коефіцієнт детермінації.
На закінчення зробимо таке зауваження. Іноді дослідник прагне збільшити
, тобто вибрати ту модель, яка має найвищий
. Це не правильно, оскільки в регресійному аналізі нашою метою є не отримання за будь-яку ціну високого
, а отримання надійних оцінок істинних коефіцієнтів популяцій регресії, що дають можливість зробити статистичні висновки. В емпіричному аналізі часто виникає ситуація, коли
має високі значення, а при цьому деякі коефіцієнти регресії виявляються статистично незначущими або ж мають знак, протилежний очікуваному. Отже, дослідник повинен більше зосереджуватися на логічному або теоретичному зв’язку між пояснюваним і пояснювальними змінними та їх статистичній значущості. Якщо при цьому ми отримаємо високе значення
, то тим краще. Однак, якщо
малий, то це не означає, що наша модель обов’язково погана.
Дата добавления: 2016-07-27; просмотров: 1917;

,
,
.
.
.
(4,2853) (0,6304)
t = (1,4298) (0,3885) R2=0,135.
(2,7267) (0,4011)
t = (–0,2659) (2,7769), r=0,4120.
.
.
,
,
.
;
;
,
;
,
,
;
,
,
R2=0,7448
(0,0152) (0,0494) F1,9=26,27
t = (51,0045) (–5,1251),
.










