Проста регресія в контексті множинної регресії
Припущення (5.1.6) класичної лінійної регресії стверджує, що модель регресії коректно специфікована, тобто помилка зсуву внаслідок неправильної специфікації відсутня. Наведені в попередніх розділах відомості дозволяють пояснити це твердження.
Припустимо, що (5.5.7) є “істинна” модель, що пояснює рівень дійсної інфляції за допомогою рівня безробіття й рівня очікуваної інфляції. Водночас припустимо, що хтось застосовує таку модель регресії:
, | (5.6.1) |
де Yt – дійсний на момент часу t рівень інфляції; Х2t – рівень безробіття на той же момент часу; – залишковий складова. Кутовий коефіцієнт b12 визначає зміну середнього рівня інфляції, викликану одиничною зміною рівня безробіття.
Оскільки «істинною моделлю» є (5.6.1), та рівність (5.6.1) має помилку специфікації, яка полягає у відсутності в моделі змінної Х3 очікуваного рівня інфляції.
Ми знаємо, що у множинній регресії (5.5.7) є незміщеною оцінкою , тобто . Чи може коефіцієнт b12 простої регресії Y по Х2 також бути незміщеною оцінкою ? Тобто чи виконуватиметься ? У термінах нашого прикладу це питання можна сформулювати таким чином. Чи буде коефіцієнт рівня безробіття в (5.6.1) давати незміщену оцінку істинного впливу на рівень інфляції, якщо ми знаємо, що в рівняння не включена змінна Х3 (очікуваний рівень інфляції)? У загальному випадку відповідь звучить так: b12 не буде незміщеною оцінкою . Крім того, var(b12) може бути зміщеною оцінкою . Можна показати, що насправді виконується рівність
, | (5.6.2) |
де b32 – кутовий коефіцієнт у регресії Х3 за Х2, тобто
. | (5.6.3) |
Із (5.6.2) можна отримати рівність
. | (5.6.4) |
За даними вибірки b23 обчислюється за формулою
. |
Як бачимо з рівняння (5.6.3), у випадку коефіцієнт b12 є зміщеною оцінкою . Якщо , то зсув буде у бік завищення, а у випадку – у бік заниження.
Із цього випливає, що згідно з (5.6.2), коефіцієнт простої регресії b12 враховує не тільки «прямий», або «нетто», вплив Х2 на Y (при фіксованому значенні впливу Х3), але й непрямий вплив на Y через невключену змінну Х3. Коротше кажучи, b13 визначає «загальний ефект» (прямий + непрямий) Х2 на Y, тоді як позначає тільки прямий ефект впливу Х2 на Y, оскільки вплив Х3 зберігається фіксованим.
Зі сказаного вище робимо висновок: загальний ефект Х2 на Y (=b12) складається з прямого (=b2) та непрямого (=b3b32) ефекту Х2 на Y.
У визначеннях нашого прикладу це звучить таким чином. Загальний вплив одиничної зміни рівня безробіття на дійсний рівень інфляції складається з прямого впливу (при фіксованому рівні очікуваної інфляції) і непрямого ефекту через дію безробіття на очікуваний рівень інфляції. Цей результат може бути пояснений за допомогою діаграми (рис.5.2).
Рис. 5.2. Прямий і непрямий ефекти Х2 на Y
Проілюструємо теоретичне міркування на прикладі кривої Філіпса.
Використовуючи дані табл.5.1, одержуємо для моделі (5.6.1) такі результати:
(4,2853) (0,6304) t = (1,4298) (0,3885) R2=0,135. | (5.6.5) |
Несподіваним в (5.6.5) є те, що b12=0.2448 не тільки має позитивний знак (позитивний кутовий коефіцієнт кривої Філіпса), але також мало відрізняється від нуля. Водночас у (5.6.2) ми бачимо, що не тільки має очікуваний негативний знак, але й статистично значно відрізняється від нуля, що пояснюється непрямим ефектом доданку b3b32 з (5.6.4). Із (5.5.8) ми знаємо, що . Для знаходження b32 виконаємо регресію (5.6.2) за наявними даними:
(2,7267) (0,4011) t = (–0,2659) (2,7769), r=0,4120. | (5.6.6) |
Значення b32=1,1138 позначає, що збільшення Х2 на одиницю приводить до зростання (в середньому) Х3 приблизно на 1,11 одиниць. Але якщо на цю величину зросте Х3, то її дія на Y буде . Отже, з (5.6.2) ми маємо остаточно
. |
Із наведених міркувань можна зробити такий висновок. Якщо з якоїсь причини ухвалити рішення про застосування моделі тривимірної регресії, не слід звертатися до найпростішої двовимірної регресії. У більш загальному випадку це звучить так. Якщо ви віддали перевагу конкретній моделі регресії і вважаєте її «істинною», то не слід модифікувати її шляхом виключення з моделі якої-небудь змінної. Якщо ви знехтуєте цією рекомендацією, то отримаєте зміщені оцінки параметрів. Крім того, ви можете отримати хибне значення і некоректні довірчі інтервали для параметрів регресії. Звернемо увагу, що стандартна похибка коефіцієнта в моделі (5.5.8) набагато менша (у порівнянні з величиною ), ніж у моделі (5.6.5). Тому довірчі інтервали й перевірка гіпотез на підставі (5.5.8) мають більший ступінь довіри, ніж за моделлю (5.6.5).
5.7. R2і скорегований R2
Коефіцієнт детермінації R2 є неспадна функція від кількості пояснювальних змінних або регресорів у моделі. При збільшенні кількості регресорів R2 майже неминуче зростає і ніколи не спадає. Інакше кажучи, додавання змінної Х до моделі не зменшить R2. Щоб переконатися в цьому, пригадаємо визначення коефіцієнта детермінації:
. | (5.7.1) |
Величина не залежить від кількості змінних Х у моделі, оскільки це просто . Величина RSS , проте, залежить від кількості присутніх у моделі регресорів. Зрозуміло, що при зростанні кількості змінних Х величина повинна спадати (принаймні не зростати). Отже, R2 зростатиме. Враховуючи це, при порівнянні двох моделей регресії з однаковою залежною змінною, але різною кількістю змінних Х, потрібно бути дуже обережними з наданням переваги моделі з більш високим R2.
Порівнюючи два коефіцієнти детермінації R2, потрібно обов’язково враховувати кількість регресорів Х, присутніх у моделі. Це можна зробити, якщо скористатися визначенням альтернативного коефіцієнта детермінації, обчислюваного за такою формулою:
, | (5.7.2) |
де k – кількість параметрів у моделі (для моделі з трьома змінними k=3). Визначений таким чином коефіцієнт детермінації називається скоректованим R2 і позначається . Термін «скорегований» позначає скоректованість за кількістю степенів вільності, пов’язаних із сумами квадратів, що входять в (5.7.2). має (N–k) степенів вільності. У разі моделі з трьома змінними ми знаємо, що має (N–3) степенів вільності.
Рівняння (5.7.2) можна також переписати у вигляді
, | (5.7.3) |
де – дисперсія залишків, а – вибіркова дисперсія Y: .
Легко показати, що R2 і пов’язані між собою співвідношенням
. | (5.7.4) |
Цю рівність можна отримати, якщо підставити (5.7.1) у (5.7.2). Із (5.7.4) бачимо, що для k>1 , а це означає, що при збільшенні змінних Х зростає меншою мірою, ніж R2. Крім того, може набувати й негативних значень, тоді як завжди позитивний. У прикладних задачах у випадках, коли виявляється негативним, його вважають таким, що дорівнює нулю. Для розглянутого нами прикладу кривої Філіпса маємо , а .
Порівняння величин R2
У першу чергу дуже важливо відзначити, що при порівнянні моделей на основі значень коефіцієнтів детермінації, як нескоректованих, так і скоректованих, повинні бути однаковими об’єми вибірки N і одними й тими ж залежні змінні. Пояснювальні змінні можуть бути будь-якого вигляду. Так, для моделей
; | (5.7.5) |
(5.7.6) |
не можна порівнювати підраховані . Причина полягає в тому, що за визначенням визначає частину дисперсії залежної змінної, поясненої за рахунок пояснювальних змінних, отже, в (5.7.5) виміряє частину в дисперсії , пояснену за рахунок Х2 і Х3, а в (5.7.6) це частина в дисперсії , пояснена тими ж змінними. Зрозуміло, що це різні речі. Раніше ми відзначали, що змінювання дає відносне змінювання Y, тоді як змінювання Y є абсолютним змінюванням. Отже, не одне й те ж, що . Тому коефіцієнти детермінації (5.7.5) і (5.7.6) не можна порівнювати.
Якщо ми звернемося до функції попиту на каву (2.7.1):
; , ; , , ; , , |
що являє собою лінійну модель, і функції попиту (6.4.5):
R2=0,7448 (0,0152) (0,0494) F1,9=26,27 t = (51,0045) (–5,1251), |
що представляє Log-Lin – модель, то порівнювати їх коефіцієнти детермінації безпосередньо не можна. Як же все-таки порівнювати величини для моделей вигляду (3.7.1) і (6.4.5)? Покажемо це на прикладі функції попиту на каву.
Для порівняння коефіцієнтів детермінації, отриманих із моделей із різним видом залежної змінної, як, наприклад, у моделях (3.7.1) і (6.4.5), можна застосувати два способи.
1. За відомим значенням у моделі (6.4.5) знаходимо , а потім підраховуємо між і за формулою (2.5.14):
. |
Підрахований таким чином можна порівнювати з коефіцієнтом детермінації з моделі (6.4.5).
2. Підраховуємо за відомими з моделі (3.7.1) і , обчислюємо між ними. Цей коефіцієнт детермінації можна порівнювати з із моделі (6.4.5).
Припустимо, що ми спочатку вирішили порівнювати величину лінійної моделі (3.7.1) з величиною подвійної логарифмічної моделі (6.4.5). Використаємо значення моделі (3.7.1) і знайдемо за ними , а потім за фактичними значеннями знайдемо . За отриманими значеннями і ми можемо підрахувати , наприклад, за формулою
. |
Використовуючи дані, наведені в (5) і (6) стовпцях табл. 2.1, можна підрахувати за цією формулою величину . Отримуємо . Цю величину вже можна порівняти зі значенням з подвійної логарифмічної моделі. Порівняння цих величин виявляється на користь логарифмічної моделі.
Якщо ж ми хочемо порівняти величину із подвійної логарифмічної моделі з із лінійної моделі, то необхідно за значеннями з моделі (6.4.5) обчислити , а потім за цими значеннями і обчислити . Використовуючи дані (4) і (1) стовпців табл. 2.1, знаходимо . Це значення вже можна порівнювати зі значенням коефіцієнта детермінації з лінійної моделі . Як і раніше, подвійна логарифмічна модель має високий коефіцієнт детермінації.
На закінчення зробимо таке зауваження. Іноді дослідник прагне збільшити , тобто вибрати ту модель, яка має найвищий . Це не правильно, оскільки в регресійному аналізі нашою метою є не отримання за будь-яку ціну високого , а отримання надійних оцінок істинних коефіцієнтів популяцій регресії, що дають можливість зробити статистичні висновки. В емпіричному аналізі часто виникає ситуація, коли має високі значення, а при цьому деякі коефіцієнти регресії виявляються статистично незначущими або ж мають знак, протилежний очікуваному. Отже, дослідник повинен більше зосереджуватися на логічному або теоретичному зв’язку між пояснюваним і пояснювальними змінними та їх статистичній значущості. Якщо при цьому ми отримаємо високе значення , то тим краще. Однак, якщо малий, то це не означає, що наша модель обов’язково погана.
Дата добавления: 2016-07-27; просмотров: 1654;