Выбор параметров линейной регрессии (процедура пошагового отбора)
При построении регрессии для подбора наиболее подходящих параметров используется либо метод включений, либо метод исключений.
Смысл метода включений:
1) По матрице корреляций выбирается параметр, коэффициент корреляции которого с зависимой переменной (Y) – наибольший
2) Строится парная регрессия Y на этот параметр .
3) Если коэффициент линейной регрессии значим, т.е. р<0,05, то параметр остается а
4) Берется следующий параметр.
5) Строится регрессия Y на
Оценивается значимость коэффициентов.
Если коэффициент при соответствующем параметре незначим, параметр исключают .
Если не значим – смотри пункт 4)
7) После рассмотрения последнего параметра должна получиться многомерная регрессия, у которой вес параметры значимы.
8) Рассматриваем более детально не вошедшие в модель параметры и пытаемся определить, с чем связано их не влияние: либо неудачная выборка, либо неправильно определен параметр, либо не включенные параметры влияют только во взаимодействии с другими параметрами.
Смысл метода исключений:
1) Строим регрессию Y на все параметры X
2) Исключаем самый незначимый параметр.
3) Строим новую регрессию Y
По окончании процедуры должна получиться регрессия , где все параметры значимы.
Рассмотрим более детально не вошедшие в модель параметры.
Выбросы – в экономике ими называются резко отличающиеся от других значения.
цена
№1 №2
№3
время работы
Если рассматривать мобильные телефоны, зависимость цены от времени работы, то №1, №2, №3 – считаются выбросами, т.к. №1 и №2 имеют слишком большую цену, а у №3 при самом большом времени работы самая маленькая цена.
5%-10% от выборки.
Встает проблема определения выбросов.
Существует множество процедур определения выбросов. Рассмотрим один из них.
Рассмотрим зависимость Y от параметров
Y -----------------
-------------------
Для определения того, является ли значение выбросом или нет, используют следующее: строят интервал следующего вида: математическое ожидание параметра минус два стандартных отклонения : -левая граница
-правая граница
Те значения параметра, которые не попадут в этот интервал, считаются выбросами.
Если при построении регрессии параметров несколько, то сначала по каждому из параметров определяются номера выбросов, а затем либо все они считаются выбросами, либо только наиболее часто встречаемые номера.
Обязательное условие этой процедуры – это пояснение, почему то или иное наблюдение является выбросом.
Дата добавления: 2022-05-27; просмотров: 137;