Главная Учебники - Разные Лекции (разные) - часть 20
Министерство образования и науки Украины Донецкий Национальный университет Кафедра теории вероятности и математической статистики специальность «математическая экономика» на тему «Анализ модели множественной линейной регрессии»
Донецк 2006 План Введение………………………………………………………………….2 1. Описание модели и предварительный анализ……………………….5 2. Гетероскедастичность 2.1 Гетероскедастичность и ее последствия……………………..6 2.2 Обнаружение гетероскедастичности…………………………7 3. Автокорреляция 3.1 Автокорреляция и ее последствия…………………………...12 3.2 Обнаружение автокорреляции первого порядка: критерий Дарбина-Уотсона……………………………………………..13 4. Мультиколлинеарность 4.1. Мультиколлинеарность и ее последствия…………………..16 4.2 Обнаружение мультиколлинеарности……………………….17 5. Спецификация модели………………………………………………...18 6. Анализ особенностей модели…………………………………………23 7. Список использованной литературы…………………………………24 8. Приложение 1. Исходные данные…………………………………….25 9. Приложение 2. Стандартизированные данные………………………26 10. Приложение 3. Пример применения метода Голдфельда-Квандта……………………………………………………..27 Введение
Множественная линейная регрессия является обобщением парной линейной регрессии на случай, когда зависимая переменная гипотетически связана более чем с одной независимой переменной. Вследствие этого многие элементы анализа множественной линейной регрессии совпадают с элементами анализа парной регрессии (как то оценка дисперсии коэффициентов регрессии, проверка гипотезы об их значимости, вычисление коэффициента детерминации и т.д.) Для множественной линейной регрессии, построенной методом наименьших квадратов, также имеет место теорема Гаусса-Маркова
: Предположим, что 1. 2. 3. 4. тогда оценка метода наименьших квадратов Метод наименьших квадратов применяется в предположении, что кроме условий 1-4 теоремы Гаусса-Маркова выполняются также следующие требования: 5. Модель является линейной относительно параметров; 6.Между объясняющими переменными нет строгой или сильной зависимости; 7. Ошибка Нарушение хотя бы одного из предположений МНК приводит к ухудшению качества модели. В этом случае оценку Не менее важной задачей эконометриста есть правильная спецификация модели (ибо добавление переменной, которая не должна присутствовать в модели, равно как и отсутствие переменной, которая должна содержаться в ней, существенно ухудшает качество модели) и анализ ее особенностей. Этот аспект также будет рассмотрен в данной работе. 1. Описание модели и предварительный анализ
В нашем исследовании этапы анализа множественной парной регрессии будут рассматриваться на примере конкретной модели вида
Данные, на основе которых строится эта модель приведены в Приложении 1. Оценки коэффициентов регрессии, полученные методом наименьших квадратов приведены в Таблице 1.1. Таблица 1.1 b4 b3 b2 b1 b0 0,878172 -0,94682 -0,78627 0,224341 75,57982 Однако вследствие того, что исходные данные выражены в различных единицах измерения, имеет смысл перейти к так называемой стандартизированной форме, т.е. центрировать и нормировать исходные данные (см. Приложение 2). Таким образом мы приводим их к сопоставимому виду. Модель в этом случае будет иметь вид
Коэффициенты для этой новой модели соответственно равны b4stand b3stand b2stand b1stand 0,142938 -0,68549 -0,00833 0,038692 А уравнение множественной линейной регрессии записывается следующим образом
Коэффициент детерминации для данной модели равен 0,689985. Проведена проверка на адекватность с помощью критерия Фишера. Модель признана адекватной. В результате проверки на статистическую значимость выяснилось, что значимым является только коэффициент b3stand. Таким образом, часть стандартной процедуры анализа общая для парной и множественной линейной регрессии завершена, и можно перейти к элементам анализа, более характерным для множественной регрессии. 2. Гетероскедастичность
2.1 Гетероскедастичность и ее последствия
Во втором условии Гаусса—Маркова утверждается, что дисперсия случайного члена в каждом наблюдении должна быть постоянной. Такое утверждение может показаться странным, и здесь требуется пояснение. Случайный член в каждом наблюдении имеет только одно значение, и может возникнуть вопрос о том, что означает его «дисперсия». Имеется в виду его возможное поведение до того, как сделана выборка. Когда мы записываем модель (1.1), первые два условия Гаусса—Маркова указывают, что случайные члены Вместе с тем для некоторых выборок, возможно, более целесообразно предположить, что теоретическое распределение случайного члена является разным для различных наблюдений в выборке. Математически гомоскедастичность и гетероскедастичность могут определяться следующим образом: Для чего вводится требование об отсутствии гетероскедастичности? Во-первых, желательно, чтобы дисперсия МНК оценок была наименьшей, т.е. чтобы они обеспечивали максимальную точность. При отсутствии гетероскедастичности обычные коэффициенты регрессии имеют наиболее низкую дисперсию среди всех несмещенных оценок, являющихся линейными функциями от наблюдений у. Если имеет место гетероскедастичность, то оценки МНК, которые мы до сих пор использовали, неэффективны. Можно, по меньшей мере в принципе, найти другие оценки, которые имеют меньшую дисперсию и, не менее, являются несмещенными. 2.2 Обнаружение гетероскедастичности
Очень часто появление проблемы гетероскедастичности можно предвидеть заранее, основываясь на знании характера данных. В таких случаях можно предпринять соответствующие действия по устранению этого эффекта на этапе спецификации модели регрессии, и это позволит уменьшить или, возможно, устранить необходимость формальной проверки. К настоящему времени для такой проверки предложено большое число тестов (и, соответственно, критериев для них). Мы рассмотрим три обычно используемых теста (критерия), в которых делаются различные предположения о зависимости между дисперсией случайного члена и величиной объясняющих переменных: тест ранговой корреляции Спирмена, тест Голдфелда—Квандта и тест Глейзера. Тест ранговой корреляции Спирмена
При выполнении теста ранговой корреляции Спирмена предполагается, что дисперсия случайного члена будет либо увеличиваться, либо уменьшаться по мере увеличения
где Применим тест ранговой корреляции Спирмена к нашей модели. Для простоты изложения подробные расчеты приведены лишь для упорядоченная х1 ранг упорядоченная |e| ранг D
-1,849459746 7 0,008280966 8 -1 1 -1,388153599 3 0,024533337 2 1 1 -1,270872375 1 0,066601421 18 -17 289 -1,239597381 2 0,109125921 7 -5 25 -1,106678661 5 0,109137124 20 -15 225 -1,091041164 12 0,115128486 15 -3 9 -1,059766171 6 0,129180745 12 -6 36 -0,856478716 4 0,179692968 24 -20 400 -0,137153876 17 0,184931495 17 0 0 -0,082422638 22 0,200673797 10 12 144 -0,07460389 11 0,274351484 22 -11 121 0,050496083 9 0,321946398 23 -14 196 0,292877279 20 0,328435011 1 19 361 0,535258475 14 0,365273023 11 3 9 0,535258475 19 0,39452205 6 13 169 0,566533468 15 0,458740222 14 1 1 0,60562721 8 0,54427352 16 -8 64 0,746364678 16 0,616338961 19 -3 9 0,769820923 21 0,64321145 5 16 256 0,840189658 24 0,649611436 13 11 121 1,082570854 18 0,725844891 9 9 81 1,184214581 13 0,74336366 4 9 81 1,27803956 10 1,186499516 21 -11 121 1,668976974 23 1,47627288 3 20 400 коэффициент ранговой корреляции Спирмена -0,356521739
3120 тестовая статистика -1,709818195 Т.к. статистики по модулю меньше 1,96, то при уровне значимости 0,05 нет оснований отвергнуть нулевую гипотезу об отсутствии гетероскедастичности. Тест Голдфелда-Квандта
Вероятно, наиболее популярным формальным критерием является критерий, предложенный С. Голдфелдом и Р. Квандтом . При проведении проверки по этому критерию предполагается, что стандартное отклонение ( Все Метод Голдфелда—Квандта может также использоваться для проверки гетероскедастичность при предположении, что Применим метод Голдфелда-Квандта к нашей модели. Для простоты изложения подробные расчеты приведены лишь для Для RSS2/RSS1 0,631458 RSS1/RSS2 1,583637 Для RSS2/RSS1 0,622567 RSS1/RSS2 1,606252 Для RSS2/RSS1 0,894035 RSS1/RSS2 1,118524 Тест Глейзера
Тест Глейзера позволяет несколько более тщательно рассмотреть характер гетероскедастичности. Мы снимаем предположение о том, что
Чтобы использовать данный метод, следуёт оценить регрессионную зависимость у от Х с помощью обычного МНК, а затем вычислить абсолютные величины остатков
-2 -1 1 2 a 0,39599 0,411648 0,410665 0,411491 S(a) 0,081442 0,075325 0,07601 0,113293 b 0,000437 0,010412 -0,03746 -0,00086 S(b) 0,000869 0,012965 0,077645 0,087282
0,011384 0,028482 0,010471 0,00000443 F 0,253322 0,644972 0,232788 0,0000974 Статистически значимых оценок получить не удалось. Дальнейший перебор гамма в данной работе не целесообразен, так как остальные критерии указывают на отсутствие гетероскедастичности. По той же причине не рассматривается тест Глейзера для остальных переменных. Вывод: в результате применения теста ранговой корреляции Спирмена, метода Голдфельда-Квандта и теста Глейзера мы пришли к выводу, что нет основания отвергнуть гипотезу об отсутствии гетероскедастичности в нашей модели. 3. Автокорреляция
3.1 Автокорреляция и ее последствия
Автокорреляция – нарушение третьего условия теоремы Гаусса-Маркова. Последствия автокорреляции в некоторой степени сходны с последствиями гетероскедастичности. Коэффициенты регрессии остаются несмещенными, но становятся неэффективными, и их стандартные ошибки оцениваются неправильно (вероятно, они смещаются вниз, т. е. занижаются). Автокорреляция обычно встречается только в регрессионном анализе данных временных рядов. 3.2 Обнаружение автокорреляции первого порядка: критерий Дарбина-Уотсона
Начнем с частного случая, в котором автокорреляция подчиняется авторегрессионной схеме первого порядка:
Это означает, что величина случайного члена в любом наблюдении равна его значению в предшествующем наблюдении, умноженному на
Так как среднее значение Т остатков равно нулю, Кроме того, Широко известная статистика Дарбина—Уотсона определяется следующим образом:
Если автокорреляция отсутствует, то Если бы мы знали значение Вместе с тем мы знаем только, что 1. Величина DW меньше, чем 2. Величина DW больше, чем З. Величина DW находится между В случаях 1 и 2 тест Дарбина—Уотсона дает определенный ответ, но случай 3 относится к зоне невозможности принятия решения, и изменить создавшееся положение нельзя. Проверка на отрицательную автокорреляцию проводится по аналогичной схеме, причем зона, содержащая критический уровень, расположена симметрично справа от 2. Величина (4- Таким образом, если DW находится между Для нашей модели DW=1.75, 4. Мультиколлинеарность
4.1. Мультиколлинеарность и ее последствия.
Мультиколлинеарность — это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Разумеется, такая зависимость совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т. е. если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена — мала, то в итоге можно получить вполне хорошие оценки. Итак, мультиколлинеарность должна вызываться сочетанием нестрогой зависимости и одного (или более) неблагоприятного условия, и это — вопрос степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии. Эта проблема является обычной для регрессий временных рядов, т. е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности. 4.2 Обнаружение мультиколлинеарности
Основной способ проверки наличия мультиколлинеарности среди поясняющих переменных состоит в исследовании корреляционной матрицы, состоящей из выборочных частичных коэффициентов корреляции. Значимость одного или нескольких коэффициентов означает присутствие в регрессионной модели явления автокорреляции. В случае двух объясняющих переменных частичный выборочный коэффициент корреляции между y и
Остальные частичные коэффициенты корреляции вычисляются аналогично. Для случая трех и более регрессоров также существуют подобные формулы, но вследствие их громоздкости представляется более приятным с практической точки зрения следующий метод: вычисляется матрица Z, обратная к матрице полной корреляции, и тогда частичный выборочный коэффициент между переменными
Вычислим полной корреляции для нашей модели. х1 х2 х3 х4 х1 1 -0,50916 -0,664453715 0,301554799 х2 -0,509162268 1 0,741273537 -0,50786553 х3 -0,664453715 0,741274 1 -0,76295918 х4 0,301554799 -0,50787 -0,762959184 1 Вычислим матрицу Z. 2,187050344 -0,05801 2,322440805 1,082952756 -0,05800602 2,261181 -1,974634343 -0,3406974 2,322440805 -1,97463 6,478765795 3,239841974 1,082952756 -0,3407 3,239841974 2,972269121 Вычислим теперь матрицу частичных коэффициентов корреляции х1 х2 х3 х4 х1 1 0,026084 -0,61698 -0,42475 х2 0,026084 1 0,515909 0,131419 х3 -0,61698 0,515909 1 -0,7383 х4 -0,42475 0,131419 -0,7383 1 Коэффициенты частичной корреляции между 5. Спецификация модели
Если точно известно, какие объясняющие переменные должны быть включены в уравнение при проведении регрессионного анализа, то наша задача — ограничиться оцениванием их коэффициентов, определением доверительных интервалов для этих оценок и т. д. Однако на практике мы никогда не можем быть уверены, что уравнение специфицировано правильно. Экономическая теория должна указывать направление, но теория не может быть совершенной. Не будучи уверенными в ней, мы можем включить в уравнение переменные, которых там не должно быть, и в то же время мы можем не включить другие переменные, которые должны там присутствовать. Вообще говоря, в проблему спецификации модели входят также вопросы выбора функциональной зависимости между y и объясняющими переменными. Но так как в данном случае нас интересует непосредственно множественная линейная регрессия, то мы не будем здесь рассматривать приемы функциональной спецификации. Для спецификации нашей модели будем использовать следующий метод. Сначала оценим регрессию с k объясняющими переменными (в нашем случае k=4) и объясненная сумма квадратов отклонения y от Используется F-тест, и соответствующая F-статистика может быть Поскольку
в соответствии с нулевой гипотезой о том, что дополнительные переменные не увеличивают возможности объяснения уравнения, она распределена с (m-k) и (n-k-1) степенями свободы. В нашем случае будет удобно поступить следующим образом: сначала попробовать убрать из модели последовательно Исключим из модели переменную R 0,6893 ESS3 15,8539 RSS3 7,1461 ESS4 15,86964 RSS4 7,13036 F 0,04195 Fcr 4,3512 Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Исключим R 0,689954 ESS3 15,86894 RSS3 7,13106 ESS4 15,86964 RSS4 7,13036 F 0,00188 Fcr 4,3512 Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Исключим R 0,617456 ESS3 14,20149 RSS3 8,79851 ESS4 15,86964 RSS4 7,13036 F 4,44507 Fcr 4,3512 Следовательно, дополнительные переменные увеличивают возможности объяснения уравнения. Исключим R 0,683111 ESS3 15,71154 RSS3 7,28846 ESS4 15,86964 RSS4 7,13036 F 0,42128 Fcr 4,3512 Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Вывод: исключать Исключим теперь R 0,689276 ESS2 15,85336 RSS2 7,14664 ESS4 15,86964 RSS4 7,13036 F 0,0217 Fcr 3,4668 Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Исключим R 0,683 ESS2 15,709 RSS2 7,291 ESS4 15,86964 RSS4 7,13036 F 0,214 Fcr 3,4668 Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Исключим R 0,6831 ESS2 15,711 RSS2 7,289 ESS4 15,86964 RSS4 7,13036 F 0,212 Fcr 3,4668 Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Вывод: исключение переменных Исключим теперь все переменные, кроме R 0,683 ESS1 15,708 RSS1 7,292 ESS4 15,86964 RSS4 7,13036 F 0,143 Fcr 3,05 Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения. Таким образом, приходим к выводу, что оптимальной будет модель, в которой y зависит только от Скорректированный коэффициент детерминации
где k – число независимых переменных в этом случае будет равен 0,676. 6. Анализ особенностей модели
Итак, нами проведен подробный анализ множественной линейной регрессии. В результате этого анализа мы выяснили, что в данном случае выполняется условие гомоскедастичности, отсутствует автокорреляция, но присутствует мультиколлинеарность, так как переменные Если же взглянуть на нашу модель с точки зрения «здравого смысла», то становится очевидным, что производительность труда напрямую зависит от уровня затрат рабочего времени. И это подтверждается результатами анализа с математической точки зрения. А в свою очередь уровень затрат рабочего времени зависит от фондоёмкости, стажа, текучести, что отражено в таблице частичных выборочных коэффициентов корреляции. Таким образом, есть основания считать, что анализ модели проведен верно. Список использованной литературы
1. Доугерти К. Введение в эконометрику: Пер. с англ. – М.: ИНФРА-М, 1997. 2.Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Учебное пособие. 2-е изд., испр. – М.: Дело, 1998. 3. Назаренко О.М. Основи економетрики: Підручник. – Київ: «Центр навчальної літератури», 2004. Приложение 1 Исходные данные Месяц Производительность труда, у1 Фондоемкость, х1 Коэффициент текучести, х2 Уровень затрат рабочего времени, х3 Стаж, х4 1 55,4 25,6 13,4 19 7,2 2 63 37,6 12,6 17,8 5 3 73,6 34,2 14 16 12,5 4 65,4 34,4 11,8 16,1 9,4 5 56,8 34 9,6 14,7 10,2 6 78,1 48,4 8,3 14,5 9,9 7 68,8 49,9 13,4 15,2 11,7 8 58,3 46,7 12,8 13,3 7,5 9 70,2 48 14,4 13,9 13 10 82,8 54,2 11,3 11,2 10,7 11 86,5 54,9 5,9 12,4 9,9 12 85,3 52,7 7,4 10,6 12,4 13 90,2 67,9 8,8 12,2 12,6 14 86,6 48,2 8,1 12,1 16,6 15 96,4 50,7 11,2 10,4 12,8 16 86,8 64,3 4,3 9,8 13,7 17 94,8 59,6 7,2 10,7 12,9 18 90,2 45,4 2,9 8,7 15,4 19 78,6 74,7 5,4 9,3 16,6 20 93,3 50,2 1,6 9 16,1 21 88,9 58,3 4,3 6,5 11,6 22 93,9 56,4 2 4,3 16,1 23 87,9 67 8 5 17,2 24 98,2 74,7 -1 7 13,5 Приложение 2 Стандартизированные данные месяц ystand x1stand x2stand x3stand x4stand 1 -1,138703734 -1,27087 2,129500778 1,817988473 -1,07758 2 -1,356882333 -1,2396 2,109497639 1,606298171 -1,15942 3 -2,253838793 -1,38815 0,249205766 0,94770612 -0,50469 4 -0,20134383 -0,85648 1,169350133 1,065311844 -1,20034 5 -0,314473474 -1,10668 -0,010835033 1,041790699 -1,40495 6 -0,007407298 -1,05977 0,649268535 0,524325516 0,027281 7 -0,459925873 -1,84946 -0,370891525 0,477283227 0,313726 8 -0,379118984 0,605627 -0,110850725 0,64193124 0,313726 9 0,235013367 0,050496 -0,410897802 0,712494674 -0,05456 10 -0,096294875 1,27804 0,70927795 0,28911407 -0,99574 11 -1,009412713 -0,0746 0,029171244 0,736015818 -0,95482 12 -0,41144174 -1,09104 0,389227735 0,359677504 0,068201 13 -0,532652072 1,184215 0,889306196 -0,22835111 -0,54561 14 -0,112456253 0,535258 -0,450904079 -0,55764714 -0,42285 15 -0,257908652 0,566533 0,509246566 0,171508347 -0,30009 16 -0,072052809 0,746365 -1,211023338 -0,7458163 -0,54561 17 0,727935386 -0,13715 -1,111007646 -1,00454889 1,541351 18 0,356223699 1,082571 -1,291035892 -0,62821057 -0,42285 19 0,170367856 0,535258 0,269208905 -0,81637973 1,459509 20 0,776419519 0,292877 -0,05084131 -0,7458163 1,00938 21 2,271346952 0,769821 -1,131010785 -1,45145064 0,354647 22 1,746102178 -0,08242 -0,05084131 -1,71018323 2,114242 23 1,649133912 1,668977 -1,471064138 -1,45145064 1,786876 24 0,671370564 0,84019
|