Учебно-методическое пособие для студентов экономического и физико-математического факультетов

Главная Лекции Лекции (разные) - часть 10

поиск по сайту

Балашовский филиал

Саратовского государственного университета

им Н. Г. Чернышевского

О. А. Кузнецов

Компьютерный практикум
по эконометрике

Часть 1

Учебно-методическое пособие

для студентов экономического

и физико-математического

факультетов

Балашов 2005

УДК 33.518

ББК 65в6

К89

Рецензенты:

Кандидат физико-математических наук, доцент

Балашовского филиала

Саратовского государственного университета

им. Н. Г. Чернышевского

М. А. Ляшко;

Кандидат педагогических наук, доцент

Балашовского филиала

Саратовского государственного

социально-экономического университета

Г. Н. Ионов.

Рекомендовано к изданию Учебно-методическим советом

Балашовского филиала Саратовского государственного университета

им. Н. Г. Чернышевского.

Кузнецов, О. А.

К89 Компьютерный практикум по эконометрике. Ч. 1 : учебно-методическое пособие для студентов экономического и физико-математического факультетов / О. А. Кузнецов. — Балашов : Изд-во «Николаев», 2005. — 84 с.

ISBN 5—94035—192—1

Настоящий компьютерный практикум предназначен для практического решения статистических и эконометрических задач. Тематики лабораторных работ полностью совпадают с тематиками учебно-методического пособия.

Практикум рассчитан на студентов экономических и физико-математических специальностей, знакомых с основными навыками работы на ЭВМ, в частности, табличного процессора Excel.

Настоящее учебно-методическое пособие соответствует Государственному образовательному стандарту по экономическим дисциплинам. Оно может быть полезно при самостоятельном решении эконометрических задач.

УДК 33.518

ББК 65в6

ISBN 5—94035—192—1 Ó О. А. Кузнецов, 2005

Оглавление

ВВЕДЕНИЕ.. 6

Глава 1. МОДЕЛЬ ПАРНОЙ РЕГРЕССИИ.. 8

Лабораторная работа № 1. 8

Основные понятия математической статистики. 8

Лабораторная работа № 2. 17

Метод наименьших квадратов. 17

Лабораторная работа № 3. 25

Свойства коэффициентов регрессии. 25

Лабораторная работа № 4. 30

Некоторые распределения. 30

Лабораторная работа № 5. 37

Проверка гипотез. 37

Лабораторная работа № 6. 40

Нелинейная регрессия. 40

Глава 2. МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ.. 45

Лабораторная работа № 7. 45

Множественная регрессия. 45

Лабораторная работа № 8. 54

Спецификация переменных и проблема мультиколлинеарности. 54

Лабораторная работа № 9. 56

Фиктивные переменные и категории. 56

Лабораторная работа № 10. 61

Гетероскедастичность и взвешенный метод наименьших квадратов. 61

Лабораторная работа № 11. 68

Автокорреляция и обобщённый метод наименьших квадратов. 68

ЗАКЛЮЧЕНИЕ.. 73

БИБЛИОГРАФИЧЕСКИЙ СПИСОК.. 74

ТАБЛИЦЫ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ... 76

Лабораторные работы № 1 – 8. 76

Лабораторная работа № 9. 81

ПРЕДИСЛОВИЕ

Эконометрика как дисциплина федерального компонента по циклу общих математических и естественно-научных дисциплин впервые включена в основную образовательную программу подготовки экономистов, определенную Государственным образовательным стандартом второго поколения. Хотя в настоящее время и появилось большое количество новых учебников по данной дисциплине, имеется нехватка практических пособий, в которых излагался бы материал, способствующий наработке навыков решения эконометрических задач.

Данное учебно-методическое пособие в некоторой степени восполняет этот пробел. Оно соответствует Государственному образовательному стандарту по дисциплине «Эконометрика» для экономических специальностей вуза. При изложении материала предполагалось, что читатель изучил необходимый теоретический материал по теории вероятностей, математической статистики и эконометрики, а также имеет начальные навыки работы со стандартным программным обеспечением, в частности, с электронной таблицей Excel.

Учебно-методическое пособие состоит из введения, основного учебного материала, разбитого на две главы, и приложения. Во введении рассматривается основная структура предлагаемых лабораторных работ, обосновывается факт использования большого количества разнообразных программных продуктов и описываются методические рекомендации изучения данного пособия. Как и при изучении любой компьютерной программы, методические рекомендации заключаются в начальном чтении материала каждой лабораторной работы, а затем повторном прочтении, с выполнением всех описанных действий непосредственно за компьютером.

В первой главе содержатся лабораторные работы, предназначенные для практического решения задач парного регрессионного анализа. При этом имеются разделы, которые хотя непосредственно и не относятся к эконометрике, но содержат необходимый материал из теории вероятностей и математической статистики. В частности, это лабораторная работа № 1, в которой рассматриваются возможности вычисления параметров выборок, а также возможности генерации случайных чисел, отвечающих некоторым законам, и лабораторная работа № 4, в которой рассматриваются возможности получения параметров случайных величин, отвечающих некоторым распределениям.

Вторая глава посвящена возможностям получения параметров множественной регрессии. Здесь же рассматриваются некоторые частные случаи, а именно — эффекты гетероскедастичности и автокорреляции, которые связаны с нарушением условий Гаусса—Маркова.

В приложении располагаются таблицы исходных данных, которые необходимо самостоятельно рассмотреть.

Данное учебно-методическое пособие рассчитано в первую очередь на студентов экономических специальностей, которые изучают «Эконометрику». Однако оно может быть полезно всем, кто сталкивается с необходимостью решать практические задачи теории вероятностей и математической статистики.

ВВЕДЕНИЕ

Каждую задачу математической статистики и эконометрики можно решить «вручную», используя бумагу и ручку, либо с помощью калькулятора. Однако статистические, да и эконометрические задачи во многом однотипны и трудоёмки для решений, поэтому, вычислив один раз дисперсию или корреляцию, можно понять основные принципы и почувствовать всю рутинность данной работы. При наличии определенных навыков можно решить задачу посредством программы на каком-либо языке программирования. Но написание программы тоже достаточно трудоёмкое и творческое дело, и не каждый экономист владеет этим искусством. Для облегчения решений данных задач в настоящее время создано большое количество программных продуктов, которые позволяют обрабатывать статистические данные, а в некоторых случаях решать эконометрические задачи.

Наиболее простыми с точки зрения изучения и применения, а также наиболее распространенными, но в то же время обладающими минимальными возможностями для решения статистических задач, являются электронные таблицы , в частности, таблица Excel . Те статистические и эконометрические задачи, которые допускают такое решение, будут решаться нами именно в Excel. Более подробно с возможностями электронной таблицы в Excel можно ознакомиться по учебникам [3; 6; 7].

Другим классом программных продуктов, который будет использоваться в дальнейшем, являются математические пакеты, которые также как и электронные таблицы специально не предназначены для решения подобных задач, но имеют большие возможности для этого. Некоторые из основных возможностей и способы решения задач будут демонстрироваться с помощью математического пакета MathCad . В настоящее время он является одним из наиболее популярных пакетов подобного рода (дополнительную информацию по которому можно получить в работе [8]).

И, наконец, существует большое количество специальных пакетов, которые специально предназначены для обработки статистической информации и решения эконометрических задач. Каждый из них имеет практически одинаковый набор возможностей, но различные дополнительные инструменты и интерфейс. Среди таких пакетов можно отметить: SAS , SPSS , STAT , Мезозавр и т. д.

Мы будем изучать пакет обработки статистических данных SPSS , поскольку интерфейс данной программы во многом схож с интерфейсом электронной таблицы Excel. Внешний вид рабочей области имеет вид таблицы, каждая ячейка которой характеризуется названием столбца и номером строки. Работа по заданию начального вида таблиц похожа на использование конструктора в Access . Все эти особенности пакета SPSS, позволяют быстро понять основные принципы работы всем, кто знаком с программами Microsoft Office. Для дополнительного самостоятельного изучения данного программного продукта можно порекомендовать работы [1; 9].

Данное учебно-методическое пособие содержит курс лабораторных работ, которые позволяют научиться решать эконометрические задачи, используя программные продукты. Каждая лабораторная работа содержит необходимые понятия и формулы. Данная информация является дополнительным теоретическим материалом, и ни в коем случае не может восприниматься как учебник по эконометрике. Изучить теоретическую часть можно на основании любого учебника по эконометрике, например работы [2; 4]. Название лабораторных работ совпадает с название параграфов книги [5].

Изучать данные лабораторные работы рекомендуется непосредственно работая на ЭВМ с соответствующим программным продуктом. При этом очень важно самостоятельно выполнять все описываемые действия.

Кроме обычных учебников по эконометрике, имеется огромное количество полезной информации в сети Internet. Список наиболее популярных интернет-ресурсов находится в библиографическом списке.

Глава 1. МОДЕЛЬ ПАРНОЙ РЕГРЕССИИ

Лабораторная работа № 1

Основные понятия математической статистики

Цель: изучить возможности электронной таблицы Excel по обработки статистической информации.

Основные формулы и понятия:

Если X и Y — две произвольные случайные величины, то для них можно определить некоторые параметры, например

m _X ,m _Y — математические ожидания;

— дисперсия;

— среднеквадратичное отклонение случайной величины;

— ковариация случайных величин;

— корреляция случайных величин;

Если X дискретная случайная величина, которая принимает n значений (х₁ ,х₂ ,...,х_n ) с вероятностями ( p₁ , p₂ ,..., p_n ), то

— математическое ожидание;

— дисперсия;

Если имеется выборка (х₁ ,х₂ ,...,х_n ) из генеральной совокупности, в которой каждый элемент является случайной величиной, то нельзя определить точное значение теоретических характеристик, однако можно построить точечные оценки, которые по возможности должна быть отвечать требованиям несмещённости, состоятельности и эффективности.

Основные оценки :

— выборочное среднее (несмещённая оценка математического ожидания m);

— выборочная дисперсия (смещённая оценка дисперсии);

— несмещённая оценка дисперсии;

— выборочная ковариация;

— выборочная корреляция.

Электронная таблица Excel

Во всех электронных таблицах имеется большое количество встроенных статистических функций. Excel не стал исключением из правил. Статистические функции, как и любые другие функции, вставляются с помощью мастера функций посредством пункта меню Вставка, Функции или нажатием на кнопку панели инструментов. Мастер функций выполняется в два этапа: на первом задается функция (все описываемые функции находятся в категории «Статистические»), а на втором этапе выбираются аргументы данной функции.

Рассмотрим основные статистические функции. При этом необходимо отметить одну особенность. Для решения одной задачи имеется две практически одинаковые функции, например, СРЗНАЧ и СРЗНАЧА, вычисляют среднее значение в выборке. Первая функция игнорирует все ячейки, в которых содержится нечисловая информация, а вторая всем ячейкам с текстовой информацией автоматически придает значение 0. Аналогично для вычисления всех значений имеются две функции, при этом первая игнорирует все нечисловые ячейки, а вторая, заканчивающая на А, автоматически придает всем ячейкам, в которых находится текстовая или логическая информация, значение 0.

Функция ДИСПР вычисляет значение выборочной дисперсии, которая является смещённой оценкой реальной дисперсии. Иногда данное значение называют дисперсией для генеральной совокупности. Среднеквадратичное отклонение может быть вычислено как корень квадратный из дисперсии или посредством использования функции СТАНДОТКЛОН. Функция ДИСП вычисляет значения несмещённой оценкой дисперсии, которую также называют дисперсией по выборке, а для определения среднеквадратичного отклонения можно использовать функцию СТАНДОТКЛОНА. Все вышеперечисленные функции в качестве аргументов имеют один массив данных.

Функции КОВАР и КОРЕЛЛ вычисляют ковариацию и корреляцию между двумя массивами данных, а следовательно, аргументами данных функций являются два блока данных одинаковой размерности.

Рассмотрим пример использования данных функций. Исходные данные, в которых содержатся цена и спрос на некоторый товар, представлены в таблице 1.

Таблица 1

Номер наблюдения	Цена x (р.)	Спрос y (тыс.шт.)
1	15,09р.	125,1779
2	15,21р.	123,8094
3	15,28р.	121,175
4	15,49р.	116,9143
5	15,54р.	119,8643
6	15,62р.	118,0681
7	15,70р.	123,5887
8	15,91р.	117,0877
9	15,92р.	116,1699
10	15,95р.	118,3436
11	16,31р.	116,2008
12	16,33р.	111,4565
13	16,60р.	115,1026
14	16,69р.	110,1056
15	16,76р.	110,0231

Тогда документ Excel, в котором вычисляются значение выборочного среднего, выборочных дисперсий, а также корреляции и ковариации, может иметь вид, представленный в таблице 2.

Таблица 2

	A	B	C
1	Номер наблюдения	Цена x (р.)	Спрос y (тыс.шт.)
2	1	15,09р.	125,1779
3	2	15,21р.	123,8094
4	3	15,28р.	121,175
5	4	15,49р.	116,9143
6	5	15,54р.	119,8643
7	6	15,62р.	118,0681
8	7	15,70р.	123,5887
9	8	15,91р.	117,0877
10	9	15,92р.	116,1699

Продолжение табл. 2

11	10	15,95р.	118,3436
12	11	16,31р.	116,2008
13	12	16,33р.	111,4565
14	13	16,60р.	115,1026
15	14	16,69р.	110,1056
16	15	16,76р.	110,0231
17		Выборочное среднее по x	=СРЗНАЧ(B2:B16)
18		Выборочное среднее по y	=СРЗНАЧ(C2:C16)
19		Выборочная дисперсия x	=ДИСП(B2:B16)
20		Выборочная дисперсия y	=ДИСП(C2:C16)
21		Ковариация	=КОВАР(B2:B16;C2:C16)
22		Корреляция	=КОРРЕЛ(B2:B16;C2:C16)

Вычисленные на основании этих формул значения будет равны:

Выборочное среднее по x = 15,89

Выборочное среднее по y = 117,53

Выборочная дисперсия x = 0,29

Выборочная дисперсия y = 22,34

Ковариация = –2,12

Корреляция = –0,88

Анализируя полученные результаты, можно только говорить о том, что разброс значений по y больше, чем разброс по x , поскольку значение дисперсии y намного больше дисперсии x , и зависимость между x и y близка к линейной убывающей зависимости, поскольку коэффициент корреляции отрицательный и по модулю близок к единице.

Основная особенность электронных таблиц заключается в том, что рабочее поле представляет собой совокупность ячеек, у каждой из которых имеется свой адрес. Функция заносится в определенную ячейку, в которую возвращается полученное значение. Для решения многих статистических и эконометрических задач использование только функций является существенным ограничением, поскольку часто результатом должно служить не одно число, а некоторый набор. С целью расширения возможностей в Excel реализованы надстройки, которые подключатся по мере необходимости и позволяют решать более специфические задачи.

Для выбора и подключения надстройки необходимо выбрать пункт меню Сервис, Надстройки . После этого появится диалоговое окно, изображенное на рисунке 1.

Все дополнительные возможности, которые осуществляют статистический анализ данных, находятся в надстройке Пакет анализа , поэтому данную надстройку необходимо отметить, то есть поставить галочку напротив соответствующего пункта. После нажатия на кнопку OK ничего визуально не изменится, однако после повторного выбора пункта меню Сервис появляется дополнительный подпункт Анализ данных . Выбор данного пункта приводит к появлению диалогового окна (рис. 2).

Рис. 1

Рис. 2

Выбрав конкретный инструментарий анализа и нажав на кнопку Справка , можно получить исчерпывающую информацию по данному инструменту от небольшой теоретической части до полного описания всей необходимой входной информации.

Инструментарий Генерация случайных чисел позволяет сгенерировать множество значений случайной величины, имеющей какой-либо закон распределения. Выбор данного инструмента приведет к появлению диалогового окна (рис. 3):

Рис. 3

Рассмотрим вначале обязательные параметры, которые необходимо задать при работе с данной надстройкой.

Во-первых — это тип распределения. Имеется возможность выбрать Нормальное , Равномерное , Пуассоновское , Биноминальное и некоторые другие виды распределений. При этом для каждого распределения необходимо задавать свои параметры. Мы в дальнейшем будем рассматривать случайные величины, имеющие нормальное и равномерное распределение. При выборе равномерного распределения в качестве параметра необходимо задать интервал , а при нормальном распределении необходимо задать Среднее и Стандартное отклонение .

Во-вторых — количество генерируемых чисел. Это можно сделать двумя способами: указать число строк и столбцов, Число переменных — число столбцов, а Число случайных чисел — число строк в которых разместятся сгенерированные числа. В данном случае набор случайных чисел будет помещен на новый лист. Однако часто необходимо получить набор случайных чисел в некотором диапазоне на рабочем листе. Для этого воспользуемся пунктом Параметры вывода , который задает месторасположение генерируемых чисел. В этом случае весь указанный диапазон на исходном листе будет заполнен случайными числами. Например, указав Выходной интервал в виде $B$5:$C$11, получим 14 случайных чисел, расположенных в этих ячейках.

Кроме вида распределения и количества случайных чисел можно менять параметр — Случайное рассеивание . В качестве значения данной опции указывается произвольное целое число. Данное значение необходимо для того, чтобы получать одинаковый набор случайных чисел.

Инструментарий Выборка позволяет сформировать какую-либо выборку из имеющегося набора чисел, при этом Параметры вывода имеют тот же самый смысл, то есть место, куда будет выдаваться значение. Входной интервал задает всю генеральную совокупность, из которой будет осуществлён выбор. Метод выборки задает способ формирования выборки: периодическая или случайная. В периодической выборке задается период и каждое последующее число с номером кратным периоду будет скопировано в выборку. Процесс создания выборки прекратится при достижении конца входного диапазона. В случайной выборке задается только число значений в конечной выборке, при этом любое исходное значение может быть выбрано более одного раза.

Предположим, что сгенерирована совокупность случайных чисел, отвечающая нормальному закону распределения с математическим ожиданием 0 и среднеквадратичным отклонением 1, которая содержит 100 строк и 100 столбцов, и помещена на 4-м листе. Тогда для того, чтобы выбрать 20 чисел и поместить их на новый лист можно указать параметры диалогового окна Выборка, показанные на рисунке 4.

Рис. 4

Надстройки Корреляция и Ковариация позволяют создавать корреляционную и ковариационную таблицы. Данные надстройки имеют одинаковые диалоговые окна и отличаются только заголовком. На рисунке 5 представлено диалоговое окно, которое появляется после выбора инструментария корреляция.

Рис. 5

Пункты Входной интервал и Параметры вывода задаются аналогично другим надстройкам, поэтому подробно не будем на них останавливаться. Переключатель Метки в первой строке позволяет выдавать в сгенерированной таблице заголовки столбцов и строк.

В отличие от функций, вычисления значений корреляции и ковариации КОВАР и КОРЕЛЛ, надстройки вычисляют корреляционную и ковариационную матрицы, для произвольного количества случайных величин. Поскольку данные матрицы являются симметричными, то выводится только одна часть, при этом в корреляционной матрице на диагонали находятся единицы, а в ковариационной матрице на диагонали находятся значения дисперсий во всей генеральной совокупности.

Если для данных из таблицы 1 вызвать надстройку Ковариация , указав входной интервал в виде диапазона A1:C16 и опцию Метка в первой строке , а также задав некоторые параметры вывода, будет автоматически сгенерирована таблица 3.

Таблица 3

	Номер наблюдения	Цена x (р.)	Спрос y (тыс.шт.)
Номер наблюдения	18,66667
Цена x (р.)	2,248	0,276116
Спрос y (тыс.шт.)	–17,2239	–2,12699	20,85071

Нетрудно заметить, что полученное в данной таблице значение ковариации –2,12699 совпадает со значением полученными нами ранее посредством функции КОВАР, а значения дисперсий 0,276116 и 20,85071 отличаются, поскольку в данной таблице вычисляется значение дисперсии по всей генеральной совокупности.

Задания для самостоятельной работы

1. Для таблицы из приложения (номер варианта соответствует номеру вашего компьютера) найдите среднее значение, смещённую и несмещённую дисперсию, среднеквадратичное отклонение в каждом столбце.

2. Получите корреляционную и ковариационную таблицу для этих же данных. Сделайте заключения об имеющихся линейных связях.

3. На одном листе Excel сгенерируйте набор из 10000 случайных чисел, имеющих равномерное распределение на интервале от 0 до 10. Найдите значение среднего и дисперсии во всей таблицы случайных чисел, которую впоследствии будем ассоциировать со всей генеральной совокупностью. Это можно сделать посредством имеющихся в Excel формул. Создайте 10 выборок из данной генеральной совокупности по 20 элементов в каждой, используя 5 раз периодическую и 5 раз случайную выборки. Поместите каждую выборку на отдельный лист. С помощью статистических функций исследуйте данные выборки, а именно, найдите выборочное среднее, несмещённую (выборочную) и смещённую (по всей генеральной совокупности) оценки дисперсии.

Замечание

Если случайная величина X имеет равномерное распределение между значениями a и b , то математическое ожидание может быть вычислено по формуле , а дисперсия .

Лабораторная работа № 2

Метод наименьших квадратов

Цель: изучить возможности электронной таблицы Excel по обработке парной линейной регрессии.

Основные формулы и понятия:

у = a + b ×х + u — модели парной линейной регрессии;

y = а + b ×x — уравнение линейной регрессии;

— значение наблюдений ;

— остаток в i-м наблюдении;

— расчетное значение у в i-м наблюдении (точечный прогноз);

) — суммы квадратов остатков;

— уравнения для параметров регрессии;

— общая сумма квадратов отклонений;

— объясненная сумма квадратов отклонений;

— необъясненная (остаточная) сумма квадратов отклонений;

— коэффициент детерминации.

Для парного регрессионного анализа выполняется условие: коэффициент детерминации R² равен квадрату коэффициента корреляции, то есть

Электронная таблица Excel

Ранее изученных нами статистических функций вполне достаточно для непосредственного вычисления коэффициентов регрессии. Для нахождения значения параметра b достаточно уметь вычислять значение ковариации и дисперсии, а для значения a необходимы также средние значения. Эти параметры можно легко найти самостоятельно, однако в электронной таблице Excel имеется много достаточно разнородных инструментов для определения параметров регрессии. Среди них, что совершенно очевидно, имеются статистические функции, а также дополнительные средства — это надстройка и средства точечных диаграмм. Начнем рассмотрение со статистических функций.

Функция НАКЛОН возвращает наклон (коэффициент b в уравнении линейной регрессии). При этом аргументами являются два массива, в первом из которых задаются значения зависимой переменной y , а во втором значения регрессора x . Значение коэффициента a может быть найдено либо по соответствующей формуле, либо при помощи функции ОТРЕЗОК, которая имеет подобные аргументы. Функция ПРЕДСКАЗ вычисляет или предсказывает будущее значение по произвольному значению x . Данная функция имеет три аргумента. Первый — это значение x , а остальные имеют тот же смысл, что и в функциях НАКЛОН и ОТРЕЗОК.

К сожалению, нет специальных функций для вычисления коэффициента детерминации, а делать это на основании исходных формул достаточно затруднительно. Однако можно использовать то свойство, что коэффициент детерминации равен квадрату коэффициента корреляции.

Предположим, что исходные данные также располагаются в таблице 1, тогда в документ Excel параметры регрессии можно вычислить на основании следующих формул:

b =	= КОВАР( C 2: C 16; B 2: B 16)/ДИСПР( B 2: B 16)
b =	=НАКЛОН( C 2: C 16; B 2: B 16)
a =	= СРЗНАЧ( C 2: C 16)- НАКЛОН( C 2: C 16; B 2: B *16) СРЗНАЧ( B 2: B 16)**
a=	=ОТРЕЗОК( C 2: C 16; B 2: B 16)
R ² =	=КОРРЕЛ( C 2: C 16; B 2: B *16) КОРРЕЛ( C 2: C 16; B 2: B 16)**
Прогноз при x =17	=ПРЕДСКАЗ(17; C 2: C 16; B 2: B 16)

В данном случае предлагаются два способа вычисления параметров: на основании формул НАКЛОН и ОТРЕЗОК и через исходные формулы для параметров регрессии.

Вычисленные на основании этих формул значения будут равны:

b = –7,703

a = 239,96

R² = 0,7868.

При цене, равной 17, прогнозируемый спрос будет равен 109,014.

Анализируя полученные данные, можно прийти к следующим выводам:

1. Поскольку b = –7,703, то можно предполагать, что увеличение цены на единицу в среднем уменьшает спрос на –7,703 тысячи штук, аналогично уменьшение цены на единицу увеличит спрос на –7,703 тысячи штук.

2. Значение константы в регрессионной модели равно 239,96, следовательно, именно такой должен быть спрос при цене равной нулю. Однако данное значение является во многом теоретическим и показывает только точку пересечения линии регрессии с осью oy .

3. Регрессионная модель имеет вид: y = 239,96 – 7,703x .

4. Прогнозируемый спрос при цене равной 17 будет составлять 109,014 тысячи единиц.

5. Коэффициент детерминации равен 0,7868. Данное значение может быть интерпретировано следующим образом: изменение зависимой переменной, в данном случае y на 78 %, описывается изменением независимой переменной (регрессора) x , что говорит о достаточной обоснованности использования данной модели.

Замечание. Описанные выше функции возвращают один параметр линейной регрессии. Однако имеется функция, которая одновременно возвращает оба параметра. Это функция ЛИНЕЙН(). Более подробно с данной функцией можно ознакомится по справочной системе.

Кроме указанных функций в Excel имеется возможность построить на диаграмме линию регрессии, которая называется линией линейного тренда. Для этого необходимо задать точечную диаграмму (диаграмма обязательно должна быть точечной), и выбрав произвольную точку в контекстном меню, можно выбрать пункт Добавить линию тренда . Хотя термин «тренд» имеет несколько другой смысл, применительно к временным рядам, в данном случае термины «тренд» и «линия регрессии» будем отождествлять друг с другом. Выбор пункта Добавить линию тренда приведет к появлению диалогового окна, у которого имеются две закладки — Тип и Параметры (рис. 6).

Рис. 6

На закладке Тип необходимо выбрать один из возможных видов уравнения регрессии. Если на диаграмме имеется несколько рядов точек, то линию регрессии можно построить для любой, задав значение соответствующего параметра — Построить на ряде .

На закладке Параметры можно задать дополнительную информацию, которая будет присутствовать на диаграмме. Во-первых, это возможность прогнозирования, что позволит построить линии тренда вперед или назад на соответствующее число единиц. Опция Показывать уравнение на диаграмме позволяет выдавать вид уравнения, а опция Поместить на диаграмму величину достоверности аппроксимации ( R^2) выводит значение коэффициента детерминации. Построив точечную диаграммы для данных, заданных в таблице 1, и линию тренда, можно получить диаграмму, которая изображена на рисунке 7.

Рис. 7

В данном случае результаты полностью совпадают с полученными ранее посредством статистических функций.

Использование встроенных функций, да и точечных диаграмм, имеет определенные ограничения, поскольку нет функций, вычисляющих стандартные отклонения коэффициентов регрессии и значение детерминации. Поэтому рассмотрим дополнительные возможности, которые доступны с помощью надстройки Анализ данных . Данная надстройка подключается с помощью пункта меню Сервис, Надстройки и запускается на выполнение с помощью пункта меню Сервис, Анализ данных . После выбора надстройки Регрессия появится диалоговое окно (рис. 8).

Данное диалоговое окно имеет множество дополнительных переключателей, которые приводят к выводу большого количества дополнительной информации. Основные параметры, которые необходимо задать — это Входной интервал Y и Входной интервал X , а также Параметры вывода . Если количество данных Y и X совпадает, то выдаются итоги построения модели парной регрессии (именно этот случай будем сейчас рассматривать), а если число переменных X в несколько раз больше числа Y , то — модель множественной регрессии. В противном случае будет выдано сообщение об ошибке. Если активизировать переключатель Метки , то во входные интервалы для X и Y можно добавить ячейки с названиями, и соответствующие метки появятся в итоговой таблице, что значительно облегчит её понимание.

Рис. 8

Если Входной интервал Y определить как C 1: C 16 , а В ходной интервал X — B 1: B 16 , задать некоторым образом параметры вывода, а также установить опцию Метки , то автоматически на новом листе будет сгенерированна таблица 4.

Таблица 4

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,887036
R-квадрат	0,786833
Нормированный R-квадрат	0,770435
Стандартная ошибка	2,264609
Наблюдения	15

Продолжение табл. 4

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	246,0889	246,0889	47,985	1,04E–05
Остаток	13	66,66991	5,128455
Итого	14	312,7588

	Коэффициенты	Стандартная ошибка	t- статистика	P- значение	Нижние 95 %	Верхние 95 %
Y-пересечение	240,142	17,70861	13,56075	4,76E–09	201,8849	278,3991
Цена x (р.)	–7,71453	1,113671	–6,92712	1,04E–05	–10,1205	–5,30859

Данная таблица содержит большое количество информации, поэтому будем изучать её содержимое постепенно, в нескольких последующих работах. Представленные в этой таблице данные можно условно разделить на три раздела: регрессионная статистика , дисперсионный анализ и коэффициенты.

Весь раздел регрессионная статистика посвящен описанию коэффициента детерминации и его различным характеристикам. В пунктах множественный R и R-квадрат выводится значение коэффициента детерминации и его квадрата. Пункты меню нормированный R-квадрат и стандартная ошибка будут нами рассмотрены позднее, при изучении множественной регрессии. Кроме этого выдается общее количество наблюдений.

Рассмотрим раздел дисперсионный анализ . В столбце SS выдаются все виды сумм квадратов отклонений. В данном случае в первой строке, которая соответствует надписи Регрессия, выдается объясненная сумма квадратов отклонений RSS , во второй строке — Остаток — выдается необъясненная (остаточная) сумма квадратов отклонений ESS , в третьей строке — Итого — выдается общая сумма квадратов отклонений TSS .

В последнем разделе, который не имеет названия, будет интерпретироваться как раздел — коэффициенты , содержится полная информация по коэффициентам. Рассмотрим значения, полученные в столбце Коэффициенты. Пункт Y-пересечение выдает значение коэффициента a . Пункт Цена x (р.) выдает значение коэффициента b .

Представленные в таблице значения полностью совпадают с данными, полученными посредством статистических функций и линий тренда на точечной диаграмме.

В диалоговом окне Регрессия имеется целый раздел переключателей для получения дополнительной информации по остаткам. Например, указав опцию Остатки , наряду со стандартной таблицей регрессии будет выдана дополнительная таблица (табл. 5) следующего вида:

Таблица 5

ВЫВОД ОСТАТКА

Наблюдение	Предсказанное Спрос y (тыс. шт.)	Остатки
1	123,7511	1,426776
2	122,7896	1,019821
3	122,2914	–1,11646
4	120,6462	–3,7319
5	120,2544	–0,39014
6	119,6494	–1,5813
7	119,0288	4,559903
8	117,4316	–0,34387
9	117,2931	–1,12322
10	117,0864	1,257187
11	114,353	1,847847
12	114,1298	–2,67328
13	112,0989	3,003645
14	111,4176	–1,31194
15	110,8662	–0,84306

В данной таблице получены результаты предсказанных значений и значения остатков отдельно для каждого наблюдения. Указав опции График подбора , График остатков и График нормального распределения можно получить множество дополнительной информации и некоторые диаграммы.

Использование трех описанных нами инструментов исследования можно рассматривать как последовательные шаги в изучении парной регрессионной модели. При использовании статистических функций можно получить только уравнение регрессии и некоторый прогноз. Использование точечной диаграммы позволяет сразу увидеть уравнение регрессии, а также получить значение коэффициента детерминации. Точечная диаграмма может позволить и визуально оценить точность построенной модели. И, наконец, надстройка — Регрессия . Используя данный инструмент можно получить полную информацию относительно регрессионной модели. Данная таблица достаточно громоздкая, могут появиться затруднения с интерпретацией полученных результатов. Поэтому рекомендуется начинать исследование модели с использования статистических функций и линии тренда на точечной диаграмме.

Задания для самостоятельной работы

1. Для начальных данных, представленных в таблице 1, найти значение параметров регрессии между y и x 1, используя функции дисперсии, ковариации и среднего.

2. Найдите коэффициент корреляции, а также полную информацию по регрессионной модели между значениями y и x 1, y и x 2, y и x 3 (данные взять из таблицы для лабораторной работы № 1—8);

3. На основании полученной информации найти лучшую регрессионную модель, то есть ту переменную, которая в большей степени влияет на y (эта модель, в которой значение коэффициента детерминации максимально).

Лабораторная работа № 3

Свойства коэффициентов регрессии

Цель: н аучиться использовать метод Монте-Карло для получения стандартных отклонений и проверки выполнения условий Гаусса — Маркова.

Основные формулы и понятия

Условия Гаусса — Маркова для модели парной регрессии :

1) случайный член регрессии в каждом наблюдении имеет нулевое математическое ожидание для любого i;

2) дисперсия случайного члена регрессии не зависит от номера наблюдения i;

3) случайные члены регрессии в разных наблюдениях не зависят друг от друга, то есть если i ¹ j;

4) случайный член регрессии и объясняющая переменная в каждом наблюдении независимы друг от друга, то есть для любого i .

Если выполняются условия Гаусса — Маркова, то параметры регрессии, найденные методом наименьших квадратов, являются несмещёнными, состоятельными и эффективными оценками.

— стандартное отклонение параметра b;

— стандартное отклонение параметра a;

— стандартная ошибка параметра b;

— стандартная ошибка параметра a.

Электронная таблица Excel

В общем случае нет возможности проверить условия Гаусса — Маркова и вычислить стандартные отклонения. Поэтому рассмотрим возможности использования эксперимента по методу Монте-Карло. Простейший возможный эксперимент состоит из трех частей.

Во-первых, выбираются истинные значения a и b , и в каждом наблюдении выбирается значение x .

Во-вторых, в каждом наблюдении генерируется значение u , используя некоторый процесс генерации случайных чисел. При этом необходимо, чтобы выполнялись условия Гаусса — Маркова.

В-третьих, применяется регрессионный анализ для оценивания параметров a и b с использованием полученных значений y и x . При этом можно видеть, являются ли а и b хорошими оценками a и b .

На первых двух шагах проводится подготовка к применению регрессионного метода. Полностью контролируем модель, которую создаем. На третьем этапе определяем, может ли поставленная нами задача решаться с помощью метода регрессии, т. е. насколько близки оценки а и b к истинным значениям параметров a и b при использовании только данных о значениях у и x .

Произвольно положим a = 2 и b = 0,5, так что истинная зависимость имеет вид:

y = 2 + 0,5х + u

Предположим, что имеется 20 наблюдений и x принимает значения от 1 до 20. Для случайной остаточной составляющей u будем использовать случайные числа, взятые из нормально распределенной совокупности с нулевым средним и единичной дисперсией, следовательно, и . Нам потребуется набор из 20 значений. Таблица чисел, имеющих подобное распределение, может быть генерирована с помощью надстройки Генерация случайных чисел . При таком задании случайного воздействия u автоматически будут выполняться условия Гаусса — Маркова.

Зная значения x и u в каждом наблюдении, можно вычислить значения y , используя уравнение. Это сделано в таблице 6.

Таблица 6

X	u	y	x	u	y
1	0,41	2,91	11	–0,89	6,61
2	–0,04	2,96	12	–0,49	7,51
3	1,22	4,72	13	1,29	9,79
4	1,22	5,22	14	–0,59	8,41
5	–1,25	3,25	15	–1,28	8,22
6	–0,54	4,46	16	–1,39	8,61
7	0,12	5,62	17	0,02	10,52
8	0,19	6,19	18	1,17	12,17
9	–1,7	4,8	19	1,12	12,62
10	0,05	7,05	20	0,56	12,56

Теперь при оценивании регрессионной зависимости у от x получим:

у = 1,95021 + 0,500932x .

В данном случае оценка а приняла меньшее значение по сравнению с a , а b немного выше по сравнению с b .

На основании данной таблицы можно просчитать среднее отклонение для коэффициентов регрессии . Для чего необходимо вычислить дисперсию x , , и среднее значение из квадратов x, . Тогда

, ,

, .

Вычислить стандартные отклонения мы смогли только потому, что заранее задали все параметры модели, в частности, дисперсию случайного члена . В реальных моделях данный параметр неизвестен, поэтому необходимо воспользоваться несмещённой оценкой данного параметра .

После того, как вычислили стандартные отклонения, можно вычислять стандартные ошибки. Однако для этого понадобятся дисперсия остатков, для чего используя соответствующую надстройку, получим значения остатков. Возможность нахождения остатков нами была рассмотрена ранее.

В данном случае дисперсия остатков будет , тогда . Полученное значение оценки немного превышает значение , которое мы положили равным единице, следовательно, все значения будут несколько превышать теоретические. Стандартные ошибки будут:

, ,

, .

Очевидно, что одного эксперимента такого типа едва ли достаточно для оценки качества метода регрессии. Он дал довольно хорошие результаты, но возможно это лишь счастливый случай. Для дальнейшей проверки повторим эксперимент с тем же истинным уравнением и с теми же значениями x , но с новым набором случайных чисел для остаточного члена, взятых из того же распределения. Используя эти значения u и значения x , получим новый набор значений у . Результаты оценивания регрессии между новыми значениями у и x , при различных наборах случайных величин u , представлены в таблице 7.

Таблица 7

Эксперимент	а	b
1	1,63	0,54
2	2,52	0,48
3	2,13	0,45
4	2,14	0,50
5	1,71	0,56
6	1,81	0,51
7	1,72	0,56
8	3,18	0,41
9	1,26	0,58
10	1,94	0,52

Можно заметить, что в одних случаях оценки принимают заниженные значения, а в других завышенные, однако, в целом значения а и b группируются вокруг истинных значений a и b , равных соответственно 2,00 и 0,50.

При очень большом числе повторений эксперимента можно построить таблицу частот для b и получить аппроксимацию функции плотности вероятности. Это нормальное распределение со средним 0,50 и стандартным отклонением 0,0388.

До сих пор вся работа выполнялась с помощью стандартных функций, однако большая часть информации может быть получена, если использовать надстройку Регрессия . Данная таблица уже рассматривалась нами ранее, но была разобрана только небольшая её часть. Выведем результаты работы надстройки Регрессии для данных из таблицы 6.
В этом случае получим итоговую таблицу 8.

Таблица 8

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,951453
R-квадрат	0,905263
Нормированный R-квадрат	0,9
Стандартная ошибка	0,984977
Наблюдения	20

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	166,8706	166,8706	171,9998	1,19E-10
Остаток	18	17,46322	0,970179
Итого	19	184,3338

	Коэффи циенты	Стандартная ошибка	t-статистика	P- значение	Нижние 95 %	Верхние 95 %
Y-пересечение	1,950211	0,457553	4,262265	0,000469	0,988927	2,91149
X	0,500932	0,038196	13,11487	1,19E-10	0,420686	0,58117

В соответствующем столбце итоговой таблице имеются значения стандартных ошибок, которые полностью совпадают со значениями, полученными ранее, используя вычисления на основании исходных формул.

Задания для самостоятельной работы

1. Проведите подобные исследования, а именно получите стандартные ошибки параметров a и b в случае когда:

a) среднеквадратичное отклонение случайного члена регрессии u имеет удвоенное значение, т. е. ;

b) имеется в два раза больше наблюдений n = 40, при этом разность между соседними значениями x равна 0,5;

c) имеется 20 наблюдений, но расстояние между значениями x в два раза больше.

содержание .. 813 814 815 ..