Математически методи в психологията. Изчисляване на коефициенти на уравнения на линейна регресия

Сдвоена линейна регресия

ПРАКТИКУМ

Сдвоена линейна регресия: Семинар. –

Изучаването на иконометрия включва студенти, придобиващи опит в конструирането на иконометрични модели, вземане на решения относно спецификацията и идентификацията на модел, избор на метод за оценка на параметрите на модела, оценка на неговото качество, интерпретиране на резултатите, получаване на прогнозни оценки и др. Семинарът ще помогне на студентите придобиват практически умения по тези въпроси.

Одобрено от редакционно-издателския съвет

Съставител: М.Б. Перова, доктор по икономика, професор

Общи положения

Иконометричните изследвания започват с теория, която установява връзки между явленията. От целия набор от фактори, влияещи върху ефективния атрибут, са подчертани най-значимите фактори. След като се установи наличието на връзка между изследваните характеристики, чрез регресионен анализ се определя точният вид на тази връзка.

Регресионен анализсе състои в дефиниране на аналитичен израз (в дефиниране на функция), в който промяната на една стойност (резултатна характеристика) се дължи на влиянието на независима стойност (факторна характеристика). Тази връзка може да бъде количествено определена чрез конструиране на регресионно уравнение или регресионна функция.

Основният регресионен модел е сдвоен (еднофакторен) регресионен модел. Сдвоена регресия– уравнение на връзката между две променливи приИ х:

Където – зависима променлива (резултатен атрибут);

– независима, обяснителна променлива (факторна характеристика).

В зависимост от характера на промяната прис промяна хправи разлика между линейни и нелинейни регресии.

Линейна регресия

Тази регресионна функция се нарича полином от първа степен и се използва за описание на процеси, които се развиват равномерно във времето.

Наличие на случаен член (регресионни грешки) се свързва с въздействието върху зависимата променлива на други фактори, които не са взети предвид в уравнението, с възможната нелинейност на модела, грешки в измерването и следователно външния вид уравнение на случайна грешкарегресията може да се дължи на следната цел причини:

1) непредставителност на извадката. Сдвоеният регресионен модел включва фактор, който не може напълно да обясни вариацията в крайната черта, която може да бъде повлияна от много други фактори (пропуснати променливи) в много по-голяма степен. Например заплатите могат да зависят, освен от квалификацията, от нивото на образование, трудов стаж, пол и др.;

2) има възможност променливите, включени в модела, да бъдат измерени с грешка. Например данните за разходите за храна на домакинствата се събират от записите на участниците в проучването, за които се предполага, че внимателно записват ежедневните си разходи. Разбира се, възможни са грешки.

Въз основа на наблюдението на извадката се оценява регресионното уравнение на извадката ( регресионна линия):

,

Където
– оценки на параметрите на регресионното уравнение (
).

Аналитична форма на зависимостмежду изследваната двойка характеристики (регресионна функция) се определя, като се използва следното методи:

    Въз основа на теоретичен и логически анализестеството на изучаваните явления, тяхната социално-икономическа същност. Например, ако се изследва връзката между доходите на домакинствата и размера на депозитите на домакинствата в банките, то е очевидно, че връзката е пряка.

    Графичен метод, когато естеството на връзката се оценява визуално.

Тази зависимост може да се види ясно, ако изградите графика, нанасяйки стойностите на атрибута върху оста x х, а по ординатата - стойностите на характеристиката при. Чрез нанасяне на точките, съответстващи на стойностите хИ при, получаваме корелационно поле:

а) ако точките са произволно разпръснати в полето, това показва липсата на зависимост между тези характеристики;

б) ако точките са концентрирани около ос, преминаваща от долния ляв ъгъл към горния десен, тогава има пряка връзка между характеристиките;

в) ако точките са концентрирани около ос, преминаваща от горния ляв ъгъл към долния десен – тогава има обратна връзка между характеристиките.

Ако свържем точките от корелационното поле с прави отсечки, ще получим начупена линия с известна тенденция към нарастване. Това ще бъде емпирична линия на комуникация или емпирична регресионна линия. По външния му вид може да се съди не само за наличието, но и за формата на зависимост между изследваните характеристики.

Конструиране на сдвоено регресионно уравнение

Конструирането на регресионно уравнение се свежда до оценка на неговите параметри. Тези оценки на параметрите могат да бъдат намерени по различни начини. Един от тях е методът на най-малките квадрати (LSM). Същността на метода е следната. Всяка стойност съответства на емпиричната (наблюдаваната) стойност . Чрез конструиране на регресионно уравнение, например уравнение на права линия, за всяка стойност ще съответства на теоретичната (изчислената) стойност . Наблюдавани стойности не лежат точно на линията на регресия, т.е. не съвпадат . Разликата между действителните и изчислените стойности на зависимата променлива се нарича остатъкът:

Методът на най-малките квадрати дава възможност да се получат такива оценки на параметрите, при които сумата от квадратните отклонения на действителните стойности на получената характеристика приот теоретично , т.е. сумата от квадратите на остатъците е минимална:

За линейни уравнения и нелинейни уравнения, редуцируеми до линейни, следната система се решава по отношение на АИ b:

Където н– размер на извадката.

След като решим системата от уравнения, получаваме стойностите АИ b, което ни позволява да пишем регресионно уравнение(регресионно уравнение):

Където – обяснителна (независима) променлива;

–обяснена (зависима) променлива;

Регресионната линия минава през точката ( ,) и са изпълнени равенствата:

Можете да използвате готови формули, които следват от тази система от уравнения:

Където – средна стойност на зависимия признак;

–средна стойност на независимия признак;

– средноаритметична стойност на произведението на зависимите и независимите характеристики;

– дисперсия на независимата характеристика;

– ковариация между зависими и независими характеристики.

Примерна ковариациядве променливи х, прие средната стойност на произведението на отклоненията на тези променливи от техните средни стойности

Параметър bпри хима голямо практическо значение и се нарича коефициент на регресия. Коефициент на регресияпоказва колко единици се променя средно стойността при хза 1 мерна единица.

Знак за параметър bв уравнение на регресия по двойки показва посоката на връзката:

Ако
, то връзката между изследваните показатели е пряка, т.е. със знак за нарастващ фактор хефективният знак също се увеличава при, и обратно;

Ако
, то връзката между изследваните показатели е обратна, т.е. със знак за нарастващ фактор хрезултатен знак принамалява, както и обратното.

Стойност на параметъра Ав сдвоено регресионно уравнение в някои случаи може да се интерпретира като начална стойност на получената характеристика при. Тази интерпретация на параметъра Авъзможно само ако стойността
има значението.

След построяване на регресионното уравнение наблюдаваните стойности гможе да се представи като:

Остатъци , като грешки , обаче са случайни променливи, за разлика от грешките , наблюдавано. Остатъкът е тази част от зависимата променлива г, което не може да се обясни с регресионно уравнение.

Въз основа на регресионното уравнение може да се изчисли теоретични стойности хза всякакви стойности х.

В икономическия анализ често се използва понятието еластичност на функция. Функция на еластичност
изчислено като относителна промяна гдо относителна промяна х. Еластичността показва с какъв процент се променя функцията
когато независимата променлива се промени с 1%.

Тъй като еластичността на линейна функция
не е постоянна стойност, а зависи от х, тогава коефициентът на еластичност обикновено се изчислява като средна еластичност.

Коефициент на еластичностпоказва с какъв процент средно ще се промени стойността на резултантната характеристика прикогато факторна характеристика се промени хс 1% от средната му стойност:

Където
– средни стойности на променливите хИ прив пробата.

Оценка на качеството на изградения регресионен модел

Качество на регресионния модел– адекватност на изградения модел спрямо оригиналните (наблюдавани) данни.

За измерване на плътността на връзката, т.е. за да измерите колко близо е до функционалното, трябва да определите дисперсията, която измерва отклоненията приот при хи характеризиране на остатъчната вариация, дължаща се на други фактори. Те са в основата на показателите, характеризиращи качеството на регресионния модел.

Качеството на двойната регресия се определя с помощта на характеризиращи коефициенти

1) близост на връзката – индекс на корелация, коефициент на двойна линейна корелация;

2) апроксимационна грешка;

3) качеството на регресионното уравнение и неговите отделни параметри - средните квадратични грешки на регресионното уравнение като цяло и неговите отделни параметри.

За регресионни уравнения от всякакъв тип се определя корелационен индекс, което характеризира само близостта на корелационната зависимост, т.е. степента на неговото доближаване до функционална връзка:

,

Където – факториална (теоретична) дисперсия;

– обща дисперсия.

Индексът на корелация приема стойности
, при което,

Ако

Ако
- връзката между знаците хИ прие функционален, толкова по-близо до 1, толкова по-тясна е връзката между изследваните характеристики. Ако
, тогава връзката може да се счита за близка

Изчисляват се отклоненията, необходими за изчисляване на показателите за плътност на съединителя:

Обща дисперсия, измерваща общата вариация, дължаща се на действието на всички фактори:

Факторна (теоретична) дисперсия,измерване на вариацията на получената черта припоради действието на знака фактор х:

Остатъчна дисперсия, характеризираща вариацията на признака припоради всички фактори с изключение на х(т.е. с изключени х):

След това, съгласно правилото за добавяне на отклонения:

Качество на парната баня линеенрегресията също може да се дефинира с помощта на двойка линеен коефициент на корелация:

,

Където
– ковариация на променливите хИ при;

– стандартно отклонение на независимата характеристика;

– стандартно отклонение на зависимия признак.

Коефициентът на линейна корелация характеризира близостта и посоката на връзката между изследваните характеристики. Измерва се в рамките на [-1; +1]:

Ако
– тогава връзката между характеристиките е пряка;

Ако
– тогава връзката между знаците е обратна;

Ако
– тогава няма връзка между характеристиките;

Ако
или
– тогава връзката между характеристиките е функционална, т.е. характеризиращ се с пълно съответствие между хИ при. Колкото по-близо до 1, толкова по-тясна е връзката между изследваните характеристики.

Ако индексът на корелация (сдвоен линеен коефициент на корелация) се повдигне на квадрат, получаваме коефициента на детерминация.

Коефициент на определяне– представлява дела на факторната вариация в общата сума и показва с какъв процент е вариацията на получената характеристика приобяснява се с вариация на факторната характеристика х:

Не характеризира цялата вариация приот фактор знак х, а само тази част от него, която съответства на уравнението на линейната регресия, т.е. показва съотношението на вариацията в резултантната характеристика, която е линейно свързана с вариацията във факторната характеристика.

величина
– съотношението на вариацията в получената характеристика, която регресионният модел не може да вземе предвид.

Разсейването на точките в корелационното поле може да бъде много голямо и изчисленото регресионно уравнение може да даде голяма грешка при оценката на анализирания показател.

Средна апроксимационна грешкапоказва средното отклонение на изчислените стойности от действителните:

Максимално допустимата стойност е 12–15%.

Стандартната грешка е мярка за разпространението на зависимата променлива около регресионната линия за целия набор от наблюдавани стойности стандарт (rms) грешка на регресионното уравнение, което е стандартното отклонение на действителните стойности приспрямо теоретичните стойности, изчислени с помощта на регресионното уравнение при х .

,

Където
– брой степени на свобода;

м– брой параметри на регресионното уравнение (за уравнението на правата линия м=2).

Можете да оцените стойността на средната квадратична грешка, като я сравните

а) със средната стойност на получената характеристика при;

б) със стандартното отклонение на характеристиката при:

Ако
, тогава използването на това регресионно уравнение е подходящо.

Оценява се отделно стандартен (среден квадрат) грешки на параметрите на уравнението и индекса на корелация:

;
;
.

х- стандартно отклонение х.

Проверка на значимостта на регресионното уравнение и показателите за плътност на връзката

За да може конструираният модел да се използва за по-нататъшни икономически изчисления, проверката на качеството на конструирания модел не е достатъчна. Необходимо е също така да се провери значимостта (значимостта) на оценките на регресионното уравнение, получени с помощта на метода на най-малките квадрати и индикатора за сила на връзката, т.е. е необходимо да ги проверите за съответствие с истинските параметри на връзката.

Това се дължи на факта, че показателите, изчислени от ограничена популация, запазват елемента на случайност, присъщ на индивидуалните стойности на атрибута. Следователно те са само оценки на определен статистически модел. Необходимо е да се оцени степента на точност и значимост (надеждност, значимост) на регресионните параметри. Под значимостразберете вероятността стойността на тествания параметър да не е нула и да не включва стойности с противоположни знаци.

Проверка на значимостта– проверка на предположението, че параметрите са различни от нула.

Оценяване на значимостта на сдвоено регресионно уравнениесе свежда до проверка на хипотези за значимостта на регресионното уравнение като цяло и неговите отделни параметри ( а, b), двоен коефициент на детерминация или индекс на корелация.

В този случай може да се посочи следното: основни хипотезиз 0 :

1)
– коефициентите на регресия са незначими и уравнението на регресията също е незначимо;

2)
– двойният коефициент на детерминация е незначим и регресионното уравнение също е незначимо.

Следните хипотези са алтернативни (или обратни):

1)
– регресионните коефициенти са значително различни от нула, а построеното регресионно уравнение е значимо;

2)
– двойният коефициент на детерминация е значително различен от нула и построеното регресионно уравнение е значимо.

Тестване на хипотезата за значимостта на сдвоеното регресионно уравнение

За да проверим хипотезата за статистическата незначимост на регресионното уравнение като цяло и коефициента на детерминация, използваме Е-критерий(Тест на Фишер):

или

Където к 1 = м–1 ; к 2 = нм – брой степени на свобода;

н– брой единици съвкупност;

м– брой параметри на регресионното уравнение;

–факторна дисперсия;

– остатъчна дисперсия.

Хипотезата се тества, както следва:

1) ако действителната (наблюдаваната) стойност Е-критерият е по-голям от критичната (таблична) стойност на този критерий
, тогава с вероятност
основната хипотеза за незначимостта на регресионното уравнение или сдвоения коефициент на детерминация се отхвърля и регресионното уравнение се счита за значимо;

2) ако действителната (наблюдаваната) стойност на F-критерия е по-малка от критичната стойност на този критерий
, тогава с вероятност (
) се приема основната хипотеза за незначимостта на регресионното уравнение или сдвоения коефициент на детерминация и конструираното регресионно уравнение се счита за незначително.

Критична стойност Е-критериите се намират в съответните таблици в зависимост от нивото на значимост и брой степени на свобода
.

Брой степени на свобода– показател, който се определя като разлика между размера на извадката ( н) и броя на оценените параметри за дадена проба ( м). За модел на регресия по двойки, броят на степените на свобода се изчислява като
, тъй като два параметъра се оценяват от извадката (
).

Ниво на значимост – определена стойност
,

Където – доверителна вероятност оцененият параметър да попадне в доверителния интервал. Обикновено се приема 0,95. По този начин е вероятността оцененият параметър да не попадне в доверителния интервал, равен на 0,05 (5%).

След това, в случай на оценка на значимостта на сдвоеното регресионно уравнение, критичната стойност на F-теста се изчислява като
:

.

Тестване на хипотезата за значимостта на параметрите на сдвоеното регресионно уравнение и корелационния индекс

При проверка на значимостта на параметрите на уравнението (предположението, че параметрите са различни от нула), се излага основната хипотеза за незначимостта на получените оценки (
. Като алтернативна (обратна) хипотеза се излага за значимостта на параметрите на уравнението (
).

За проверка на изложените хипотези се използва T -критерий (T-статистика) Тест на ученика. Наблюдавана стойност T-критерият се сравнява със стойността T-критерий, определен от таблицата за разпределение на Student (критична стойност). Критична стойност T- критерии
зависи от два параметъра: ниво на значимост и брой степени на свобода
.

Изложените хипотези се проверяват, както следва:

1) ако абсолютната стойност на наблюдаваната стойност T-критерии по-големи от критичната стойност T-критерии, т.е.
, тогава с вероятност
отхвърля се основната хипотеза за незначимостта на регресионните параметри, т.е. регресионните параметри не са равни на 0;

2) ако абсолютната стойност на наблюдаваната стойност T-критерият е по-малък или равен на критичната стойност T-критерии, т.е.
, тогава с вероятност
се приема основната хипотеза за незначимостта на регресионните параметри, т.е. Параметрите на регресията почти не се различават от 0 или равни на 0.

Оценяването на значимостта на коефициентите на регресия с помощта на теста на Студент се извършва чрез сравняване на техните оценки със стойността на стандартната грешка:

;

За оценка на статистическата значимост на корелационния индекс (линеен коефициент) се използва също T-Т-тест на Стюдент.

Задача.

За предприятията от леката промишленост в региона е получена информация, характеризираща зависимостта на обема на продукцията (Y, млн. Рубли) от обема на капиталовите инвестиции (Y, млн. Рубли).

Маса 1.

Зависимост на обема на продукцията от обема на капиталните вложения.

х
Y

Задължително:

1. Намерете параметрите на уравнението на линейната регресия, дайте икономическа интерпретация на коефициента на регресия.

2. Изчислете остатъците; намерете остатъчната сума на квадратите; оценка на дисперсията на остатъците; начертайте остатъците.

3. Проверете изпълнението на предпоставките на MNC.

4. Проверете значимостта на параметрите на регресионното уравнение с помощта на t-критерия на Стюдънт (α = 0,05).

5. Изчислете коефициента на детерминация, проверете значимостта на регресионното уравнение с помощта на F теста на Фишер (α = 0,05), намерете средната относителна грешка на приближението. Направете заключение за качеството на модела.

6. Прогнозирайте средната стойност на показателя Y при ниво на значимост α = 0,1, ако прогнозираната стойност на фактор X е 80% от максималната му стойност.

7. Представете графично действителните и моделни Y стойности на прогнозната точка.

8. Създайте нелинейни регресионни уравнения и ги начертайте:

Хиперболичен;

мощност;

Показателно.

9. За посочените модели намерете коефициентите на детерминация и средните относителни грешки на апроксимацията. Сравнете моделите въз основа на тези характеристики и направете заключение.

Нека намерим параметрите на уравнението на линейната регресия и да дадем икономическа интерпретация на коефициента на регресия.

Уравнението на линейната регресия е: ,

Изчисленията за намиране на параметрите a и b са дадени в таблица 2.

Таблица 2.

Изчисляване на стойности за намиране на параметри на уравнение на линейна регресия.

Уравнението на регресията изглежда така: y = 13,8951 + 2,4016*x.

С увеличаване на обема на капиталовите инвестиции (X) с 1 милион рубли. обемът на продукцията (Y) ще се увеличи средно с 2,4016 милиона рубли. По този начин има положителна корелация на знаците, което показва ефективността на предприятията и рентабилността на инвестициите в техните дейности.

2. Изчислете остатъците; намерете остатъчната сума на квадратите; нека оценим дисперсията на остатъците и нанесете остатъците.

Остатъците се изчисляват по формулата: e i = y i - y прогноза

Остатъчна сума на квадратите на отклоненията: = 207,74.

Разпръскване на остатъците: 25.97.

Изчисленията са показани в таблица 3.

Таблица 3.

Y х Y=a+b*xi e i = y i - y прогноза. e i 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
Сума 0,00 207,74
Средно аритметично 111,4 40,6

Диаграмата на баланса изглежда така:


Фиг. 1. Балансова диаграма

3. Да проверим изпълнението на предпоставките на MNC, което включва елементите:

- проверка дали математическото очакване на случайния компонент е равно на нула;

- случаен характер на останките;

- проверка за независимост;

- съответствие на редица остатъци с нормалния закон за разпределение.

Проверка на равенството на математическото очакване на нивата на поредица от остатъци на нула.

Извършва се по време на тестване на съответната нулева хипотеза H 0: . За целта се конструира t-статистика, където .

, така че хипотезата се приема.

Случаен характер на остатъците.

Нека проверим случайността на нивата на редица остатъци, като използваме критерия за повратна точка:

Броят на повратните точки се определя от таблицата на остатъците:

e i = y i - y прогноза. Повратни точки e i 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
Сума 0,00 207,74 354,62
Средно аритметично

= 6 > , следователно, свойството за случайност на остатъците е изпълнено.

Независимост на остатъкапроверено с помощта на теста на Дърбин-Уотсън:

=4 - 1,707 = 2,293.

Тъй като попада в интервала от d 2 до 2, тогава според този критерий можем да заключим, че свойството за независимост е изпълнено. Това означава, че няма автокорелация в динамичните серии, следователно моделът е адекватен според този критерий.

Съответствие на редица остатъци с нормалния закон на разпределениеопределени с помощта на критерия R/S с критични нива (2,7-3,7);

Нека изчислим RS стойността:

RS = (e max - e min)/ S,

където e max е максималната стойност на нивата на редица остатъци E(t) = 8,07;

e min - минималната стойност на нивата на редица остатъци E(t) = -6,54.

S - стандартно отклонение, = 4,8044.

RS = (e max - e min)/ S = (8,07 + 6,54)/4,8044 = 3,04.

От 2.7< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

По този начин, след като разгледахме различни критерии за изпълнение на предпоставките на MNC, стигаме до извода, че предпоставките на MNC са изпълнени.

4. Нека проверим значимостта на параметрите на регресионното уравнение с помощта на t-тест на Стюдънт α = 0,05.

Проверката на значимостта на отделните регресионни коефициенти е свързана с определяне на изчислените стойности t-тест (t-статистика)за съответните регресионни коефициенти:

След това изчислените стойности се сравняват с табличните t маса= 2,3060. Табличната стойност на критерия се определя при ( н- 2) степени на свобода ( н-брой наблюдения) и съответното ниво на значимост a (0,05)

Ако изчислената стойност на t-теста с (н- 2) степените на свобода надвишават табличната си стойност при дадено ниво на значимост, коефициентът на регресия се счита за значим.

В нашия случай регресионните коефициенти a 0 са незначими, а 1 са значими коефициенти.


Ориз. 2.1. График на регресионна линия

Първият израз позволява дадени стойности на фактора хизчислете теоретичните стойности на получената характеристика, като замените действителните стойности на фактора в нея х. На графиката теоретичните стойности лежат на права линия, която представлява регресионна линия (фиг. 2.1).

Изграждането на линейна регресия се свежда до оценка на нейните параметри АИ b. Класическият подход за оценка на параметрите на линейната регресия се основава на метод на най-малките квадрати (LSM).

Методът на най-малките квадрати ни позволява да получим такива оценки на параметри a и b, за които сумата от квадратните отклонения на действителните стойности от теоретичните е минимална:

За да се намери минимумът, е необходимо да се изчислят частните производни на сумата (4) за всеки от параметрите - АИ b– и ги приравняват към нула.

(5)

Нека се трансформираме, получаваме система от нормални уравнения:

(6)

В тази система н-размер на извадката, сумите се изчисляват лесно от оригиналните данни. Решаваме системата по отношение на АИ b, получаваме:

(7)

. (8)

Израз (7) може да бъде записан в друга форма:

(9)

където е ковариацията на признаците, дисперсията на фактора х.

Параметър bНаречен регресионен коефициент.Стойността му показва средната промяна в резултата с промяна на коефициента с една единица. Възможността за ясна икономическа интерпретация на регресионния коефициент направи уравнението на линейната регресия по двойки доста често срещано в иконометричните изследвания.

Формално а –значение гпри x = 0. Ако хняма и не може да има нулева стойност, тогава тази интерпретация на свободния термин аняма смисъл. Параметър аможе да няма икономическо съдържание. Опитите за икономическо тълкуване могат да доведат до абсурд, особено когато а< 0. Интерпретировать можно лишь знак при параметре а.Ако а> 0, тогава относителната промяна в резултата настъпва по-бавно от промяната във фактора. Нека сравним тези относителни промени:

< при > 0, > 0 <

Понякога се записва линейно уравнение на регресия по двойки за отклонения от средната стойност:

Където , . В този случай свободният член е равен на нула, което е отразено в израз (10). Този факт следва от геометрични съображения: същата права линия (3) съответства на уравнението на регресията, но когато се оценява регресията в отклонения, началото на координатите се премества в точката с координати . В този случай в израз (8) и двете суми ще бъдат равни на нула, което ще доведе до равенство на свободния член на нула.

Нека разгледаме, като пример, за група предприятия, произвеждащи един вид продукт, регресионната зависимост на разходите от продукцията на продукта .

Таблица 2.1

Продуктова продукция хиляди единици () Производствени разходи, милиона рубли ()
31,1
67,9

Продължение на таблица 2.1

141,6
104,7
178,4
104,7
141,6
Общо: 22 770,0

Системата от нормални уравнения ще изглежда така:

Решавайки го, получаваме а =-5,79, b = 36,84.

Регресионното уравнение е:

Заместване на стойностите в уравнението х, нека намерим теоретичните стойности г(последната колона на таблицата).

величина аняма икономически смисъл. Ако променливите хИ гизразено чрез отклонения от средните нива, тогава регресионната линия на графиката ще минава през началото. Оценката на коефициента на регресия няма да се промени:

, Където , .

При линейната регресия коефициентът на линейна корелация служи като индикатор за близостта на връзката r:

Стойността характеризира дела на дисперсията г, причинени от влиянието на други фактори, които не са взети предвид в модела.

2.3. Предварителни условия на OLS (условия на Гаус-Марков)

Връзка между гИ хпри двойката регресията не е функционална, а корелационна. Следователно оценките на параметрите аИ bса случайни променливи, чиито свойства значително зависят от свойствата на случайния компонент ε. За да се получат най-добри резултати при използване на OLS, трябва да бъдат изпълнени следните предпоставки по отношение на случайното отклонение (условия на Гаус-Марков):

1. Математическото очакване на случайното отклонение е нула за всички наблюдения: .

2. Дисперсията на случайните отклонения е постоянна: .

Осъществимостта на тази предпоставка се нарича хомоскедастизъм -постоянна вариация на отклоненията. Невъзможността на тази предпоставка се нарича хетероскедастичност -непостоянство на дисперсията на отклоненията.

3. Случайни отклонения εiИ ε jса независими един от друг за:

Осъществимостта на това условие се нарича липса на автокорелация.

4. Случайната дисперсия трябва да е независима от обяснителните променливи. Обикновено това условие се изпълнява автоматично, ако обяснителните променливи в даден модел не са случайни. В допълнение, осъществимостта на тази предпоставка за иконометричните модели не е толкова критична в сравнение с първите три.

Ако посочените предпоставки са изпълнени, тогава Теорема на Гаус-Марков: Оценките (7) и (8), получени с помощта на OLS, имат най-малката вариация в класа на всички линейни безпристрастни оценки .

Така, ако условията на Гаус са изпълнени - Оценките на Марков (7) и (8) са не само безпристрастни оценки на регресионните коефициенти, но и най-ефективните, т.е. те имат най-малката вариация в сравнение с всички други оценки на тези параметри, които са линейни по отношение на стойностите y i.

Това е разбирането за важността на условията на Гаус - Марков разграничава компетентния изследовател, използващ регресионен анализ, от некомпетентния. Ако тези условия не са изпълнени, изследователят трябва да е наясно с това. Ако е възможно коригиращо действие, тогава анализаторът трябва да може да го предприеме. Ако ситуацията не може да бъде коригирана, изследователят трябва да може да прецени колко сериозно това може да повлияе на резултатите.

2.4. Оценка на значимостта на линейните параметри
регресии и корелации

След като се намери уравнението на линейната регресия (3), се оценява значимостта както на уравнението като цяло, така и на отделните му параметри.

Дава се оценка на значимостта на регресионното уравнение като цяло Е- Критерий на Фишер. В този случай се излага нулева хипотеза, че регресионният коефициент е равен на нула и следователно факторът хне влияе на резултата г.

Преди да се изчисли критерият, се извършва дисперсионен анализ. Може да се покаже, че общата сума на квадратните отклонения (MSD) гот средната стойност се разлага на две части - обяснима и необяснена:


(Общо RMSE) =

Тук са възможни два екстремни случая: когато общото стандартно отклонение е точно равно на остатъчното стандартно отклонение и когато общото стандартно отклонение е равно на факторното стандартно отклонение.

В първия случай факторът хняма ефект върху резултата, всички отклонения гпоради влиянието на други фактори, регресионната линия е успоредна на оста оИ .

Във втория случай други фактори не влияят на резултата, гСвързано с хфункционално и остатъчната RMSE е нула.

Но на практика и двата члена присъстват от дясната страна на (13). Полезността на регресионната линия за прогнозиране зависи от това каква част от общата вариация готчита обяснената вариация. Ако обясненото стандартно отклонение е по-голямо от остатъчното стандартно отклонение, тогава регресионното уравнение е статистически значимо и факторът хима значително влияние върху резултата г. Това е еквивалентно на факта, че коефициентът на детерминация ще се доближи до единица.

Брой степени на свобода.(df-степени на свобода) е броят на независимо променящите се стойности на характеристика.

За общо стандартно отклонение са необходими независими отклонения, тъй като което ви позволява свободно да променяте стойностите и последното нОтклонението се определя от общата сума, равна на нула. Ето защо .

Факторното стандартно отклонение може да се изрази, както следва:

Това стандартно отклонение зависи само от един параметър б,тъй като изразът под знака на сумата не се отнася за стойностите на получената характеристика. Следователно факторното стандартно отклонение има една степен на свобода и

За да определим това, ще използваме аналогията с равенството на баланса (11). Точно както в равенството (11), можем да запишем равенство между броя на степените на свобода:

Така можем да пишем . От този баланс определяме това

Разделяйки всяко стандартно отклонение на неговия брой степени на свобода, получаваме среден квадрат на отклоненията,или дисперсия за степен на свобода:

. (15)

. (16)

. (17)

Сравнявайки фактора и остатъчните дисперсии за степен на свобода, получаваме Е-критерий за проверка на нулевата хипотеза, която в случая се записва като

Ако е вярно, тогава вариациите не се различават една от друга. За да е необходимо опровержение, факторната дисперсия надвишава остатъчната дисперсия няколко пъти.

Английският статистик Снедекор разработи таблици на критичните стойности Епри различни нива на материалност на Snedecor и различен брой степени на свобода. Таблица стойност Е-критерият е максималната стойност на съотношението на дисперсии, която може да възникне, ако те се разминават произволно за дадено ниво на вероятност на нулевата хипотеза.

При намиране на таблична стойност Е- критерий, посочено е ниво на значимост (обикновено 0,05 или 0,01) и две степени на свобода - числител (тя е равна на единица) и знаменател, равна на

Изчислена стойност Есе счита за надежден (различен от единица), ако е по-голям от табличната стойност, т.е. (α;1; ). В този случай той се отхвърля и се прави заключение за значимостта на превишението D фактпо-горе D остатъчен, т.е. относно съществеността статистическа връзкамежду гИ х.

Ако , тогава вероятността е по-висока от определено ниво (например: 0,05) и тази хипотеза не може да бъде отхвърлена без сериозен риск да се направи грешно заключение за наличието на връзка между гИ х.Регресионното уравнение се счита за статистически незначимо и не се отхвърля.

величина Е-критерий е свързан с коефициента на детерминация.

, (19)

При линейната регресия обикновено се оценява значимостта не само на уравнението като цяло, но и на отделните му параметри.

Стандартната грешка на регресионния коефициент се определя по формулата:

, (20)

Остатъчна дисперсия за степен на свобода (същото като ).

Стойността на стандартната грешка заедно с T-Разпределението на Стюдънт при степени на свобода се използва за тестване на значимостта на регресионния коефициент и за изчисляване на неговите доверителни интервали.

Големината на регресионния коефициент се сравнява с неговата стандартна грешка; определена действителна стойност T- t тест на ученика

която след това се сравнява с табличната стойност при определено ниво на значимост α и броя на степените на свобода. Тук нулевата хипотеза се тества във формата, която също предполага незначимостта на статистическата връзка между гИ х, но само като се вземе предвид стойността b, а не съотношението между факторните и остатъчните дисперсии в общия баланс на дисперсията на резултантната характеристика. Но общото значение на хипотезите е същото: проверка на наличието на статистическа връзка между гИ хили липса на такава.

Ако (α; ), тогава хипотезата трябва да бъде отхвърлена и статистическата връзка гс хсе счита за установено. В случай (α; ), нулевата хипотеза не може да бъде отхвърлена и ефектът хНа гсе счита за незначителен.

Има връзка между и Е:

Следва, че

Доверителен интервал за bопределен като

където е стойността на регресионния коефициент, изчислена (оценена) с помощта на OLS.

Стандартната грешка на параметъра се определя по формулата:

Процедура за оценка на съществеността ане се различава от този за параметъра b. В този случай действителната стойност T-критериите се изчисляват по формулата:

Процедурата за тестване на значимостта на линеен корелационен коефициент се различава от описаните по-горе процедури. Това се обяснява с rкак една случайна променлива се разпределя според нормален закон само за голям брой наблюдения и малки стойности | r|. В този случай хипотезата за липса на корелация между гИ хпроверени въз основа на статистика

, (26)

което, ако е справедливо, е приблизително разпределено според закона на Стюдънт с () степени на свобода. Ако , тогава хипотезата се отхвърля с вероятност за грешка, която не надвишава α . От (19) става ясно, че при сдвоена линейна регресия . Освен това, следователно . По този начин, тестването на хипотези за значимостта на коефициентите на регресия и корелация е еквивалентно на тестване на хипотезата за значимостта на уравнение на линейна регресия.

Но с малки проби и стойности r, близо до , трябва да се има предвид, че разпределението rкак една случайна променлива се различава от нормалната и конструиране на доверителни интервали за rне може да се направи по стандартен начин. В този случай обикновено е лесно да се стигне до противоречие, а именно, че доверителният интервал ще съдържа стойности, по-големи от единица.

За да се заобиколи тази трудност, т.нар
z-Трансформация на Фишер:

, (27)

което дава нормално разпределено количество z, чиито стойности при промяна rот –1 до +1 промяна от -∞ до +∞. Стандартната грешка на тази стойност е:

. (28)

За стойност zима таблици, които показват неговите стойности за съответните стойности r.

За zизлага се нулевата хипотеза, която е, че няма корелация. В този случай статистическите стойности

която е разпределена съгласно закона на Стюдънт с () степени на свобода, не надвишава табличната стойност на съответното ниво на значимост.

За всяка стойност zкритичните стойности могат да бъдат изчислени r. Таблици с критични стойности rпроектирани за нива на значимост от 0,05 и 0,01 и съответния брой степени на свобода. Ако изчислената стойност rнадвишава табличната стойност по абсолютна стойност, тогава тази стойност rсчитан за значителен. В противен случай действителната стойност е без значение.

2.5. Нелинейни регресионни модели
и тяхната линеаризация

Досега сме разглеждали само линеенрегресионен модел гот х(3). В същото време има много важни връзки в икономиката нелинейни. Примери за този вид регресионни модели са производствените функции (зависимостите между обема на произведената продукция и основните производствени фактори – труд, капитал и др.) и функциите на търсенето (зависимостите между търсенето на всякакъв вид стоки или услуги, от една страна, а доходите и цените за тази и други стоки - от друга).

Когато се анализират нелинейни регресионни зависимости, най-важният въпрос при използването на класическите най-малки квадрати е методът на тяхната линеаризация. В случай на линеаризация на нелинейната зависимост, получаваме уравнение на линейна регресия от тип (3), чиито параметри се оценяват по обичайния метод на най-малките квадрати, след което може да се запише първоначалната нелинейна връзка.

Полиномен модел с произволна степен стои донякъде отделно в този смисъл:

към които може да се приложи обичайният метод на най-малките квадрати без предварителна линеаризация.

Нека разгледаме тази процедура във връзка с парабола от втора степен:

. (31)

Такава зависимост е подходяща, ако за определен интервал от стойности на фактор нарастващата зависимост се промени в намаляваща или обратно. В този случай е възможно да се определи стойността на фактора, при който се постига максималната или минималната стойност на получената характеристика. Ако оригиналните данни не открият промяна в посоката на връзката, параметрите на параболата стават трудни за интерпретиране и формата на връзката е по-добре заменена от други нелинейни модели.

Използването на методите на най-малките квадрати за оценка на параметрите на парабола от втора степен се свежда до диференциране на сумата от квадратите на регресионните остатъци за всеки от оценените параметри и приравняването на получените изрази към нула. Получава се система от нормални уравнения, чийто брой е равен на броя на оценяваните параметри, т.е. три:

(32)

Тази система може да бъде решена по всякакъв начин, по-специално с помощта на детерминантния метод.

Екстремната стойност на функцията се наблюдава, когато стойността на фактора е равна на:

Ако , тогава има максимум, т.е. зависимостта първо расте, а след това спада. Този вид зависимост се наблюдава в икономиката на труда при изследване на заплащането на физически работници, когато възрастта играе ролята на фактор. Когато параболата има минимум, който обикновено се проявява в разходите за единица продукция в зависимост от обема на продукцията.

При нелинейни зависимости, които не са класически полиноми, задължително се извършва предварителна линеаризация, която се състои в трансформиране на променливи или параметри на модела, или комбинация от тези трансформации. Нека разгледаме някои класове такива зависимости.

Зависимостите от хиперболичен тип имат формата:

. (33)

Пример за такава зависимост е Крива на Филипс, като се посочва обратната връзка между процента на нарастване на заплатите и нивото на безработица. В този случай стойността на параметъра bще бъде по-голямо от нула.

Друг пример за зависимост (33) е Криви на Енгел, формулира следната закономерност: с увеличаване на доходите делът на доходите, изразходван за храна, намалява, а делът на доходите, изразходван за нехранителни продукти, ще се увеличи. В този случай полученият знак в (33) показва дела на разходите за нехранителни продукти.

Линеаризацията на уравнение (33) се свежда до заместване на фактора , а регресионното уравнение има формата (3), в което вместо фактора хизползваме фактора z:

Полулогаритмичната крива се свежда до същото линейно уравнение:

, (35)

които могат да се използват за описание на криви на Engel. Тук ln( х) се заменя с zи получаваме уравнение (34).

Доста широк клас икономически показатели се характеризира с приблизително постоянен темп на относителен растеж във времето. Това съответства на зависимости от експоненциален (експоненциален) тип, които се записват във формата:

или във формата

. (37)

Възможна е и следната зависимост:

. (38)

При регресии от тип (36) - (38) се използва същият метод на линеаризация - логаритъм. Уравнение (36) се редуцира до формата:

. (39)

Промяната на променливата я редуцира до линейна форма:

, (40)

Където . Ако дудовлетворява условията на Гаус-Марков, параметрите на уравнение (36) се оценяват с помощта на метода на най-малките квадрати от уравнение (40). Уравнение (37) се редуцира до формата:

което се различава от (39) само по формата на свободния член, а линейното уравнение изглежда така:

, (42)

Където . Настроики АИ bсе получават чрез обичайния метод на най-малките квадрати, след това параметърът ав зависимост от (37) се получава като антилогаритъм А. Когато вземаме логаритми (38), получаваме линейна зависимост:

, (43)

където , а останалите обозначения са същите като по-горе. Тук OLS също се прилага към трансформираните данни и параметъра bза (38) се получава като антилогаритъм на коефициента IN.

Степенните отношения са широко разпространени в практиката на социално-икономическите изследвания. Те се използват за конструиране и анализ на производствени функции. Във функции като:

Особено ценен е фактът, че параметърът bравен на коефициента на еластичност на получената характеристика по фактор х. Преобразувайки (44) чрез логаритъм, получаваме линейна регресия:

, (45)

Друг вид нелинейност, сведен до линейна форма, е обратната зависимост:

. (46)

Извършвайки подмяната, получаваме.

Изследването на корелационните зависимости се основава на изследването на такива връзки между променливи, при които стойностите на една променлива, която може да се приеме като зависима променлива, „средно“ се променят в зависимост от стойностите, взети от друга променлива, разглеждана като причина по отношение на зависимата променлива. Действието на тази причина се осъществява в условията на сложно взаимодействие на различни фактори, в резултат на което проявлението на модела се замъглява от влиянието на случайността. Чрез изчисляване на средните стойности на ефективния атрибут за дадена група от стойности на фактора-атрибут, влиянието на случайността е частично елиминирано. Чрез изчисляване на параметрите на теоретичната комуникационна линия те се елиминират допълнително и се получава еднозначно (по форма) изменение на “y” с изменение на фактора “x”.

За изследване на стохастичните връзки широко се използват методът за сравняване на две паралелни серии, методът на аналитичните групировки, корелационният анализ, регресионният анализ и някои непараметрични методи. Като цяло задачата на статистиката в областта на изучаването на връзките е не само да определи количествено тяхното присъствие, посока и сила на връзката, но и да определи формата (аналитичното изражение) на влиянието на факторните характеристики върху резултатната. За решаването му се използват методи на корелационен и регресионен анализ.

ГЛАВА 1. РЕГРЕСИОННО УРАВНЕНИЕ: ТЕОРЕТИЧНИ ОСНОВИ

1.1. Регресионно уравнение: същност и видове функции

Регресията (лат. regressio - обратно движение, преход от по-сложни форми на развитие към по-малко сложни) е едно от основните понятия в теорията на вероятностите и математическата статистика, изразяващо зависимостта на средната стойност на случайна величина от стойностите на друга случайна променлива или няколко случайни променливи. Тази концепция е въведена от Франсис Галтън през 1886 г.

Теоретичната регресионна линия е линията, около която са групирани точките на корелационното поле и която показва основната посока, основната тенденция на връзката.

Теоретичната регресионна линия трябва да отразява промяната в средните стойности на ефективния атрибут "y" при промяна на стойностите на факторния атрибут "x", при условие че всички други причини, произволни по отношение на фактора "x" , са напълно отменени. Следователно тази линия трябва да бъде начертана така, че сумата от отклоненията на точките на корелационното поле от съответните точки на теоретичната линия на регресия да е равна на нула, а сумата от квадратите на тези отклонения да е минимална.

y=f(x) - регресионното уравнение е формула за статистическата връзка между променливите.

Права линия в равнина (в двумерно пространство) се дава от уравнението y=a+b*x. По-подробно, променливата y може да бъде изразена чрез константа (a) и наклон (b), умножени по променливата x. Константата понякога се нарича също интерсепт, а наклонът понякога се нарича регресия или B-коефициент.

Важен етап от регресионния анализ е определянето на вида на функцията, с която се характеризира зависимостта между характеристиките. Основната основа трябва да бъде смислен анализ на природата на изследваната зависимост и нейния механизъм. В същото време не винаги е възможно теоретично да се обоснове формата на връзката между всеки от факторите и показателя за ефективност, тъй като изследваните социално-икономически явления са много сложни и факторите, които формират тяхното ниво, са тясно преплетени и взаимодействат един с друг. Следователно на базата на теоретичен анализ често могат да се направят най-общи изводи относно посоката на връзката, възможността за нейното изменение в изследваната популация, легитимността на използването на линейна връзка, възможното наличие на екстремни стойности, и т.н. Необходимо допълнение към подобни предположения трябва да бъде анализ на конкретни фактически данни.

Приблизителна представа за линията на връзката може да се получи въз основа на емпиричната регресионна линия. Емпиричната регресионна линия обикновено е прекъсната линия и има повече или по-малко значимо прекъсване. Това се обяснява с факта, че влиянието на други неотчетени фактори, които влияят върху вариацията на получената характеристика, е непълно заличено в средната стойност поради недостатъчно големия брой наблюдения, следователно може да се използва емпирична линия на комуникация за избор и обосновете вида на теоретичната крива, при условие че броят на наблюденията е достатъчно голям.

Един от елементите на специфичните изследвания е сравнението на различни уравнения на зависимостта, основано на използването на критерии за качество за приближаване на емпирични данни чрез конкурентни версии на модели, които най-често се използват за характеризиране на връзките на икономическите показатели:

1. Линеен:

2. Хиперболично:

3. Демонстративни:

4. Параболичен:

5. Мощност:

6. Логаритмичен:

7. Логистика:

Модел с една обяснителна и една обяснена променлива е сдвоен регресионен модел. Ако се използват две или повече обяснителни (факторни) променливи, тогава говорим за използване на множествен регресионен модел. В този случай като опции могат да бъдат избрани линейни, експоненциални, хиперболични, експоненциални и други видове функции, свързващи тези променливи.

За намиране на параметрите a и b на регресионното уравнение се използва методът на най-малките квадрати. Когато се прилага методът на най-малките квадрати за намиране на функция, която най-добре отговаря на емпиричните данни, се смята, че сумата от квадрати на отклонения на емпиричните точки от теоретичната регресионна линия трябва да бъде минимална стойност.

Критерият на най-малките квадрати може да се запише по следния начин:

Следователно използването на метода на най-малките квадрати за определяне на параметрите a и b на линията, която най-добре съответства на емпиричните данни, се свежда до екстремумен проблем.

По отношение на оценките могат да се направят следните изводи:

1. Оценителите на най-малките квадрати са функции на извадката, което ги прави лесни за изчисляване.

2. Оценките на най-малките квадрати са точкови оценки на теоретичните регресионни коефициенти.

3. Правата на емпиричната регресия задължително минава през точката x, y.

4. Емпиричното регресионно уравнение е конструирано по такъв начин, че сумата от отклоненията

.

Графично представяне на емпиричната и теоретичната линия на комуникация е представено на фигура 1.


Параметърът b в уравнението е регресионният коефициент. При наличие на пряка корелация коефициентът на регресия е положителен, а при обратна корелация коефициентът на регресия е отрицателен. Коефициентът на регресия показва колко средно се променя стойността на ефективния атрибут "y" при промяна на факторния атрибут "x" с единица. Геометрично, коефициентът на регресия е наклонът на правата линия, изобразяваща корелационното уравнение спрямо оста "x" (за уравнението

).

Клонът на многовариантния статистически анализ, посветен на реконструкцията на зависимостите, се нарича регресионен анализ. Терминът "линеен регресионен анализ" се използва, когато разглежданата функция зависи линейно от оценените параметри (зависимостта от независими променливи може да бъде произволна). Теория на оценяването

неизвестни параметри е добре развит специално в случай на линеен регресионен анализ. Ако няма линейност и е невъзможно да се премине към линеен проблем, тогава по правило не могат да се очакват добри свойства от оценките. Ще демонстрираме подходи в случай на зависимости от различни типове. Ако зависимостта има формата на полином (полином). Ако изчисляването на корелацията характеризира силата на връзката между две променливи, тогава регресионният анализ служи за определяне на вида на тази връзка и дава възможност да се предскаже стойността на една (зависима) променлива въз основа на стойността на друга (независима) променлива . За да се проведе линеен регресионен анализ, зависимата променлива трябва да има интервална (или ординална) скала. В същото време двоичната логистична регресия разкрива зависимостта на дихотомна променлива от друга променлива, свързана с произволен мащаб. Същите условия за кандидатстване важат за пробит анализа. Ако зависимата променлива е категорична, но има повече от две категории, тогава мултиномиалната логистична регресия е подходящ метод; могат да се анализират нелинейни връзки между променливи, които принадлежат към интервална скала. За тази цел е предназначен методът на нелинейната регресия.

Министерство на образованието и науката на Руската федерация

Федерална агенция за образование

Държавна образователна институция за висше професионално образование

Всеруски кореспондентски финансово-икономически институт

Клон в Тула

Тест

по дисциплина "Иконометрия"

Тула - 2010 г

Задача 2 (a, b)

За предприятията от леката промишленост е получена информация, характеризираща зависимостта на обема на продукцията (Y, милиона рубли) от обема на капиталовите инвестиции (X, милиона рубли) Таблица. 1.

х 33 17 23 17 36 25 39 20 13 12
Y 43 27 32 29 45 35 47 32 22 24

Задължително:

1. Намерете параметрите на уравнението на линейната регресия, дайте икономическа интерпретация на коефициента на регресия.

2. Изчислете остатъците; намерете остатъчната сума на квадратите; оценка на дисперсията на остатъците

; начертайте остатъците.

3. Проверете изпълнението на предпоставките на MNC.

4. Проверете значимостта на параметрите на регресионното уравнение с помощта на t-критерия на Стюдънт (α=0,05).

5. Изчислете коефициента на детерминация, проверете значимостта на регресионното уравнение с помощта на F теста на Фишер (α=0,05), намерете средната относителна грешка на приближението. Направете заключение за качеството на модела.

6. Прогнозирайте средната стойност на показателя Y при ниво на значимост α=0,1, ако прогнозираната стойност на фактор X е 80% от максималната му стойност.

7. Представете графично: действителни и моделни Y стойности, прогнозни точки.

8. Създайте нелинейни регресионни уравнения:

хиперболичен;

успокоителен;

показателен.

Представете графики на съставените регресионни уравнения.

9. За посочените модели намерете коефициентите на детерминация и средните относителни грешки на апроксимацията. Сравнете моделите въз основа на тези характеристики и направете заключение.

1. Линейният модел има формата:

Намираме параметрите на уравнението на линейната регресия с помощта на формулите

Изчисляването на стойностите на параметрите е представено в таблица. 2.

T г х yx
1 43 33 1419 1089 42,236 0,764 0,584 90,25 88,36 0,018
2 27 17 459 289 27,692 -0,692 0,479 42,25 43,56 0,026
3 32 23 736 529 33,146 -1,146 1,313 0,25 2,56 0,036
4 29 17 493 289 27,692 1,308 1,711 42,25 21,16 0,045
5 45 36 1620 1296 44,963 0,037 0,001 156,25 129,96 0,001
6 35 25 875 625 34,964 0,036 0,001 2,25 1,96 0,001
7 47 39 1833 1521 47,69 -0,69 0,476 240,25 179,56 0,015
8 32 20 640 400 30,419 1,581 2,500 12,25 2,56 0,049
9 22 13 286 169 24,056 -2,056 4,227 110,25 134,56 0,093
10 24 12 288 144 23,147 0,853 0,728 132,25 92,16 0,036
336 235 8649 6351 12,020 828,5 696,4 0,32
ср. 33,6 23,5 864,9 635,1

Нека да определим параметрите на линейния модел

Линейният модел има формата

Коефициент на регресия

показва, че продукцията Y се увеличава средно с 0,909 милиона рубли. с увеличение на обема на капиталовите инвестиции X с 1 милион рубли.

2. Изчислете остатъците

, остатъчната сума на квадратите, намираме остатъчната дисперсия по формулата:

Изчисленията са представени в табл. 2.


Ориз. 1. Графика на остатъците ε.

3. Да проверим изпълнението на предпоставките на OLS въз основа на критерия на Дърбин-Уотсън.

0,584
2,120 0,479
0,206 1,313
6,022 1,711
1,615 0,001
0,000 0,001
0,527 0,476
5,157 2,500
13,228 4,227
2,462 0,728
31,337 12,020

d1=0.88; d2=1.32 за α=0.05, n=10, k=1.

,

Това означава, че редица остатъци не са корелирани.

4. Нека проверим значимостта на параметрите на уравнението въз основа на t-критерия на Student. (α=0,05).

за ν=8; а=0,05.

Изчисляване на стойността

произведени в табл. 2. Получаваме:
, тогава можем да заключим, че регресионните коефициенти a и b са значими с вероятност от 0,95.

5. Намерете коефициента на корелация по формулата

Ще направим изчисленията в таблицата. 2.

. Че. връзката между размера на капиталовите инвестиции X и продукцията Y може да се счита за близка, т.к .

Намираме коефициента на детерминация по формулата