Što je višestruka linearna regresija - MLR?
Višestruka linearna regresija (MLR), također poznata i kao višestruka regresija, statistička je tehnika koja koristi nekoliko objašnjivih varijabli da predvidi ishod varijable odgovora. Cilj višestruke linearne regresije (MLR) je modelirati linearni odnos između eksplanatornih (neovisnih) varijabli i varijable odgovora (ovisne).
U suštini, višestruka regresija je proširenje obične regresije najmanjeg kvadrata (OLS) koja uključuje više od jedne objašnjavajuće varijable.
Formula za višestruku linearnu regresiju je
Yi = β0 + β1 xi1 + β2 xi2 +… + βp xip + ϵgdje, za i = n promatranja: yi = ovisna varijablaxi = ekspanzijske varijableβ0 = y-presretanje (konstanta izraz) βp = koeficijenti nagiba za svaku objašnjenu varijabluϵ = izraz pogreške modela (poznat i kao zaostaci)
Objašnjenje višestruke linearne regresije
Jednostavna linearna regresija je funkcija koja omogućuje analitičaru ili statističaru da predvidi jednu varijablu na temelju informacija koje su poznate o drugoj varijabli. Linearna regresija može se upotrijebiti samo ako jedna ima dvije kontinuirane varijable - neovisnu i ovisnu varijablu. Neovisna varijabla je parametar koji se koristi za izračunavanje ovisne varijable ili ishoda. Model višestruke regresije proteže se na nekoliko objašnjivih varijabli.
Model višestruke regresije zasnovan je na sljedećim pretpostavkama:
- Postoji linearni odnos između ovisnih varijabli i neovisnih varijabli. Neovisne varijable nisu previše korelirane jedna s drugom. Moja zapažanja biraju se neovisno i nasumično iz populacije. Ostali bi se obično raspodijelili sa srednjom vrijednosti 0 i varijancom σ.
Koeficijent određivanja (R-kvadrat) je statistička metrika koja se koristi za mjerenje kolike varijacije u ishodu može se objasniti odstupanjem u neovisnim varijablama. R2 se uvijek povećava jer se u MLR model dodaje više prediktora, iako prediktori možda nisu povezani s varijabli ishoda.
Sam R2 se stoga ne može upotrijebiti za identificiranje prediktora koji bi trebali biti uključeni u model, a koji treba isključiti. R2 može biti samo između 0 i 1, pri čemu 0 označava da ishod nije moguće predvidjeti nijednom od nezavisnih varijabli, a 1 znači da se ishod može predvidjeti bez pogreške neovisnih varijabli.
Kada se interpretiraju rezultati višestruke regresije, beta koeficijenti vrijede, a sve ostale varijable drže konstantnim ("sve ostale jednake"). Izlaz iz višestruke regresije može se prikazati vodoravno kao jednadžba ili vertikalno u obliku tablice.
Primjer korištenja višestruke linearne regresije
Na primjer, analitičar možda želi znati kako kretanje tržišta utječe na cijenu Exxon Mobila (XOM). U ovom će slučaju njegova linearna jednadžba imati vrijednost S&P 500 indeksa kao neovisne varijable ili prediktora i cijenu XOM-a kao zavisne varijable.
U stvarnosti, postoji više faktora koji predviđaju ishod nekog događaja. Kretanje cijena Exxon Mobila, primjerice, ovisi o više od uspješnosti cjelokupnog tržišta. Ostali prediktori poput cijena nafte, kamatnih stopa i kretanja cijena naftnih budućnosti mogu utjecati na cijenu XOM-a i cijene dionica drugih naftnih kompanija. Da bismo razumjeli odnos u kojem su prisutne više od dvije varijable, koristi se višestruka linearna regresija.
Višestruka linearna regresija (MLR) koristi se za određivanje matematičkog odnosa između niza slučajnih varijabli. Drugim riječima, MLR ispituje povezanost više neovisnih varijabli s jednom ovisnom varijablom. Jednom kada je svaki neovisni čimbenik određen kako bi predvidio ovisnu varijablu, informacije o više varijabli mogu se upotrijebiti za stvaranje preciznog predviđanja o razini učinka koji imaju na varijablu ishoda. Model stvara odnos u obliku ravne linije (linearne) koja najbolje aproksimira sve pojedinačne podatkovne točke.
Pozivajući se na MLR jednadžbu gore, u našem primjeru:
- y i = ovisna varijabla: cijena XOMx i1 = kamatne stopex i2 = cijena naftex i3 = vrijednost S&P 500 indeksa x i4 = cijena naftnih ročnostiB 0 = y-presretanje u vremenu nula 1 1 = koeficijent regresije koji mjeri promjenu jedinice u zavisnoj promjenjiva kad se x i1 promijeni - promjena cijene XOM kad se promjene kamatnih stopaB 2 = vrijednost koeficijenta koja mjeri jediničnu promjenu zavisne varijable kada se x i2 promijeni - promjena cijene XOM kada se promjene cijena nafte
Procjene najmanje kvadrata, B 0, B 1, B 2 … B p, obično se izračunavaju statističkim softverom. U regresijski model može se uključiti što više varijabli u kojima se svaka neovisna varijabla razlikuje brojem - 1, 2, 3, 4… p. Model višestruke regresije omogućuje analitičaru da predvidi ishod na temelju informacija dobivenih na više objašnjivih varijabli.
Ipak, model nije uvijek savršeno točan jer se svaka točka podataka može malo razlikovati od rezultata predviđenog modelom. Preostala vrijednost, E, što je razlika između stvarnog ishoda i predviđenog ishoda, uključena je u model da bi se uzele u obzir takve male varijacije.
Pod pretpostavkom da pokrećemo naš XOM model regresije cijena putem softvera za računanje, koji vraća ovaj izlaz:
Analitičar bi taj izlaz protumačio tako da ako se ostale varijable drže konstantnima, cijena XOM-a povećava se za 7, 8% ako cijena nafte na tržištima poraste za 1%. Model također pokazuje da će se cijena XOM-a smanjiti za 1, 5% nakon rasta kamatnih stopa od 1%. R2 ukazuje da se 86, 5% varijacija cijena dionica Exxon Mobila može objasniti promjenama kamatne stope, cijene nafte, budućnosti nafte i S&P 500 indeksom.
Ključni odvodi
- Višestruka linearna regresija (MLR), također poznata i kao višestruka regresija, statistička je tehnika koja koristi nekoliko objašnjivih varijabli da predvidi ishod varijable odgovora. Višestruka regresija je proširenje linearne (OLS) regresije koja koristi samo jednu objašnjenu varijablu. MLR se široko koristi u ekonometriji i financijskim zaključcima.
Razlika između linearne i višestruke regresije
Linearna (OLS) regresija uspoređuje odgovor zavisne varijable s obzirom na promjenu neke objašnjavajuće varijable. Međutim, rijetko je da se ovisna varijabla objasni samo jednom varijablom. U ovom slučaju analitičar koristi višestruku regresiju, koja pokušava objasniti ovisnu varijablu pomoću više nezavisnih varijabli. Višestruke regresije mogu biti linearne i nelinearne.
Višestruke regresije temelje se na pretpostavci da postoji linearni odnos i između ovisne i od neovisne varijable. Također ne pretpostavlja nikakvu veliku povezanost između neovisnih varijabli.