Što je statistika Chi-Squarea?
Chi-kvadrat ( χ 2) statistika je test koji mjeri usporedbu očekivanja s stvarnim promatranim podacima (ili rezultatima modela). Podaci koji se koriste u izračunavanju statistike hi-kvadrata moraju biti slučajni, sirovi, međusobno isključivi, izvedeni iz neovisnih varijabli i prikupljeni iz dovoljno velikog uzorka. Na primjer, rezultati bacanja novčića 100 puta zadovoljavaju ove kriterije.
Chi-kvadrat testovi se često koriste u ispitivanju hipoteza.
Formula za Chi-kvadrat je
χc2 = ∑ (Oi − Ei) 2Evdje: c = stupnjevi slobodeO = promatrana vrijednost (e) E = očekivana vrijednost (i) početak {poravnanje} & \ chi ^ 2_c = \ zbroj \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {gdje:} \ & c = \ tekst {stupnjevi slobode} \ & O = \ tekst {promatrane vrijednosti (i)} \ & E = \ tekst {očekivane vrijednosti } \ \ kraj {poravnano} χc2 = ∑Ei (Oi −Ei) 2 gdje je: c = stupanj slobodeO = promatrana vrijednost (i) E = očekivana vrijednost (i)
Što vam govori statistika Chi-Squarea?
Postoje dvije glavne vrste hi-kvadrat testova: test neovisnosti koji postavlja pitanje odnosa, poput: "Postoji li veza između spola i SAT rezultata?"; i test dobre ispravnosti, koji postavlja pitanje poput "Ako se novčić baci 100 puta, hoće li se dignuti glave 50 puta, a repovi 50 puta?"
Za ove testove, stupnjevi slobode koriste se kako bi se utvrdilo može li se određena nulta hipoteza odbaciti na temelju ukupnog broja varijabli i uzoraka unutar eksperimenta.
Na primjer, kad se uzme u obzir student i izbor predmeta, veličina uzorka od 30 ili 40 studenata vjerojatno nije dovoljno velika da stvori značajne podatke. Dobivanje istih ili sličnih rezultata studije pomoću veličine uzorka od 400 ili 500 učenika je validnije.
U drugom primjeru razmislite bacanje novčića 100 puta. Očekivani rezultat bacanja pravog kovanica 100 puta je da će se glave dignuti 50 puta, a repovi će se pojaviti 50 puta. Stvarni rezultat može biti da se glave dižu 45 puta, a repovi 55 puta. Statistika hi-kvadrata pokazuje bilo kakve razlike između očekivanih i stvarnih rezultata.
Primjer Chi-kvadrat testa
Zamislite da je slučajna anketa provedena između 2.000 različitih birača, muškaraca i žena. Ljudi koji su odgovarali klasificirani su prema spolu i po tome jesu li republikanski, demokratski ili neovisni. Zamislite mrežu sa stupovima s natpisom republikanska, demokratska i neovisna, i dva reda s oznakom muškarac i žena. Pretpostavimo da su podaci od 2.000 ispitanika sljedeći:
Prvi korak za izračunavanje hi-kvadrat statistike je pronalazak očekivanih frekvencija. One se izračunavaju za svaku "ćeliju" u mreži. Budući da postoje dvije kategorije roda i tri kategorije političkog stajališta, postoji šest ukupno očekivanih učestalosti. Formula očekivane učestalosti je:
E (r, c) = n (r) × c (r) nigdje: r = redak u pitanjuc = stupac u pitanjun = odgovarajući ukupni \ početak {poravnano} & E (r, c) = \ frac {n (r) puta c (r)} {n} \ & \ textbf {gdje:} \ & r = \ tekst {redak u pitanju} \ & c = \ tekst {stupac u pitanju} \ & n = \ tekst {odgovara ukupno} \ \ kraj {poravnanje} E (r, c) = nn (r) × c (r) gdje je: r = red u pitanjec = stupac u pitanjun = odgovarajući ukupan broj
U ovom primjeru, očekivane frekvencije su:
- E (1, 1) = (900 x 800) / 2, 000 = 360E (1, 2) = (900 x 800) / 2, 000 = 360E (1, 3) = (200 x 800) / 2 000 = 80E (2, 1) = (900 x 1.200) / 2.000 = 540E (2, 2) = (900 x 1.200) / 2.000 = 540E (2, 3) = (200 x 1.200) / 2.000 = 120
Dalje, ove se vrijednosti koriste za izračun statistike Chi u kvadraturi koristeći sljedeću formulu:
Chi-kvadrat = ∑2E (r, c) gdje je: O (r, c) = promatrani podaci za određeni red i stupac \ početak {poravnanje} & \ text {Chi-kvadrat} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {gdje:} \ & O (r, c) = \ tekst {promatrani podaci za određeni red i stupac} \ \ kraj {usklađeni} Chi-kvadrat = ∑E (r, c) 2 gdje je: O (r, c) = promatrani podaci za zadani red i stupac
U ovom primjeru izraz za svaku promatranu vrijednost je:
- O (1, 1) = (400 - 360) 2/360 = 4, 40 O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96 O (2, 2) = (600 - 540) 2/540 = 6, 67 O (2, 3) = (100 - 120) 2/120 = 3, 33
Statistika hi-kvadrata tada je jednaka zbroju tih vrijednosti, odnosno 32, 41. Zatim možemo pogledati tablicu statistike s kvadratom veličine da bismo vidjeli, s obzirom na stupnjeve slobode u našoj postavi, je li rezultat statistički značajan ili ne.