Hajuvuse karakteristikud

Kahe statistilise kogumi sagedus­tabelid on järgmised:

Mõlema kogumi korral on N = 28, \overline{x}=10Me = 10. Esimesel juhul on tunnuse väärtused koondunud aritmeetilise keskmise ümber tihedamalt, teisel juhul hõredamalt. Selle kohta öeldakse, et esimesel juhul on tunnuse väärtuste hajuvus väiksem, teisel juhul suurem. Seni vaadeldud karakteristikud seda aga ei näita.

Mingil määral iseloomustab hajuvust tunnuse muutumis­piirkond (või selle pikkus – variatsioon­rea ulatus), s.t piir­kond minimaalsest väärtusest maksimaalse väärtuseni. Praeguse näite korral on need mõlema kogumi puhul samad, xmin = 7, xmax = 13. Seega ka see näitaja ei ütle alati, kummal juhul on hajuvus suurem.

Seame ees­märgiks leida karakteristiku, mis ise­loomustab tunnuse hajuvust aritmeetilise keskmise suhtes.

Tunnuse üksiku väärtuse xi kõrvale­kallet (erinevust) keskmisest \overline{x} näitab hästi tunnuse väärtuse ja aritmeetilise keskmise vahe x_i-\overline{x}, mida nimetatakse väärtuse xi hälbeks (aritmeetilisest keskmisest). Suurus \left|x_i-\overline{x}\right| näitab, kui suur on xi erinevus aritmeetilisest keskmisest, ja vahe x_i-\overline{x} märk („+” või „–“) näitab, kas x_i>\overline{x} või x_i>\overline{x}.

Kogu variatsioon­rea (andmestiku) kui terviku hajuvust \overline{x} suhtes iseloomustab aga kõigi hälvete kogu, seega järgneva tabeli andmed.

Et saadud tabeli põhjal on vahetult raske midagi otsustada tunnuse hajuvuse üle, oleks tarvis vastavat koond­näitajat, karakteristikut. Võib tunduda, et selleks sobib keskmine hälve (hälvete aritmeetiline keskmine). Kuid see on alati null, sest juba

aritmeetilise keskmise suhtes arvutatud hälvete summa on null, s.t (x1-x¯)f1+(x2-x¯)f2++(xn-x¯)fn=0.

Tõe­poolest:

\left(x_1-\overline{x}\right)f_1+\left(x_2-\overline{x}\right)f_2+...+\left(x_n-\overline{x}\right)f_n = x_1f_1+x_2f_2+...+x_nf_n-\overline{x}\left(f_1+f_2+...+f_n\right) = x_1f_1+x_2f_2+...+x_nf_n-\frac{x_1f_1+x_2f_2+...+x_nf_n}{N}\cdot N = 0

Et vältida hälvete vastastikust koondumist nulliks, kasutatakse hajuvust ise­loomustava suurusena hälvete ruutude (saame positiivsed arvud) aritmeetilist keskmist, mida nimetatakse dispersiooniks ja tähistatakse sümboliga σ2 (ka s2), arvuti­põhistes arvutus­süsteemides VARP.

Seega on

σ2=(x1 - x¯)2f1 + (x2 - x¯)2f2 +  + (xn - x¯)2fnN.

Mida suurem on σ2, seda suurem on tunnuse väärtuste hajuvus.

Saadud karakteristikul on hajuvuse ise­loomustajana üks puudus – tema ühikuks on tunnuse ruut­ühik. Et sellest eba­kõlast vabaneda, kasutatakse hajuvuse karakteristikuna standard­hälvet σ (ka sümbol s):

σ=σ2=(x1 - x¯)2f1 + (x2 - x¯)2f2 +  + (xn - x¯)2fnN.

Arvuti­põhistes arvutus­süsteemides esineb sümbol STDEVP.

Enamiku tunnuste korral erineb üle poole andmetest aritmeetilisest keskmisest vähem kui standard­hälbe σ võrra. Teisiti öeldes paikneb tavaliselt enamik tunnuse väärtustest piirkonnas x¯-σ; x¯+σ. See­tõttu antakse aritmeetiline keskmine sageli kujul x¯±σ.

Näide 1.

Leiame käes­oleva peatüki alguses esitatud statistiliste andmete korral standard­hälbed. Arvutused vormistame arvutuste lihtsustamise ja aru­saadavuse huvides tabelina. Mõlemal juhul oli \overline{x}=10.

I kogumi korral on σ=52281,36; II kogumi korral on σ=150282,31. Tulemus kinnitab veel kord, et teise kogumi tunnuse väärtused hajuvad enam kui esimese kogumi tunnuse väärtused. See­juures asub esimese kogumi korral piir­konnas x¯-σ; x¯+σ ehk [8,6; 11,4] 20 objekti (s.o. 71%), teise kogumi korral piirkonnas [7,6; 12,4] 16 objekti (s.o. 57%). Lakooniline vastus on seega I juhul \overline{x}=10\pm1,36 ja II juhul \overline{x}=10\pm2,31.

Dispersiooni σ2 arvutamiseks saab defineerivast võrdusest tuletada praktilisema valemi

σ2=x2¯-x¯2,

kus \overline{x}^2 on aritmeetilise keskmise ruut, \overline{x^2} aga tunnuse väärtuste ruutude aritmeetiline keskmine, s.t

\overline{x^2}=\frac{1}{N}\left(x_1^2f_1+x_2^2f_2+...+x_n^2f_n\right).

Kasutades dispersiooni või standard­hälbe valemit, võib leida hajuvuse mitte ainult aritmeetilise keskmise, vaid ka mõne teise arvu suhtes.

Näide 2.

Näites 1 vaadeldud II kogumi korral on tunnuse väärtuste hajuvus mo = 12 suhtes

\sqrt{\frac{\left(-5\right)^2\cdot8+\left(-4\right)^2\cdot2+\left(-3^2\right)\cdot1+\left(-2\right)^2\cdot4+\left(-1\right)^2\cdot1+0^2\cdot8+1^2\cdot4}{28}} = \sqrt{\frac{262}{28}} ≈ 3,06.

Aritmeetilise keskmise suhtes oli see 2,31.

Osutub, et tunnuse väärtuste hajuvus aritmeetilise keskmise suhtes on alati väiksem kui mis tahes teise arvu suhtes, ehk teisiti,

tunnuse väärtused paiknevad kõige tihedamini aritmeetilise keskmise ümber.

Kahe kogumi võrdlemine hajuvuse seisu­kohalt taandub standard­hälvete võrdlemisele. Nii tehakse näiteks ülesande 174 lahendamisel ja see on õigustatud, sest vastavad keskmised ei ole eriti erinevad. Kui see aga on nii, näiteks tahetakse võrrelda alg­kooli poiste ja täis­kasvanud meeste pikkuse hajuvust vastavate keskmiste suhtes, ei ole selliselt õige toimida. Põhjuseks on liiga erinev pikkuste tase, mis avaldub ka aritmeetiliste keskmiste erinevuses. Nii­sugusel juhul on sobivam leida suhteline hajuvus, võrreldes keskmisega. See on

v=σx¯,

mida nimetatakse variatsiooni­kordajaks, ja nagu ikka suht­arvu, võib selle esitada ka protsentides. Variatsiooni­kordajal on mõte vaid siis, kui tunnuse väärtused on positiivsed. Analoogiline situatsioon on erinevates ühikutes (näiteks senti­meetrites ja kilo­grammides) mõõdetud tunnuste hajuvuse võrdlemisel. Nii näiteks tuleb kasutada variatsiooni­kordajat, kui uuritakse, kas 11. klassi noor­meeste keha­kaalu või pikkuse hajuvus on suurem.

Ülesanded A

Ülesanne 174. Kontroll­töö tulemused

Leidke hinnete aritmeetiline keskmine ja standard­hälve ning hinnake, kummas klassis tehti kontroll­töö paremini. Kui palju hindeid (ka protsentides) paikneb kummalgi juhul piir­konnas x¯-σ; x¯+σ?

Vastus. A klassis oli hinnete aritmeetiline keskmine  ja standard­hälve  ning B klassis oli hinnete aritmeetiline keskmine  ja standard­hälve . Järelikult kontroll­töö tehti paremini  klassis. Piir­konnas x¯-σ; x¯+σ paikneb A klassis  hinnet ehk % hinnetest ja B klassis  hinnet ehk % hinnetest.

Ülesanne 175. Algaja laskuri tulemused

Leidke laskuri tulemuste hajuvus. Kui palju tulemustest paikneb piir­konnas x¯-σ; x¯+σ?

Vastus. σ = . Piir­konnas x¯-σ; x¯+σ asub  tulemust (ehk % laskudest).

Ülesanne 176. Neidude ja noor­meeste pikkuste hajuvus

Ülesanne 177. Kontroll­töö hinnete hajuvus

Leidke oma klassi viimase matemaatika kontroll­töö hinnete hajuvus, leidke ka piir­kond x¯-σ; x¯+σ ja sellesse langevate hinnete protsent. Andke kontroll­töö tulemustele oma­poolne hinnang.

Ülesanne 178. Mõõdetava suuruse väärtus

Ülesanne 179. Keskmine keha­kaal ja selle hajuvus

Ülesanded B

Ülesanne 180. Valemi tuletamine

σ2=x2¯-x¯2.