Hajuvuse karakteristikud

Kursus „Tõenäosus­teooria ja matemaatilise statistika elemente”

Kahe statistilise kogumi sagedus­tabelid on järgmised:

Mõlema kogumi korral on sama N = 28, \overline{x}=10 ja Me = 10. Ometi on I ja II kogumil erinevus: esimesel juhul on tunnuse väärtused koondunud aritmeetilise keskmise ümber tihedamalt, teisel juhul aga hõredamalt. Selle kohta öeldakse, et esimesel juhul on tunnuse väärtuste hajuvus väiksem, teisel juhul suurem. Seni vaadeldud näitajad seda aga kuidagi ei kajasta.

Mõnel juhul iseloomustab hajuvust mingil määral tunnuse muutumis­piirkond või selle pikkus – variatsioon­rea ulatus, s.t piir­kond minimaalsest väärtusest maksimaalse väärtuseni. Antud juhul on aga ka tunnuse muutumis­piirkond mõlemas kogumis sama: 7 ≤ x ≤ 13.

Seame ees­märgiks leida karakteristiku, mis ise­loomustab tunnuse hajuvust aritmeetilise keskmise suhtes.

Tunnuse üksiku väärtuse xi kõrvale­kallet (erinevust) keskmisest \overline{x} näitab hästi vahe x_i-\overline{x}, mida nimetatakse väärtuse xi hälbeks aritmeetilisest keskmisest. Suurus \left|x_i-\overline{x}\right| näitab see­juures kui suur on xi erinevus aritmeetilisest keskmisest, ja vahe x_i-\overline{x} märk („+” või „–“) näitab, kas x_i>\overline{x} või x_i>\overline{x}.

Kogu variatsioon­rea (andmestiku) kui terviku hajuvust \overline{x} suhtes ise­loomustab aga kõigi hälvete sagedus­tabel.

Et saadud tabeli põhjal on vahetult raske midagi otsustada tunnuse hajuvuse üle, oleks tarvis vastavat koond­näitajat, karakteristikut. Võib tunduda, et selleks sobib keskmine hälve (hälvete aritmeetiline keskmine). Kuid see on alati null, sest juba

aritmeetilise keskmise suhtes arvutatud hälvete summa on null, s.t (x1-x¯)f1+(x2-x¯)f2++(xn-x¯)fn=0.

Tõe­poolest:

\left(x_1-\overline{x}\right)f_1+\left(x_2-\overline{x}\right)f_2+...+\left(x_n-\overline{x}\right)f_n = x_1f_1+x_2f_2+...+x_nf_n-\overline{x}\left(f_1+f_2+...+f_n\right) = x_1f_1+x_2f_2+...+x_nf_n-\frac{x_1f_1+x_2f_2+...+x_nf_n}{N}\cdot N = 0.

Et vältida hälvete vastastikust koondumist nulliks, kasutatakse hajuvust ise­loomustava suurusena hälvete ruutude (saame positiivsed arvud) aritmeetilist keskmist, mida nimetatakse dispersiooniks ja tähistatakse sümboliga σ2 (ka s2), arvuti­põhistes arvutus­süsteemides VARP.

Seega on dispersioon

σ2=(x1 - x¯)2f1 + (x2 - x¯)2f2 +  + (xn - x¯)2fnN.

Mida suurem on σ2, seda suurem on tunnuse väärtuste hajuvus.

Saadud karakteristikul on aga üks oluline puudus – tema ühikuks on tunnuse ruut­ühik. Kui näiteks arvutame klassi õpilaste pikkuse (mõõt­ühikuks cm) hajuvust keskmise pikkuse (ka cm) suhtes, siis on hajuvuse mõõt­ühikuks cm2. Et sellest eba­kõlast vabaneda, kasutatakse hajuvuse karakteristikuna standard­hälvet σ (ka sümbol s):

σ=σ2=(x1 - x¯)2f1 + (x2 - x¯)2f2 +  + (xn - x¯)2fnN.

Arvuti­põhistes süsteemides esineb sümbol STDEVP.

Enamiku tunnuste korral erineb üle poole andmetest aritmeetilisest keskmisest vähem kui standard­hälbe σ võrra. Teisiti öeldes paikneb tavaliselt enamik tunnuse väärtustest piir­konnas x¯-σ; x¯+σ. See­tõttu antakse aritmeetiline keskmine sageli kujul x¯±σ.

Näide 1.

Leiame käes­oleva peatüki alguses esitatud statistiliste andmete korral standard­hälbed. Arvutused vormistame arvutuste lihtsustamise ja aru­saadavuse huvides tabelina. Mõlemal juhul oli \overline{x}=10.

I kogumi korral on σ=52281,36; II kogumi korral on σ=150282,31.

Tulemus kinnitab veel kord, et teise kogumi tunnuse väärtused hajuvad rohkem kui esimese kogumi tunnuse väärtused. See­juures asub esimese kogumi korral piir­konnas x¯-σ; x¯+σ ehk [8,6; 11,4] 20 objekti (s.o. 71%), teise kogumi korral piir­konnas [7,6; 12,4] 16 objekti (s.o. 57%).

Aritmeetiline keskmine koos standard­hälbega esitatakse sageli järgmiselt: I juhul \overline{x}=10\pm1,36 ja II juhul \overline{x}=10\pm2,31.

Osutub, et tunnuse väärtuste hajuvus aritmeetilise keskmise suhtes on alati väiksem kui mis tahes teise arvu suhtes, ehk teisiti,

tunnuse väärtused paiknevad kõige tihedamini aritmeetilise keskmise ümber.

Dispersiooni σ2 arvutamiseks saab defineerivast võrdusest tuletada praktilisema valemi

σ2=x2¯-x¯2,

kus \overline{x}^2 on on aritmeetilise keskmise ruut, \overline{x^2} aga tunnuse väärtuste ruutude aritmeetiline keskmine, s.t

\overline{x^2}=\frac{1}{N}\left(x_1^2f_1+x_2^2f_2+...+x_n^2f_n\right).

Näide 2.

Laskur lasi märk­lauda, millele oli märgitud silmade arvud 1, 2, 3, 4 ja 5. Kui lask läks mööda, sai ta 0 silma. Laskja kahe­kümne lasu tulemused on järgnevas tabelis.

Arvutame, mitu silma sai laskur keskmiselt ühe lasuga ja kui suur on hajuvust ise­loomustav standard­hälve. Mitu protsenti laskudest asub vahemikus x¯-σ; x¯+σ?

Tabelis tehtud arvutuste põhjal saame, et ühe lasuga tuli keskmiselt \overline{x}=\frac{66}{20}=3,3 silma ja tunnuse väärtuste ruutude aritmeetiline keskmine \overline{x^2}=\frac{254}{20}=12,7 ning dispersioon σ2=12,7-3,32=1,81. Seega standard­hälve σ=1,811,35 ja \overline{x}=3,3\pm1,35. Saadud silmade arvu lõigul [3,3 – 1,35; 3,3 + 1,35] ehk 1,95 ≤ x ≤ 4,65 asub 3 + 5 + 6 = 14 lasku. Seega on nn ühe sigma piirides \frac{14}{20}\cdot100\%=70\% laskudest.

Kahe kogumi võrdlemine hajuvuse seisu­kohalt taandub standard­hälvete võrdlemisele. Nii tehakse näiteks ülesande 125 lahendamisel ja see on õigustatud, sest vastavad andmed asuvad sama skaala piir­konnas. Kui aga andmed on erinevatel skaaladel, näiteks tahetakse võrrelda alg­kooli poiste ja täis­kasvanud meeste pikkuse hajuvust vastavate keskmiste suhtes, ei ole selliselt õige toimida. Põhjuseks on liiga erinev pikkuste tase, mis avaldub ka aritmeetiliste keskmiste endi erinevuses. Nii­sugusel juhul on sobivam leida nn suhteline hajuvus, võrreldes keskmisega. See on

v=σx¯,

mida nimetatakse variatsiooni­kordajaks, ja nagu ikka suht­arvu, võib selle esitada ka protsentides. Variatsiooni­kordajal on mõte vaid siis, kui tunnuse väärtused on positiivsed. Analoogiline situatsioon on erinevates ühikutes (näiteks senti­meetrites ja kilo­grammides) mõõdetud tunnuste hajuvuse võrdlemisel. Nii näiteks tuleb kasutada variatsiooni­kordajat, kui uuritakse, kas 11. klassi noormeeste keha­kaalu või pikkuse hajuvus on suurem.

Ülesanded

Leidke hinnete aritmeetiline keskmine ja standard­hälve ning hinnake, kummas klassis tehti kontroll­töö paremini. Kui palju hindeid (ka protsentides) paikneb kummalgi juhul piir­konnas x¯-σ; x¯+σ?

Vastus. A klassis oli hinnete aritmeetiline keskmine  ja standard­hälve  ning B klassis oli hinnete aritmeetiline keskmine  ja standard­hälve . Järelikult kontroll­töö tehti paremini  klassis. Piir­konnas x¯-σ; x¯+σ paikneb A klassis  hinnet ehk % hinnetest ja B klassis  hinnet ehk % hinnetest.

Leidke laskuri tulemuste hajuvus. Kui palju tulemustest paikneb piir­konnas x¯-σ; x¯+σ?

Vastus. σ = . Piir­konnas x¯-σ; x¯+σ asub  tulemust (ehk % laskudest).

Leidke oma klassi viimase matemaatika kontroll­töö hinnete hajuvus, leidke ka piir­kond x¯-σ; x¯+σ ja sellesse langevate hinnete protsent. Andke kontroll­töö tulemustele oma­poolne hinnang.