Aritmeetiline keskmine, mediaan, mood

Kursus „Tõenäosus­teooria ja matemaatilise statistika elemente”

Statistiliste andmete kogumisele järgneb andmete töötlemine ehk andme­analüüs. Selle käigus leitakse arvulised suurused ehk näitajad (karakteristikud), mis ise­loomustavad tunnuse väärtuste jaotust kui tervikut mingist seisu­kohast. Põhilised karakteristikud jagunevad kahte rühma: 1) paiknemise karakteristikud ehk keskmised ja 2) hajuvuse karakteristikud.

Paiknemise karakteristikud annavad informatsiooni tunnuse väärtuste paiknemise kohta arv­teljel ja ise­loomustavad tunnust keskmise väärtuse seisu­kohalt.

Hajuvuse karakteristikud näitavad, mil määral erinevad tunnuse väärtused keskmisest, hajuvad keskmise ümber.

Vaatleme keskmisi. Need on aritmeetiline keskmine, mediaan ja mood.

Aritmeetiliseks keskmiseks nimetatakse tunnuse kõigi väärtuste summa ja kogumi mahu (objektide arvu) jagatist.

Aritmeetilist keskmist tähistatakse sümboliga \overline{x}. Arvuti­põhisel andme­töötlusel esineb tähis AVERAGE või MEAN.

Nagu eespool selgitasime, on alati ots­tarbeks esitada statistilise rea andmed sagedus­tabelina:

Nüüd on aritmeetiline keskmine

x¯=x1f1 + x2f2 +  + xnfnN.

Seda valemit nimetatakse ka kaalutud (aritmeetiliseks) keskmiseks, sest sagedused fi näitavad, kui suur osa­kaal ehk kaal on tunnuse väärtusel xi teiste väärtuste seas.

Kui andmestik on esitatud jaotustabeliga, on

1) wi=fi N korral aritmeetiline keskmine x¯=x1w1+x2w2++xnwn,

2) wi=fi N·100% korral x¯=x1w1 + x2w2 +  + xnwn100.

Tõepoolest, kui w_i=\frac{f_i}{N}, siis

\overline{x}=\frac{x_1f_1+x_2f_2+...+x_nf_n}{N} = x_1\frac{f_1}{N}+x_2\frac{f_2}{N}+...+x_n\frac{f_n}{N} = x_1w_1+x_2w_2+...+x_nw_n.

Analoogiliselt saame aritmeetilise keskmise \overline{x} juhul, kui wi on protsentides.

Näide 1.

Peatüki 3.1 näite 2 klassi A andmetel on kontroll­töö hinnete aritmeetiline keskmine

\overline{x} = \frac{2\cdot3+3\cdot7+4\cdot10+5\cdot8}{28} = \frac{107}{28} ≈ 3,82 ≈ 3,8.

Sama töö hinnete aritmeetilise keskmise saame ka näite 3 esimese jaotus­tabeli andmetest (klass A):

\overline{x} = \frac{2\cdot11+3\cdot25+4\cdot36+5\cdot28}{100} = \frac{381}{100} ≈ 3,8.

Kui statistiline andmestik on esitatud vahemikena, leitakse iga vahemiku esindaja, tavaliselt vahemiku xi < xxi+1 keskmine väärtus

\frac{1}{2}\left(x_i+x_{i+1}\right),

millega arvutatakse edasi nagu tunnuse üksikute väärtuste korral.

Näide 2.

Leiame peatüki 3.1 näites 4 saadud tabeli andmetel õpilaste pikkuste aritmeetilise keskmise. Arvutused vormistame tabelina, mida on eriti ots­tarbekas teha (tasku)arvuti puudumisel.

\overline{x}=\frac{5507,5}{33}\approx167.

Vaadeldava klassi õpilaste keskmine pikkus on 167 cm.

Mediaaniks nimetatakse tunnuse väärtust, millest suuremaid (või võrdseid) ja väiksemaid (või võrdseid) liikmeid on variatsioon­reas ühe­palju.

Mediaani tähistatakse sümboliga Me või me, andme­töötlus­süsteemides MEDIAN. Kui variatsioon­reas on paaritu arv liikmeid (N on paaritu arv), on mediaaniks variatsioon­rea keskmine liige. Kui aga variatsioon­reas on paaris­arv liikmeid, on mediaaniks kahe keskmise liikme aritmeetiline keskmine. Lühemalt:

Me=xi, kus i=12(N+1) kui N on paaritu arv,

Me=12(xi+xi+1), kus i=N2 kui N on paaris­arv.

Näide 3.

Ühe klassi noor­meeste kinga­numbrite variatsioon­rida on 39, 39, 40, 40, 40, 40, 41, 41, 41, neiudel aga 35, 35, 35, 35, 36, 39. Leiame vastavad mediaanid.

Et esimesel juhul on N = 9, siis Me = x5 = 40, sest keskmiseks liikmeks on x5. Sama indeksi saaksime ka valemiga i = 0,5(9 + 1) = 5. Neiude kinga­numbrite variatsioon­reas on paaris­arv liikmeid (N = 6), seega Me = 0,5(x3 + x4) = 0,5(35 + 35) = 35.

Näide 4.

Järgnevas tabelis on esitatud kontroll­töö hinded. Leiame hinnete mediaani sageduste ja suhteliste sageduste abil.

Et hindeid on paaris­arv ja N = 28, siis Me = 0,5(x14x15). Liites järjest sagedusi, saame, et x14x15 = 4. Järelikult Me = 4.

Suhteliste sageduste korral liidame järjest protsente ja vaatame, millise hinde korral saab summa suuremaks kui 50%: 11 + 25 = 36, kuid 11 + 25 + 36 > 50. Seega sai neljade lisamisel sageduste summa suuremaks kui 50% ja järelikult Me = 4.

Vahemikes esitatud sagedus- või jaotus­tabeli korral toimitakse nii nagu näites 4, aga tulemuseks saadakse nn mediaan­vahemik. Näite 2 andmete korral on selleks vahemik 165 < x ≤ 170. Kui opereerida intervalli esindajaga, saame mediaaniks 167,5. Vastavast variatsioon­reast (peatükk 3.1, näide 4) leiame, et Me = 167.

Kuigi aritmeetiline keskmine on keskmistest enam­kasutatav, on juhtumeid, kus mediaan on sobivam. Nii on siis, kui variatsioon­reas on üksikuid eba­harilikult suuri või väikseid väärtusi ja kogumi maht on väike. Nüüd nihkub aritmeetiline keskmine arv­teljel kohta, kus tunnuse väärtusi tegelikult pole või on väga vähe. Mõningal määral ilmneb see ka näite 3 korral, kus neiude keskmine kinga­number \overline{x}=35,8\approx36, samal ajal kui enamik andmeid on 35-st 36-ni. Mediaan on aga 35, mis on keskmisena siin loomulikum.

Mediaani saab kergesti leida ja samas on ta hea aritmeetilise keskmise ligi­kaudseks hindamiseks. Mida sümmeetrilisem on tunnuse jaotus, seda paremini ise­loomustab mediaan keskmist. Näiteks noor­meeste kinga­numbrite mediaan näites 3 on 40, aritmeetiline keskmine aga 40,1. Mediaani saab sageli leida ka ühe või kahe mõõtmise teel. Leides näiteks õpilaste pikkuse mediaani, rivistame õpilased pikkuse järgi ja see­järel mõõdame vaid rea keskel asuva ühe või kahe õpilase pikkuse.

Moodiks nimetatakse tunnuse kõige sagedamini esinevat väärtust.

Moodi tähistatakse sümboliga Mo või mo, andme­töötlus­süsteemides MODE. Kontroll­töö hinnete mood on näite 4 korral 4, sest sellele vastav sagedus on kõige suurem (f = 10 või w = 36%). Kui andmed on esitatud vahemikes, antakse kõige suurema sagedusega vahemik. Näite 2 korral on selleks vahemik 165 < x ≤ 170.

Tunnusel võib moode olla ka rohkem kui üks või tal võib ka mood puududa (kõigi väärtuste esinemise sagedus on sama). Kui moode on kaks, öeldakse, et tunnus (vaadeldav jaotus) on bimodaalne.

Kui jaotus on täiesti sümmeetriline ja sellel on üks mood, on \overline{x}=Me=Mo.

Moodi kasutatakse majanduses, kaubanduses, tarbija vajaduste uurimisel jne. Mõningatel juhtudel võib moodi ja ka aritmeetilist keskmist vaadelda kui normi. Näiteks meeste soengu mood kui normaalne soeng, esma­abiellujate vanuse mood või keskmine vanus kui normaalne abiellumis­aeg.

Näide 5.

Eesti statistika­ameti andmetel oli 1970-ndatel aastatel esma­abielluvate meeste keskmine vanus valdavalt 25 aastat ja naistel 23 aastat. Meeste osas langes see 1991. aastaks vanuseni 24,5 aastat ja naiste osas 1992. aastaks vanuseni 22,3 aastat. Edasi hakkas nii meestel kui ka naistel esma­abiellujate keskmine vanus kasvama ja jõudis 2016. aastaks meestel vanuseni 32,1 aastat ning naistel 29,8 aastat.

Ülesanded

Vastus. Keskmine silmade arv ühe lasuga on .

Vastus. A klassi keskmine hinne on  ja B klassi keskmine hinne on . Järelikult 

\overline{x}=\frac{5507,5}{33}\approx166,9

Koostage antud tabeli põhjal uus sagedus­tabel, kus klasse on vaid kolm. Arvutage nüüd õpilaste pikkuste aritmeetiline keskmine ja võrrelge seda eelneva tulemusega.

Pikkus X

fi

Vahemiku esindaja xi

fixi

 < x ≤ 

 < x ≤ 

 < x ≤ 

Kokku

\overline{x}\approx

Vastus. Müüdud kingade numbrite mediaan on .

Milline on Eestis 2016. aasta andmetel meeste ja naiste vanuse mediaan­vahemik ja kõige sagedamini esinev vanuse­vahemik?

Vastus. Mediaan­vahemik oli meestel  ja naistel  aastat. Kõige sagedamine esinev vanuse­vahemik oli meestel  ja naistel  aastat.

Vastus. Kõige vähem lapsi sündis  ( last) ja kõige rohkem  ( last). Nende laste arvude erinevus on  last. Keskmine laste sündimise protsent on %, s.o  last.

Vastus. Mo

Me

Mo ja 

\overline{x} = 

Vastus. Mo

Vastus. Mo

Vastus. India elevantide keskmine mass on  kg.

Vastus. India elevantide massi mediaan­vahemik on , suurima sagedusega vahemik on  ja massi aritmeetiline keskmine on .

Leidke oma klassi viimase matemaatika kontroll­töö hinnete \overline{x}, Me ja Mo (võite kasutada ülesande 102 andmeid). Andke kontroll­töö tulemustele oma­poolne hinnang.

Vastus\overline{x} = , Me, Mo.

Vastus. Kahe klassi peale kokku on vaadeldava töö keskmine hinne .