Kursus „Tõenäosusteooria ja matemaatilise statistika elemente”
Sageli on tarvis uurida inimeste, olendite, esemete või nähtuste kogumit (hulka) kui tervikut mingi omaduse või tunnuse seisukohalt. Nii näiteks võidakse tunda huvi, milline on Eestis elavate 17-aastaste noormeeste keskmine pikkus, kummas paralleelklassis läks matemaatika eksamitöö paremini, kuidas jaotuvad ettevõtted Eestis tööliste arvu järgi, milline on lilla sireli õite jaotus õielehtede arvu järgi.
Kuidas koguda vastavaid andmeid, neid esitada, uurida ja järeldusi teha – sellega tegeleb matemaatika osa, mille nimetuseks on matemaatiline statistika. Matemaatiline statistika tugineb seejuures suuresti tõenäosusteooriale.
Uuritavat kogumit, mille kui terviku kohta tahetakse järeldusi teha, nimetatakse statistiliseks kogumiks. Seda uuritakse tavaliselt ühe või mitme tunnuse (omaduse) seisukohalt. Tunnuseks võivad olla näiteks inimeste pikkus, õpilaste hinne matemaatika eksamil, töötajate palk, rahvus, terade arv viljapeas, silmade värv.
Tunnused liigituvad arvulisteks ja mittearvulisteks. Arvuline tunnus ehk arvtunnus on tunnus, mille väärtusteks on arvud. Näiteks inimese pikkus, terade arv viljapeas, palga suurus. Mittearvuline tunnus on tunnus, mille väärtusteks ei ole arvud. Näiteks rahvus, silmade värv.
Arvulised tunnused jaotatakse omakorda kaheks: pidevateks ja diskreetseteks. Pidevaks tunnuseks nimetatakse tunnust, mis võib saada kõiki reaalarvulisi väärtusi mingist piirkonnast. Sellised tunnused on näiteks kehakaal, temperatuur. Diskreetseks tunnuseks nimetatakse tunnust, mis võib saada vaid üksikuid eraldiseisvaid (sageli täisarvulisi) väärtusi. Sellised tunnused on näiteks seemnete arv viljapeas, tähtede arv sõnas, lehekülgede arv raamatus.
Diskreetse ja pideva tunnuse eristamine on mõneti tinglik. Pidevat tunnust käsitletakse sageli diskreetsena (näiteks vanust mõõdetakse täisaastates).
Tunnust, mille järgi vaadeldavat kogumit uuritakse, tähistatakse suurtähega, tavaliselt X, Y, Z. Tunnuse suvalist väärtust (ka mittearvulise tunnuse korral) aga vastava väiketähega x, y, z. Konkreetse väärtuse märkimiseks lisatakse väiketähele indeks: x1, x2, …
Uuritava kogumi objektide mõõtmisel saadakse vaadeldava tunnuse väärtuste rida, nn statistiline rida:
a1, a2, a3, …, aN.
Igat arvu (väärtust) selles reas nimetatakse statistilise rea liikmeks. Tunnuse väärtuste arv N kannab nime kogumi maht või statistilise rea maht. Et statistiline rida ei ole ülevaatlik (andmed esinevad ju reas mõõtmise järjekorras), siis on otstarbekas seda korrastada. Selleks kirjutatakse rea liikmed kas kasvavas või kahanevas järjekorras, kusjuures võrdsed liikmed kirjutatakse järjest. Tulemusena saadakse nn variatsioonrida.
Näide 1.
Ühe klassi kontrolltöö hinnete variatsioonrida oli järgmine:
2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5.
Siit on küll kerge leida hinnete vähimat väärtust (amin = 2) ja suurimat väärtust (amax = 5), kuid vähegi mahukama kogumi korral on andmete selline esitus ikka kohmakas, kasvõi pikkuse pärast.
Variatsioonreast parem on näite 1 andmete esitamine sagedustabelina, kus igale hindele (x) vastab tema esinemise arv ( f ), mida nimetatakse ka sageduseks:

Tabelist saab kiirema ülevaate hinnete jaotusest ning lihtne on leida, et kõige sagedamini esineb hinne 4. Ka kogumi mahu N saab kergesti: N = 3 + 7 + 10 + 8 = 28.
Sagedustabel esitatakse kas
horisontaalsena
![]() |
või vertikaalsena.
![]() |
Kogumi maht
N = f1 + f2 + f3 + … + fn.
Andmete muutumisest parema ülevaate saamiseks kujutatakse need geomeetriliselt sirglõikdiagrammina, mida nimetatakse sagedushulknurgaks (ka sagedusmurdjooneks). Joonisel 1.14 on esitatud näite 1 andmetele vastav sagedushulknurk.

Näide 2.
Tabelis on esitatud sama kontrolltöö tulemused nii klassis A (näite 1 andmed) kui ka klassis B. Kummas klassis tehti töö paremini?

Andmeid on raske võrrelda, sest vastavad diagrammid (joon. 1.15) on küll sarnase kujuga, kuid ühel juhul oli kontrolltöö tegijaid 28, teisel juhul aga 22. Seega ei ole selge, milline on ühe või teise hinde osakaal vastava klassi kõigi hinnete seas.
![]() Joon. 1.15 |
Erineva mahuga kogumite võrdlemiseks, nagu näite 2 korral, on otstarbekas kasutada sageduste asemel suhtelisi sagedusi. Suhteline sagedus antakse kas arvuna
Tabelit, kus tunnuse väärtustele on seatud vastavusse nende esinemise suhteline sagedus, nimetatakse jaotustabeliks.
Üldtähistuses on jaotustabel järgmine:

Seejuures on w1 + w2 + w3 + … + wn = 1, kui
Jaotustabelile vastavat sirglõikdiagrammi nimetatakse jaotushulknurgaks (ka jaotuspolügooniks).
Näide 3.
Tabelis on näites 2 esitatud hinnete sagedustabelite põhjal koostatud jaotustabelid. Joonisel 1.16 on vastavad jaotushulknurgad.

![]() Joon. 1.16 |
Tabelist ja ka jooniselt selgub, et B klassis on kontrolltöö tehtud mõnevõrra paremini: klassis B on hinnete „2”, „3” ja „5” osakaal on väiksem, kuid hinde „4” osakaal oluliselt suurem kui klassis A. Öeldut kinnitab hinnete „4” ja „5” suhteliste sageduste summaarne võrdlemine erinevates klassides: 64% ja 68%.
Kui kogumi tunnus on pidev või diskreetse tunnuse erinevaid väärtusi on väga palju, ei esitata andmete tabelis tunnuse üksikuid väärtusi, vaid väärtuste vahemikud ehk klassid. Nii saadakse rühmitatud sagedus- või jaotustabelid. Vahemike otspunkte nimetatakse siis klassipiirideks. Selline tabel on ülesandes 105.
Kui tabelis on iga vahemiku lõppväätus võrdne järgneva vahemiku algväärtusega, loetakse kahe vahemiku piiril olev arv madalamasse vahemikku kuuluvaks; vt tabelit näites 4.
Tunnuse väärtuse vahemike arv sõltub uuritavast nähtusest ja uurimise eesmärgist. Üks „jäme” reegel on järgmine: kui kogumi maht N pole väga suur, on sobiv vahemike arv umbes
Näide 4.
Ühe klassi õpilaste pikkuste variatsioonrida on järgmine: 156, 158, 159, 160, 160, 162, 163, 163, 163, 165, 165, 165, 166, 166, 167, 167, 167, 167, 168, 168, 168, 169, 170, 171, 171, 172, 173, 173, 173, 174, 174, 176, 184. Koostame vastava sagedustabeli ja jaotustabeli, kus tunnuse väärtused on esitatud vahemikes.
Et N = 33 ja
![]() |
Vahemikke võib märkida võrratusena nagu näites 4, kujul 155…160, 160…165 jne või kujul 155–160, 160–165 jne.
Kui sagedus- või jaotustabelis on tunnuse väärtused esitatud vahemikena, kujutatakse neid andmeid geomeetriliselt tulpdiagrammina, mida nimetatakse histogrammiks. Näite 4 jaotustabelile vastav histogramm on joonisel 1.17.

Statistiliste andmete tabelites võivad vahel olla otsmised vahemikud ka lahtised, s.t esimese vahemiku alumine piir ja viimase vahemiku ülemine piir jäävad fikseerimata. Nii on näiteks tabelites, milles esitatakse mingi piirkonna elanike arvu vanuse järgi. Esimesse vahemikku, x ≤ 6, kuuluvad siis lapsed, kes ei käi veel koolis, viimasesse vahemikku aga eakad inimesed 85 < x. Histogrammil jääb sel juhul esimene ja viimane vertikaallõik joonestamata.
Histogrammiga või sektordiagrammiga esitatakse tunnuse jaotus ka siis, kui tunnus on mittearvuline. Näiteks joonisel 1.18 on esitatud 1990. a Tartus sündinud laste sagedushistogramm ja sektordiagramm soo järgi.

Ülesanded
- kinganumber
- sugu
- töötasu
- töökoht
- nimi
- haridus
- vanus
- kasv
- sünniaasta
- Arvuline
- Mittearvuline
- Pidev
- Diskreetne
Täitke vastav sagedustabel ja joonestage diagramm.
Kinga number (x) | 38 | 39 | 40 | 41 | 42 | 43 | 44 |
Sagedus (f) |
Milliseid kingi müüdi poes selle tunni jooksul kõige enam, milliseid kõige vähem?
Vastus. Kõige enam müüdi number kingi ja kõige vähem müüdi numbritega ja kingi.
Vastus. Neidude kõige sagedamini esinev kinganumber on ja noormeestel . Meie klassi neidude kinganumber muutub st ni ja noormeestel st ni.
Vahemikud (cm) | f | w(%) |
< x ≤ | ||
< x ≤ | ||
< x ≤ | ||
< x ≤ | ||
< x ≤ | ||
Kokku |
Vastus. Neidude pikkus muutub st ni ja noormeestel st ni. Kõige sagedamini esinevate pikkuste vahemik on neidudel ja noormeestel .

- Mitu poissi sündis sellel aastal iga 100 tüdruku kohta?
Vastus. Iga 100 tüdruku kohta sündis sellel aastal poissi. - Millises vanusevahemikus hakkas naiste arv ületama meeste arvu?
Vastus. Naiste arv hakkas ületama meeste arvu vanusevahemikus . - Mitu protsenti moodustasid alla aastased lapsed kogu rahvastikust?
Vastus. Alla aastased lapsed moodustasid kogu rahvastikust %. - Mitu naist oli ühe mehe kohta vanusevahemikus 20–34 aastat ja vanusevahemikus 40–49?
Vastus. Vanusevahemikus 20–34 oli ühe mehe kohta naist ja vanusevahemikus 40–49 oli ühe mehe kohta naist.
Vastus. 2016. aastal moodustasid 85-aastased ja eakamad ligikaudu % Eesti rahvastikust ja 2017. aastal ligikaudu % rahvastikust. Nende protsentide võrdlemisest võib järeldada, et


1934. a
- %
- %
- %
- %
- %
- %
1989. a
- %
- %
- %
- %
- %
- %
2014. a
- %
- %
- %
- %
- %
- %
2017. a
- %
- %
- %
- %
- %
- %