Statistiline andmestik

Kursus „Tõenäosus­teooria ja matemaatilise statistika elemente”

Sageli on tarvis uurida inimeste, olendite, esemete või nähtuste kogumit (hulka) kui tervikut mingi omaduse või tunnuse seisu­kohalt. Nii näiteks võidakse tunda huvi, milline on Eestis elavate 17-aastaste noor­meeste keskmine pikkus, kummas paralleel­klassis läks matemaatika eksami­töö paremini, kuidas jaotuvad ette­võtted Eestis tööliste arvu järgi, milline on lilla sireli õite jaotus õie­lehtede arvu järgi.

Kuidas koguda vastavaid andmeid, neid esitada, uurida ja järeldusi teha – sellega tegeleb matemaatika osa, mille nimetuseks on matemaatiline statistika. Matemaatiline statistika tugineb see­juures suuresti tõenäosus­teooriale.

Uuritavat kogumit, mille kui terviku kohta tahetakse järeldusi teha, nimetatakse statistiliseks kogumiks. Seda uuritakse tavaliselt ühe või mitme tunnuse (omaduse) seisu­kohalt. Tunnuseks võivad olla näiteks inimeste pikkus, õpilaste hinne matemaatika eksamil, töötajate palk, rahvus, terade arv vilja­peas, silmade värv.

Tunnused liigituvad arvulisteks ja mitte­arvulisteks. Arvuline tunnus ehk arv­tunnus on tunnus, mille väärtusteks on arvud. Näiteks inimese pikkus, terade arv vilja­peas, palga suurus. Mitte­arvuline tunnus on tunnus, mille väärtusteks ei ole arvud. Näiteks rahvus, silmade värv.

Arvulised tunnused jaotatakse oma­korda kaheks: pidevateks ja diskreetseteks. Pidevaks tunnuseks nimetatakse tunnust, mis võib saada kõiki reaal­arvulisi väärtusi mingist piir­konnast. Sellised tunnused on näiteks keha­kaal, temperatuur. Diskreetseks tunnuseks nimetatakse tunnust, mis võib saada vaid üksikuid eraldi­seisvaid (sageli täis­arvulisi) väärtusi. Sellised tunnused on näiteks seemnete arv vilja­peas, tähtede arv sõnas, lehe­külgede arv raamatus.

Diskreetse ja pideva tunnuse eristamine on mõneti tinglik. Pidevat tunnust käsitletakse sageli diskreetsena (näiteks vanust mõõdetakse täis­aastates).

Tunnust, mille järgi vaadeldavat kogumit uuritakse, tähistatakse suur­tähega, tavaliselt X, Y, Z. Tunnuse suvalist väärtust (ka mitte­arvulise tunnuse korral) aga vastava väike­tähega x, y, z. Konkreetse väärtuse märkimiseks lisatakse väike­tähele indeks: x1, x2, …

Uuritava kogumi objektide mõõtmisel saadakse vaadeldava tunnuse väärtuste rida, nn statistiline rida:

a1a2a3, …, aN.

Igat arvu (väärtust) selles reas nimetatakse statistilise rea liikmeks. Tunnuse väärtuste arv N kannab nime kogumi maht või statistilise rea maht. Et statistiline rida ei ole üle­vaatlik (andmed esinevad ju reas mõõtmise järje­korras), siis on ots­tarbekas seda korrastada. Selleks kirjutatakse rea liikmed kas kasvavas või kahanevas järje­korras, kus­juures võrdsed liikmed kirjutatakse järjest. Tulemusena saadakse nn variatsioon­rida.

Näide 1.

Ühe klassi kontroll­töö hinnete variatsioon­rida oli järgmine:

2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5.

Siit on küll kerge leida hinnete vähimat väärtust (amin = 2) ja suurimat väärtust (amax = 5), kuid vähegi mahukama kogumi korral on andmete selline esitus ikka kohmakas, kasvõi pikkuse pärast.

Variatsioon­reast parem on näite 1 andmete esitamine sagedus­tabelina, kus igale hindele (x) vastab tema esinemise arv ( f ), mida nimetatakse ka sageduseks:

Tabelist saab kiirema üle­vaate hinnete jaotusest ning lihtne on leida, et kõige sagedamini esineb hinne 4. Ka kogumi mahu N saab kergesti: N = 3 + 7 + 10 + 8 = 28.

Sagedustabel esitatakse kas

horisontaalsena

või vertikaalsena.

Kogumi maht

N = f1 + f2 + f3 + … + fn.

Andmete muutumisest parema üle­vaate saamiseks kujutatakse need geomeetriliselt sirg­lõik­diagrammina, mida nimetatakse sagedus­hulk­nurgaks (ka sagedus­murd­jooneks). Joonisel 1.14 on esitatud näite 1 andmetele vastav sagedus­hulknurk.

Joon. 1.14

Näide 2.

Tabelis on esitatud sama kontroll­töö tulemused nii klassis A (näite 1 andmed) kui ka klassis B. Kummas klassis tehti töö paremini?

Andmeid on raske võrrelda, sest vastavad diagrammid (joon. 1.15) on küll sarnase kujuga, kuid ühel juhul oli kontroll­töö tegijaid 28, teisel juhul aga 22. Seega ei ole selge, milline on ühe või teise hinde osa­kaal vastava klassi kõigi hinnete seas.

Joon. 1.15

Erineva mahuga kogumite võrdlemiseks, nagu näite 2 korral, on ots­tarbekas kasutada sageduste asemel suhtelisi sagedusi. Suhteline sagedus antakse kas arvuna w_i=\frac{f_i}{N} või protsendina w_i\left(\%\right)=\frac{f_i}{N}\cdot100\%, kus i=1,\ 2,\ ...,\ n, mis näitab, milline on tunnuse väärtuse xi osa­kaal kõigi väärtuste seas.

Tabelit, kus tunnuse väärtustele on seatud vastavusse nende esinemise suhteline sagedus, nimetatakse jaotus­tabeliks.

Üld­tähistuses on jaotus­tabel järgmine:

Seejuures on w1w2w3 + … + wn = 1, kui w_i=\frac{f_i}{N}, ja w1 + w2 + w3 + … + wn = 100%, kui w_i=\frac{f_i}{N}\cdot100\%.

Jaotus­tabelile vastavat sirg­lõik­diagrammi nimetatakse jaotus­hulk­nurgaks (ka jaotus­polügooniks).

Näide 3.

Tabelis on näites 2 esitatud hinnete sagedus­tabelite põhjal koostatud jaotus­tabelid. Joonisel 1.16 on vastavad jaotus­hulk­nurgad.

Joon. 1.16

Tabelist ja ka jooniselt selgub, et B klassis on kontroll­töö tehtud mõne­võrra paremini: klassis B on hinnete „2”, „3” ja „5” osa­kaal on väiksem, kuid hinde „4” osa­kaal oluliselt suurem kui klassis A. Öeldut kinnitab hinnete „4” ja „5” suhteliste sageduste summaarne võrdlemine erinevates klassides: 64% ja 68%.

Kui kogumi tunnus on pidev või diskreetse tunnuse erinevaid väärtusi on väga palju, ei esitata andmete tabelis tunnuse üksikuid väärtusi, vaid väärtuste vahemikud ehk klassid. Nii saadakse rühmitatud sagedus- või jaotus­tabelid. Vahemike ots­punkte nimetatakse siis klassi­piirideks. Selline tabel on ülesandes 105.

Kui tabelis on iga vahemiku lõpp­väätus võrdne järgneva vahemiku alg­väärtusega, loetakse kahe vahemiku piiril olev arv madalamasse vahemikku kuuluvaks; vt tabelit näites 4.

Tunnuse väärtuse vahemike arv sõltub uuritavast nähtusest ja uurimise ees­märgist. Üks „jäme” reegel on järgmine: kui kogumi maht N pole väga suur, on sobiv vahemike arv umbes \sqrt{N}.

Näide 4.

Ühe klassi õpilaste pikkuste variatsioon­rida on järgmine: 156, 158, 159, 160, 160, 162, 163, 163, 163, 165, 165, 165, 166, 166, 167, 167, 167, 167, 168, 168, 168, 169, 170, 171, 171, 172, 173, 173, 173, 174, 174, 176, 184. Koostame vastava sagedus­tabeli ja jaotus­tabeli, kus tunnuse väärtused on esitatud vahemikes.

Et N = 33 ja \sqrt{33}\approx5,7, siis sobiv vahemike arv on 6 või 5. Kuna ulatus xmaxxmin = 184 – 56 = 28 ei jagu vahemike arvuga 5 või 6 ja vahemike ots­punktideks eelistatakse täis­arve, võtame ulatuseks 30, mis annab vahemike arvu 6 korral vahemike pikkuseks 5 ühikut. Pikendanud ulatust 2 ühiku võrra, võtame esimese vahemiku alumiseks piiriks 155 ja viimase vahemiku ülemiseks piiriks 185. Nii saame järgmise tabeli:

Vahemikke võib märkida võrratusena nagu näites 4, kujul 155…160, 160…165 jne või kujul 155–160, 160–165 jne.

Kui sagedus- või jaotus­tabelis on tunnuse väärtused esitatud vahemikena, kujutatakse neid andmeid geomeetriliselt tulp­diagrammina, mida nimetatakse histogrammiks. Näite 4 jaotus­tabelile vastav histogramm on joonisel 1.17.

Joon. 1.17

Statistiliste andmete tabelites võivad vahel olla otsmised vahemikud ka lahtised, s.t esimese vahemiku alumine piir ja viimase vahemiku ülemine piir jäävad fikseerimata. Nii on näiteks tabelites, milles esitatakse mingi piir­konna elanike arvu vanuse järgi. Esimesse vahemikku, x ≤ 6, kuuluvad siis lapsed, kes ei käi veel koolis, viimasesse vahemikku aga eakad inimesed 85 < x. Histogrammil jääb sel juhul esimene ja viimane vertikaal­lõik joonestamata.

Histogrammiga või sektor­diagrammiga esitatakse tunnuse jaotus ka siis, kui tunnus on mitte­arvuline. Näiteks joonisel 1.18 on esitatud 1990. a Tartus sündinud laste sagedus­histogramm ja sektor­diagramm soo järgi.

Joon. 1.18

Ülesanded

        • kinganumber
        • sugu
        • töötasu
        • töökoht
        • nimi
        • haridus
        • vanus
        • kasv
        • sünniaasta
        • Arvuline
        • Mittearvuline
        • Pidev
        • Diskreetne

        Täitke vastav sagedus­tabel ja joonestage diagramm.

        Kinga number (x)

        38

        39

        40

        41

        42

        43

        44

        Sagedus (f)

        Milliseid kingi müüdi poes selle tunni jooksul kõige enam, milliseid kõige vähem?

        Vastus. Kõige enam müüdi number  kingi ja kõige vähem müüdi numbritega  ja  kingi.

        Vastus. Neidude kõige sagedamini esinev kinga­number on  ja noor­meestel . Meie klassi neidude kinga­number muutub st ni ja noor­meestel st ni.

        Vahemikud (cm)

        f

        w(%)

         < x ≤ 

         < x ≤ 

         < x ≤ 

         < x ≤ 

         < x ≤ 

        Kokku

        Vastus. Neidude pikkus muutub st ni ja noor­meestel st ni. Kõige sagedamini esinevate pikkuste vahemik on neidudel  ja noor­meestel .

        1. Mitu poissi sündis sellel aastal iga 100 tüdruku kohta?
          Vastus. Iga 100 tüdruku kohta sündis sellel aastal  poissi.
        2. Millises vanuse­vahemikus hakkas naiste arv ületama meeste arvu?
          Vastus. Naiste arv hakkas ületama meeste arvu vanuse­vahemikus .
        3. Mitu protsenti moodustasid alla aastased lapsed kogu rahvastikust?
          Vastus. Alla aastased lapsed moodustasid kogu rahvastikust %.
        4. Mitu naist oli ühe mehe kohta vanuse­vahemikus 20–34 aastat ja vanuse­vahemikus 40–49?
          Vastus. Vanuse­vahemikus 20–34 oli ühe mehe kohta  naist ja vanuse­vahemikus 40–49 oli ühe mehe kohta  naist.

        Vastus. 2016. aastal moodustasid 85-aastased ja eakamad ligi­kaudu % Eesti rahvastikust ja 2017. aastal ligi­kaudu % rahvastikust. Nende protsentide võrdlemisest võib järeldada, et 

        1934. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %
        6.  %

        1989. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %
        6.  %

        2014. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %
        6.  %

        2017. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %
        6.  %