Üld­kogum ja valim

Seni oleme vaadelnud peamiselt väikseid statistilisi kogumeid ja uurinud neid keskmiste ja hajuvuse seisu­kohalt. Üsna tihti on tarvis uurida aga väga suuri statistilisi kogumeid, näiteks Eesti elanik­konda. On selge, et sellise uuringu tegemine on väga töö­mahukas ja kulukas. Et hoida kokku aega ja raha, moodustatakse suurest kogumist, mida nimetatakse üld­kogumiks, suhteliselt väike statistiline kogum, mida nimetatakse valimiks, ja uuritakse siis seda. Selliselt toimides kerkib aga esile rida probleeme, millest kahel järgnevalt peatume.

Esiteks, kuidas moodustada valimit, et uurimis­tulemused peegeldaksid võimalikult õigesti üld­kogumit. Ei ole ju näiteks õige kõigi üld­hariduslike koolide õpilaste uurimisel iga­päevaste kulutuste seisu­kohalt moodustada valim üksnes Tallinna õpilastest või vaid tütar­lastest üle Eesti. Õige oleks moodustada valim nii, et see vastaks oma koos­seisult nii kõigile kooli­astmetele, õpilaste geograafilisele paiknemisele, soole ja see­juures võimalikult samades proportsioonides nagu see on üld­kogumis. Üld­juhul öeldakse, et valim peab olema üld­kogumi suhtes esinduslik (ehk representatiivne). Ka valimi suurus mõjutab üld­kogumile üldistatavate tulemuste õigsust.

Teiseks on küsimus selles, kas valimi näitajad (tulemused) võime lugeda kehtivaks ka üld­kogumi jaoks. Üldiselt ei. Valimi elemendid võtame ju üld­kogumist lõpuks ikka (vastavatest kooli­tüüpidest ja -astmetest, koolide asu­kohtadest, soost jne) juhuslikult. See­tõttu on valimi näitajad (\overline{x}MeMo, σ) ka mõne­võrra juhusliku ise­loomuga.

Järgnevalt vaatleme, kuidas hinnatakse üld­kogumi aritmeetilist keskmist, kui on teada valimi aritmeetiline keskmine ja standard­hälve või dispersioon.

Üld­kogumi aritmeetilise keskmise jaoks ei saa põhi­mõtteliselt anda täpset väärtust. See­tõttu antakse üld­kogumi aritmeetilise keskmise jaoks hinnang, milleks on vahemik, kus aritmeetiline keskmine arvatavasti asub. „Arvatavasti“ on aga eba­määrane kinnitus sellele, et aritmeetiline keskmine asub just leitud vahemikus. See­tõttu täpsustatakse seda kindluse astet tõenäosusega (tavaliselt protsentides). Nii saadakse üld­kogumi aritmeetilise keskmise hinnang järgmisel kujul: tõenäosusega 95% (või 60% või 99% või 99,5%) asub aritmeetiline keskmine vahemikus …

Miks ei anta soovitud vahemikku tõenäosusega 1? Siis oleks ju täiesti kindel, kus aritmeetiline keskmine asub. Toome näite: tõenäosusega 1 ehk 100% võib (mingeid arvutusi tegemata) öelda, et Eesti kõigi 11. klassi õpilaste keskmine pikkus on vahemikus 140 cm … 220 cm. See väide on kindlasti õige, samas pole nii eba­määrase teadmisega praktikas midagi peale hakata. Osutub, et kui vähendada väite kindluse astet, näiteks anda vajalik vahemik tõenäosusega 95%, muutub vahemik kitsamaks. Kaotame väite kindluse astmes, kuid saame lühema piir­konna, mis midagi juba ütleb.

Vaatleme, kuidas leida kõne­alust vahemikku.

Tõenäosust, tähis 1 – α, millega väidetakse üld­kogumi aritmeetilise keskmise paiknemist teatud vahemikus, nimetatakse usaldus­nivooks. Tõenäosust α nimetatakse aga olulisuse nivooks (ka riski nivooks). Kui näiteks usaldus­nivoo on 95% ehk 0,95, siis olulisuse nivoo on vastavalt 5% ehk 0,05. Vahemikku, kus asub üld­kogumi aritmeetiline keskmine, nimetatakse usaldus­vahemikuks ja selle ots­punkte usaldus­piirideks. Need leitakse valemitega

\overline{x}-T_{\mathrm{\alpha},\ n-1}\cdot\frac{\mathrm{\sigma}}{\sqrt{n}}, alumine usaldus­piir,

\overline{x}+T_{\mathrm{\alpha},\ n-1}\cdot\frac{\mathrm{\sigma}}{\sqrt{n}}, ülemine usaldus­piir,

kus n on valimi maht, T_{\mathrm{\alpha},\ n-1} on nn Studenti t-jaotuse väärtus, mis saadakse vastavast tabelist α (kümnend­murruna) ja n – 1 järgi. Tabel T_{\mathrm{\alpha},\ n-1} väärtustega on antud pea­tüki järgmises osas.

Valimi aritmeetilist keskmist nimetatakse üld­kogumi aritmeetilise keskmise punkt­hinnanguks ja usaldus­vahemikku vahemik­hinnanguks.

Näide 1.

Suure kooli arst tahab hinnata nelja paralleel­klassi poiste pikkust. Selleks moodustas ta juhusliku valiku teel 30 poisist valimi ja mõõtis valimisse sattunud poiste pikkused. Keskmine pikkus koos standard­hälbega tuli \overline{x}=174,1\pm3,7\ \mathrm{cm}. Tahtes võimalikult usaldus­väärset vahemikku saada, arvutas ta usaldus­piirid usaldus­nivooga 99% (ehk riski nivooga 1%). Seega α = 0,01. Nüüd sai ta T_{\mathrm{\alpha},\ n-1} tabelist, et T_{0,01;\ 29}\ =2,76 ja usaldus­piirid on:

alumine 174,1-2,76\cdot\frac{3,7}{\sqrt{30}} ≈ 174,1-2,76\cdot0,676 ≈ 174,1-1,87 ≈ 172,2

ülemine 174,1 + 1,87 ≈ 175,96 ≈ 176,0.

Seega on tõenäosusega 99% kõigi nelja paralleel­klassi poiste keskmine pikkus xü¯ piir­konnas 172,2xü¯176,0 cm.

Et piir­konna ulatus on pea­aegu 4 cm, otsustas arst leida kitsama piir­konna. Selleks võttis ta usaldus­nivooks 95%, mis annab α = 0,05 ja tabelist T_{0,05;\ 29}=2,05. Nüüd on usaldus­piiridest alumine 174,1 – 2,05 ⋅ 0,676174,1 – 1,39 ≈ 172,7 ja ülemine 174,1 + 1,39 ≈ 175,5. Järelikult on üld­kogumi poiste keskmine pikkus xü¯ piir­konnas 172,7xü¯175,5 cm usaldus­nivooga 95%. Usaldus­vahemiku pikkus on veidi üle 2 cm ja piir­kond „täpsem“, kuid vähem usaldatav (tõenäosus, et xü¯ ei ole selles piir­konnas, on 0,05 ehk teisiti öeldes on 5% juhtudel keskmine sellest piir­konnast väljas).

Näide 2.

Eelmises näites saadud tulemuse kontrolliks moodustas kooli­arst juhusliku valiku teel uue valimi. See­kord oli poisse valimis 37. Nüüd tuli keskmine pikkus \overline{x}=174,9\pm3,7\ \mathrm{cm}. Teinud vajalikud arvutused, sai ta usaldus­nivoo 99% korral usaldus­vahemikuks [173,2; 176,6] ja usaldus­nivoo 95% korral [173,7; 176,1].

Et esimese valimi (näite 1) korral tuli \overline{x}=174,1\ \mathrm{cm}\approx174\ \mathrm{cm} ja teise valimi korral \overline{x}=174,9\ \mathrm{cm}\approx175\ \mathrm{cm}, tekkis arstil segadus, et erinevate valimite tulemused on erinevad.

Tegelikult on olemas­olevate andmete põhjal matemaatiliselt võimalik hinnata, kas tulemuste 174,1 cm ja 174,9 cm erinevust tuleb lugeda oluliseks (siis on tulemused erinevad) või mitte­oluliseks (siis on tulemuste erinevus juhuslikkusest tingitud). Seda tehakse vastavate usaldus­vahemike võrdlemise teel. Kui usaldus­vahemikud osaliselt kattuvad, tuleb erinevus lugeda eba­oluliseks. Kui aga usaldus­vahemikel ühis­osa puudub, tuleb keskmised lugeda erinevateks. Jooniselt 1.22 on näha, et usaldus­nivoo 99% korral on usaldus­vahemikel olemas pikk ühis­osa, milles võib asuda üld­kogumi keskmine. Seega on erinevate valimite keskmiste erinevus eba­oluline ja arstil ei ole põhjust muretsemiseks.

Joon. 1.22

Studenti t-jaotuse väärtused

* Kui järgmised n – 1 väärtused tabelis puuduvad, tähendab see, et suurusele α vastavad väärtused on samad, mis tärniga reas.

Ülesanded A

Ülesanne 181. Elektri­pirnid

Katsetamisel saadi pirnide keskmine põlemis­aeg \overline{x}=2480\ \mathrm{tundi} ja σ = 18 tundi. Leidke elektri­pirnide keskmise põlemis­aja usaldus­vahemik usaldus­nivooga 0,95.

Vastus. Elektri­pirnide keskmise põlemis­aja usaldus­vahemik usaldus­nivooga 0,95 on [].

Ülesanne 182. Kontroll­tööde keskmiste hinnete usaldus­vahemikud

Ülesanne 183. India elevantide keskmine kaal

Vastus. Tõenäosusega 95% on india elevantide keskmine kaal piir­konnas
[].

Ülesanne 184. Kontroll­töö tulemused

Kas A ja B klassi kontroll­tööde hinnete keskmiste erinevus on oluline või mitte­oluline (töö tehti sama hästi) usaldus­nivooga 95%?

Vastus. Usaldus­piirid on:
A klassis [] ja
B klassis [].
Need , seega on tulemuste erinevus .

Ülesanne 185. Neidude ja noor­meeste keskmised pikkused