Statistiline tõenäosus

Kursus „Tõenäosus­teooria ja matemaatilise statistika elemente”

Sündmuse klassikalise tõenäosuse definitsioon eeldab sündmuse kõigi võimaluste võrd­võimalikkust. Seda ei ole aga sageli võimalik kindlaks teha või siis kõik üksik­juhud ei olegi võrd­võimalikud.

Heaks näiteks on lapse sünd. Kuigi erinevaid võimalusi on kaks, sünnib poiss või tüdruk, ei ole need võrd­võimalikud juhud. Nagu ees­pool ühes ülesandes märgitud, on P(sünnib poiss) = 0,514. Järelikult P(sünnib tüdruk) = 0,486.

Kuidas aga on need tõenäosused leitud?

Olgu vaatluse all sündmus A, mis iga katse korral (ka vaatlus on katse) kas toimub või ei toimu. Eeldame, et katseid saab korrata kui tahes palju kordi järjest. Katse võimalikud erinevad tulemused ei pea see­juures olema (aga võivad olla) võrd­võimalikud. Kui sündmus A esines n katse korral (ühe katse­seeria korral) m korda, siis arvu m nimetatakse sündmuse A sageduseks (täpsemalt absoluutseks sageduseks) ning suhet

\frac{m}{n}

sündmuse A suhteliseks sageduseks (ka relatiivseks sageduseks). Suhtelist sagedust väljendatakse sageli protsentides.

Sündmuse A statistiliseks tõenäosuseks nimetatakse sündmuse A suhtelist sagedust mn, kui katsete arv n on küllalt suur.

Definitsiooni lõpp kui katsete arv n on küllalt suur tundub esi­algu olevat eba­määrane ja võib­olla isegi eba­oluline. Järgnevad näited peaksid meid aga veenma, et katsete arv n peab olema vahel tõesti suur, saamaks tõenäosuse küllalt täpselt. Teiseks on erinevate nähtuste korral vajalik teha väga erinev arv katseid, et saada vajaliku täpsusega tulemus.

Näide 1.

Inglise matemaatik Karl Pearson viskas münti 12 000 korda ja kull esines 6019 korda. See­järel viskas ta münti veel 12 000 korda ning kull esines nüüd 5993 korda. Esimese katse­seeria korral oli kulli esinemise suhteline sagedus 0,5016, teise seeria korral aga 0,4994. Neid arve võib definitsiooni kohaselt võtta kulli esinemise statistiliseks tõenäosuseks, kuid Pearsoni poolt tehtud katseid võib vaadelda ka ühe katse­seeriana, kus n = 24 000 ja kulli esinemise sagedus on 12 012. Nüüd on kulli tuleku (kui juhusliku sündmuse) statistiline tõenäosus 0,5005.

Näitest selgub, et sündmuse statistiline tõenäosus on sündmuse klassikalise tõenäosuse (mündi viskamisel on kulli tuleku tõenäosus 0,5) hinnanguks. Võib teha ka oletuse, et mida suurem on katsete arv, seda vähem erineb sündmuse suhteline sagedus klassikalisest tõenäosusest (12 000 katse järel oli erinevus 0,0016, 24 000 katse järel vaid 0,0005). Selgub, et viimane väide nii resoluutsena siiski ei kehti. Osutub, et pikkade katse­seeriate puhul ei erine sündmuse suhtelised sagedused klassikalisest tõenäosusest tõenäoliselt kuigi palju; teisiti öeldes:

mida rohkem tehakse katseid, seda tõenäosem on, et sündmuse suhteline sagedus mn erineb sündmuse tõenäosusest p järjest vähem.

Öeldu väljendab tõenäosus­teoorias tuntud suurte arvude seaduse mõtet.

Näide 2.

Leiame statistiliste andmete põhjal poeg­lapse sündimise tõenäosuse. Kasutame selleks Eesti kohta käivaid andmeid aastaist 1986–1994. Nimetatud aja­vahemikul sündis Eestis 187 526 last, kellest 96 477 olid poisid. Seega oli poeg­laste sündimise suhteline sagedus \frac{96\ 477}{187\ 526}\approx0,51447. Ümardades tulemuse tuhandikeni, saamegi, etp = 0,514.

Arvutades samadel andmetel 100 vast­sündinud tüdruku kohta tuleva poiste sünni­juhtude arvu, saame 105,96 (tõenäosuse 0,514 järgi 105,76). Need tulemused ühtivad juba 17. sajandil fikseeritud seadus­pärasusega, et iga 100 tüdruku kohta sünnib 105–106 poissi.

Sündmuse statistilise tõenäosuse korral kehtivad samad omadused, mis sündmuse klassikalise tõenäosuse korral:

  1. 0\le\frac{m}{n}\le1, sest 0\le m\le n,
  2. P\left(U\right)=\frac{n}{n}=1,
  3. P\left(V\right)=\frac{0}{n}=0,
  4. P\left(A\right)+P\left(\overline{A}\right)=1, sest \frac{m}{n}+\frac{n-m}{n}=1.

Järelikult ei ole edas­pidi põhjust vahet teha, kuidas tõenäosus arvutati. Tõenäosust, mis on korrektselt leitud, tuleb kõikjal kasutada üht­viisi.

Ülesanded

Vastus. Seemete idanemis­protsent on . Tõenäosus, et samast kotist juhuslikult võetud seeme idaneb, on . Külvatud 374 seemnest on loota saada  taime.

Arvutage tabeli andmetel tõenäosus, et vast­sündinud poiss elab vähemalt 50-aastaseks.

Vastus. Tõenäosus, et vast­sündinud poiss elab vähemalt 50-aastaseks, on .

Arvutage tabeli andmetel tõenäosus, et 15-aastane neiu elab vähemalt 70-aastaseks.

Vastus. Tõenäosus, et 15-aastane neiu elab vähemalt 70-aastaseks, on .

Arvutage tabeli andmetel tõenäosus, et 40-aastane naine elab vähemalt 80-aastaseks.

Vastus. Tõenäosus, et 40-aastane naine elab vähemalt 80-aastaseks, on .

Arvutage tabeli andmetel tõenäosus, et 3-aastane poiss ja vast­sündinud õde elavad mõlemad vähemalt 60-aastaseks.

Vastus. Tõenäosus, et 3-aastane poiss ja vast­sündinud õde elavad mõlemad vähemalt 60-aastaseks, on .

Arvutage tabeli andmetel tõenäosus, et 80-aastane naine ei ela 85-aastaseks.

Vastus. Tõenäosus, et 80-aastane naine ei ela 85-aastaseks, on .

Leidke tabeli abil, millise vanuseni elamise tõenäosus on 0,5

  1. meestel;
  2. naistel.

Vastus. Keskmiselt on kvaliteetsed  pirni.

Vastus. Tõenäosus selleks, et selles ette­võttes parajasti valmiv toode on eriti vastu­pidav, on .

Vastus. Tõenäosus, et valmiv detail ei ole praak, on . Selleks, et saada 1000 kasutatavat detaili, tuleb keskmiselt valmistada  detaili.