OPPSUMMERING I STATISTIKK
Vi bruker et datamateriale for å illustrere
begreper og algoritmer.
På en prøve i matematikk fikk studentene (50) ved en høgskole disse poengsummene
(max 100 poeng):
38 |
58 |
21 |
30 |
37 |
33 |
24 |
52 |
35 |
30 |
42 |
35 |
42 |
45 |
36 |
15 |
55 |
30 |
24 |
50 |
30 |
58 |
34 |
25 |
35 |
32 |
40 |
35 |
61 |
65 |
34 |
55 |
40 |
56 |
61 |
19 |
20 |
32 |
30 |
52 |
56 |
48 |
62 |
31 |
28 |
35 |
54 |
49 |
45 |
46 |
Stokastisk variabel
er en
funksjon som tilordner verdier til elementer i utfallsrommet til et tilfeldig
forsøk. For eksempel kan en stokastisk variabel X inneholde poengsummen til en
elev, og de mulige utfallene er elementene i mengden {0,1,2,..,100} som
beskrevet i tabellen over. For hver av de 50 poengsummene i tabellen over kan
det tildeles en stokastisk variabel X1, …, X50, for å
viderebehandle materialet matematisk.
Alternativt kan vi opprette stokastiske variable som inneholder antall
forekomster av en bestemt poengsum, eller gruppe av poengsummer.
NB! En stokastisk variabel er alltid numerisk.
Utfall er resultatet av et
forsøk/eksperiment. I forsøket over er et utfall en poengsum som en student får
på prøven. Siden utfallene i eksempelet over er numeriske kan hvert utfall
tildeles en stokastisk variabel.
Utfallsrommet
er alle mulige utfall som et forsøk kan gi,
og behøver ikke være numerisk. I forsøket over er utfallsrommet numeriske
heltallsverdier i om rådet 0-100.
Hendelse/begivenhet betegner en mengde av utfall som observeres. For eksempel kan vi observere poengsummene [0-10>, [10-20> og så videre som grunnlag for å sette en karakter.
Frekvens/hyppighet
betegner hvor mange ganger en hendelse
forekommer i en serie med forsøk. Hvis vi definerer hver poengsum som en
hendelse, og vi ser at hendelsen ”35 poeng” opptrer 5 ganger. Vi kan gruppere
hendelser, for eksempel [30, 40>. Dette omtales som en klasse, siden den
omfatter et antall utfall med felles egenskaper. Det er to typer frekvenser:
Absolutt frekvens som er antallet ganger en bestemt hendelse forekommer.
Relativ frekvens som er antallet ganger en bestemt hendelse forekommer dividert med totalt antall hendelser.
Frekvenstabell er en tabell over grupperte hendelser og frekvenser. En slik tabell blir som regel mindre enn tabellen over hendelser siden vi bare teller like hendelser og ikke tar vare på hver enkelt hendelse. På den måten mister vi informasjon om hvem som fikk poengsummen.
Vårt datamateriale inneholder poengsummer fra 0 til 100, og det er hensiktsmessig å gruppere frekvensene i klasser med utfall siden datamaterialet skal brukes til evaluering. Vi velger en klassebredde som samsvarer med karaktersettingen. I grunnskolen bruker vi bare fast klassebredde.
Vi grupperer de stokastiske variable i poengklasser og teller opp antallet hendelser h i hver klasse. Siden antall observasjoner er 50, regner vi også ut den relative frekvensen r, som gir et tall som kan brukes til sammenligning med andre tilsvarende forsøk hvor antallet er forskjellig fra 50. Vi velger klassebredde 10 poeng:
X:Antall poeng |
h:Abs.frekv. |
r: Rel.frekv. |
[0, 10> |
0 |
0 |
[10, 20> |
2 |
2/50 |
[20, 30> |
6 |
6/50 |
[30, 40> |
19 |
19/50 |
[40, 50> |
9 |
9/50 |
[50, 60> |
10 |
10/50 |
[60, 70> |
4 |
4/50 |
Merk hva intervallene betyr: [10, 20> forteller at klassen har det poengsummer fra og med 10 til og med 19, og [20, 30>, er poengsummer fra og med 20 til og med 29 osv.
En frekvenstabell med klassedelt materiale, der klassebredden er konstant, danner grunnlag for en grafisk fremstilling i et stolpe/søyle diagram. Hvis det ikke er avstand mellom søylene kalles denne diagramtypen ofte for histogram.
Andre diagramtyper er sektordiagram, linjediagram, punktdiagram, stammebladdiagram og arealdiagram.
Kumulativ frekvenstabell (latin: kumulasjon) er en tabell hvor frekvensene fortløpende summeres til neste klasse. Vi tar utgangspunkt i frekvenstabellen og ser hvordan kumulativ absolutt og relativ frekvens utvikles.
X:Antall poeng |
h:Abs.frekv. |
H: Kum.frek |
[0, 10> |
0 |
0 |
[10, 20> |
2 |
2 |
[20, 30> |
6 |
8 |
[30, 40> |
19 |
27 |
[40, 50> |
9 |
36 |
[50, 60> |
10 |
46 |
[60, 70> |
4 |
50 |
Tilsvarende kan vi regne ut kumulativ relativ frekvens.
X:Antall poeng |
r:Rel.frekv. |
R: Kum.frek |
[0, 10> |
0/50 |
0/50 |
[10, 20> |
2/50 |
2/50 |
[20, 30> |
6/50 |
8/50 |
[30, 40> |
19/50 |
27/50 |
[40, 50> |
9/50 |
36/50 |
[50, 60> |
10/50 |
46/50 |
[60, 70> |
4/50 |
50/50 |
Som diagrammer ser de ut
som følger:
Vårt datamateriale i stigende rekkefølge:
n=10*rad+kol |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
0 |
15 |
19 |
20 |
21 |
24 |
24 |
25 |
28 |
30 |
30 |
10 |
30 |
30 |
30 |
31 |
32 |
32 |
33 |
34 |
34 |
35 |
20 |
35 |
35 |
35 |
35 |
36 |
37 |
38 |
40 |
40 |
42 |
30 |
42 |
45 |
45 |
46 |
48 |
49 |
50 |
52 |
52 |
54 |
40 |
55 |
55 |
56 |
56 |
58 |
58 |
61 |
61 |
62 |
65 |
Vi har 50 observasjoner, dvs et partall og finner først de to midterste observasjonene, og deretter gjennomsnittet av disse to:
Differensen mellom høyeste og laveste verdi i datamaterialet: r = xmaks – xmin
Variasjonsbredde i vårt forsøk er: r = 65 – 15 = 50 (poeng)
Første kvartil, eller 25. prosentilen, er hendelsen som er slik at ¼ av observasjonene er mindre eller lik denne verdien: x0.25n (n er antall observasjoner)
Andre kvartil, eller 50. prosentil, er halvparten av observasjonene som er mindre eller lik medianverdien: x0.50n (n er antall observasjoner)
Tredje kvartil, eller 75. prosentil, er hendelsen som er slik at ¾ av observasjonene er mindre eller lik denne verdien: x0.75n (n er antall observasjoner)
Kvartilerdifferense/Midtspredning
Kvartildifferensen Q
er Tredje kvartil minus Første kvartil: Q = x0.75n
- x0.25n
Dette er et mål som angir spredningen på tilnærmet 50 % av observasjonene.
I vårt eksempel er Q = 52 – 30 = 22 (poeng)
Gjennomsnittlig absoluttverdiavvik
Måler gjennomsnittlig
differanse mellom observasjonene og middelverdien.
(poeng)
Måler gjennomsnittlig
kvadratavvik mellom observasjonene og middelverdien.
Standardavvik (S)
Standardavviket er et mål
for observasjonenes spredning omkring middelverdien, og beregnes som
kvadratroten av variansen: (poeng).
Generelt gjelder det at ca
2/3 (68 %) av alle observasjoner ligger innenfor området pluss/minus ett
standardavvik fra middelverdien.
I vårt datamateriale vil det si at 32 observasjoner ligger innenfor dette intervallet.
SENTRAL- OG SPREDNINGSMÅL
I KLASSEDELT DATAMATERIALE
Disse målene bruker vi når vi ikke har enkeltobservasjonene i et materiale. De verdiene vi regner ut, blir ikke alltid like nøyaktige som i et ugruppert datamateriale.
Vi tar utgangspunkt i frekvenstabellen med det klassedelte materialet vårt:
X: Antall poeng |
h:Absolutt frekvens |
r: Relativ frekvens |
[0, 10> |
0 |
0 |
[10, 20> |
2 |
2/50 |
[20, 30> |
6 |
6/50 |
[30, 40> |
19 |
19/50 |
[40, 50> |
9 |
9/50 |
[50, 60> |
10 |
10/50 |
[60, 70> |
4 |
4/50 |
Nedre klassegrense: Den verdien som klassen starter på
Øvre klassegrense: Den verdien som klassen ender på
[10,20> har Nedre klassegrense = 10 og Øvre klassegrense = 20
Gjennomsnitt
Utgangspunktet er klassemiddelet som vi definerer som midtpunktet i hver klasse.
Det vil si:
X |
h |
Xmiddel |
h*Xmiddel |
[0, 10> |
0 |
5 |
0 |
[10, 20> |
2 |
15 |
30 |
[20, 30> |
6 |
25 |
150 |
[30, 40> |
19 |
35 |
665 |
[40, 50> |
9 |
45 |
405 |
[50, 60> |
10 |
55 |
550 |
[60, 70> |
4 |
65 |
260 |
Totalt |
50 |
|
2060 |
(poeng)
Median
Medianen er definert som
klassemiddelpunktet i klassen hvor den midterste observasjonen befinner seg.
I eksempelet vårt er det observasjonen som ligger mellom observasjon 25 og 26.
Den er i klassen [30, 40> og derav følger at medianen er xmiddel =
35.
Kvartiler defineres som
klassmiddelpunktet i klassen hvor tilsvarende observasjoner befinner seg. I
eksempelet vårt blir det:
1. kvartil: x0.25n = 35 (Observasjon nr 13 er i klassen [30,>40>)
2. kvartil: x0.50n = 35 (Observasjon nr 25.5 er i klassen [30,>40>)
3. kvartil: x0.75n = 55 (Observasjon nr 38 er i klassen [50,>60>)
Varians (S2) og Standardavvik (S)
Utgangspunktet er klassemiddelet som vi definerer som midtpunktet i hver klasse.
Det vil si:
Vi bruker middelverdien:
X |
h |
Xmiddel |
h*Xmiddel |
h*(Xmiddel- |
[0, 10> |
0 |
5 |
0 |
0 |
[10, 20> |
2 |
15 |
30 |
1373 |
[20, 30> |
6 |
25 |
150 |
1575 |
[30, 40> |
19 |
35 |
665 |
730 |
[40, 50> |
9 |
45 |
405 |
130 |
[50, 60> |
10 |
55 |
550 |
1904 |
[60, 70> |
4 |
65 |
260 |
2266 |
Totalt |
50 |
|
2060 |
7978 |
(poeng)
Frekvenstabell 1(F1) Frekvenstabell 2(F2)
Alder X |
Antall (h)
|
20 |
6 |
21 |
15 |
22 |
21 |
23 |
12 |
24 |
13 |
25 |
6 |
26 |
8 |
27 |
Median av frekvensfordelt materiale. Medianen for frekvenstabellen med klassebredde 1 år er 24 år.
Medianen for frekvenstabellen med varierende klassebredde ligger i klassen [22-26>, men hvor?
![]()
5
|
28 |
4 |
29 |
3 |
30 |
5 |
31 |
3 |
32 |
5 |
33 |
2 |
34 |
4 |
35 |
1 |
36 |
0 |
37 |
2 |
38 |
2 |
39 |
1 |
40 |
1 |
41 |
1 |
Frekvenstabell 1 |
|
Frekvenstabell 2 |
|
|
|
||||||||||||
Alder x |
Antall h |
x*h |
h(x-m)2 |
|
Klasse |
Antall h |
x*h |
h(x-m)2 |
|
||||||||
20 |
6 |
120 |
197 |
|
[20-22> |
21 |
441 |
638 |
|
||||||||
21 |
15 |
315 |
335 |
|
[22-26> |
52 |
1248 |
328 |
|
||||||||
22 |
21 |
462 |
291 |
|
[26-30> |
20 |
560 |
44 |
|
||||||||
23 |
12 |
276 |
89 |
|
[30-35> |
19 |
618 |
681 |
|
||||||||
24 |
13 |
312 |
39 |
|
[35-40> |
6 |
225 |
724 |
|
||||||||
25 |
6 |
150 |
3 |
|
[40-50> |
2 |
90 |
684 |
|
||||||||
26 |
8 |
208 |
1 |
|
Sum |
120 |
3182 |
3100 |
|
||||||||
27 |
5 |
135 |
8 |
|
|
|
|
|
|||||||||
28 |
4 |
112 |
21 |
|
|
|
|
|
|||||||||
29 |
3 |
87 |
32 |
|
Median (F1) |
24.0 |
|
|
|||||||||
30 |
5 |
150 |
91 |
|
Median (F2) |
24.0 |
|
|
|||||||||
31 |
3 |
93 |
83 |
|
Middelverdi (F1) |
25,7 |
|
|
|||||||||
32 |
5 |
160 |
197 |
|
Middelverdi (F2) |
26,5 |
|
|
|||||||||
33 |
2 |
66 |
106 |
|
Varians (F1) |
25,2 |
|
|
|||||||||
34 |
4 |
136 |
274 |
|
Varians (F2) |
25,8 |
|
|
|||||||||
35 |
1 |
35 |
86 |
|
Kvartil 1 (F1) |
22.0 |
|
|
|||||||||
36 |
0 |
0 |
0 |
|
Kvartil 1 (F2) |
24.0 |
|
|
|||||||||
37 |
2 |
74 |
254 |
|
Kvartil 3 (F1) |
28,5 |
|
|
|||||||||
38 |
2 |
76 |
301 |
|
Kvartil 3 (F2) |
28.0 |
|
|
|||||||||
39 |
1 |
39 |
176 |
|
|
|
|
|
|||||||||
40 |
1 |
40 |
204 |
|
|
|
|
|
|||||||||
41 |
1 |
41 |
233 |
|
|
|
|
|
|||||||||
Eksempel med 100 kast med 2 terninger
Sum |
Absolutt hyppighet h |
Absolutt kumulativ hyppighet H |
Relativ hyppighet r |
Relativ kumulativ hyppighet R |
2 |
1 |
1 |
0,01 |
0,01 |
3 |
9 |
10 |
0,09 |
0,10 |
4 |
11 |
21 |
0,11 |
0,21 |
5 |
13 |
34 |
0,13 |
0,34 |
6 |
12 |
46 |
0,12 |
0,46 |
7 |
17 |
63 |
0,17 |
0,63 |
8 |
14 |
77 |
0,14 |
0,77 |
9 |
8 |
85 |
0,08 |
0,85 |
10 |
8 |
93 |
0,08 |
0,93 |
11 |
5 |
98 |
0,05 |
0,98 |
12 |
2 |
100 |
0,02 |
1,00 |
Relativ hyppighet beregnes
med hvor r er relativ hyppighet, h
absolutt hyppighet og n er antall forsøk.
Relativ kumulativ hyppighet
beregnes med hvor R er relativ kumulativ hyppighet og
r er relativ hyppighet.
OPPSUMMERING I SANNSYNLIGHETSREGNING
Sannsynlighet er et begrep som brukes i flere forskjellige sammenhenger. Det kan være
Sannsynlighetstenkning er en måte menneskene har utviklet for å håndtere de usikkerheter tilværelsen byr på. Mest avansert finnes dette i en gren av matematikken som nå kalles matematisk statistikk.
I hverdagen uttrykker vi oss ofte om sannsynligheter uten å tenke over det.
Hverdagsspråk og matematikk er ikke alltid på linje. Hvis vi tenker oss en samling av 100 lodd godt blandet i en skål, 50 uten og 50 med gevinst, vil spørsmålet «Hvor mange lodd må jeg ta for å være helt sikker på å få en gevinst», ha det matematisk korrekte svaret «51». Spør man etter å være «rimelig sikker», snakker vi om hverdagssannsynlighet og tipper for eksempel 10.
(Hentet fra Wikipedia)
Sannsynlighetsmodell
Et utfallsrom U inneholder alle mulige utfall som et forsøk kan få. U={u1, u2, …, un}
Hvert utfall ui har en sannsynlighet P(ui) for å framstå. For sannsynlighetene gjelder at
0£ P(ui)<1 og P(u1)+P(u2)+…+P(un)=1.
Et forsøk som tilfredsstiller disse kravene har en sannsynlighetsmodell.
Hvis alle utfallene har lik sannsynlighet kalles det en uniform sannsynlighetsmodell.
Hvis vi betrakter tabellen over poeng i det
innledende eksempelet, er det lite sannsynlig at alle mulige utfall (0-100) har
samme sannsynlighet. Det er ikke mulig å beregne sannsynligheten for en poengsum
teoretisk, men den kan beregnes for denne prøven.
Tilsvarende kan vi ikke beregne sannsynligheten for at en tilfeldig student har
en bestemt alder teoretisk. Det vil nemlig variere fra klasse til klasse.
I terningkast derimot kan vi beregne sannsynligheten for å få en bestemt
hendelse rent teoretisk. Men i et bestemt forsøk kan vi ikke være sikker på at
vi får den teoretiske fordelingen.
Vi ser på frekvenstabellen for poeng.
X: Antall poeng |
h:Absolutt frekvens |
r: Relativ frekvens |
[0, 10> |
0 |
0=0,00 |
[10, 20> |
2 |
2/50=0,04 |
[20, 30> |
6 |
6/50=0,06 |
[30, 40> |
19 |
19/50=0,38 |
[40, 50> |
9 |
9/50=0,18 |
[50, 60> |
10 |
10/50=0,20 |
[60, 70> |
4 |
4/50=0,08 |
Relativ frekvens r kan betraktes som en sannsynlighet for at en tilfeldig valgt student har poengsum i en klasse X. Eksempelvis P(X i [30,40>)=0,38.
Denne sannsynligheten beregnes som en kvotient
mellom antall gunstige utfall og antall mulige utfall:
Alle sannsynligheter kan beregnes på denne måten. Man må bare bestemme antall
gunstige og mulige i et forsøk.
De store talls lov sier at den relative frekvensen vil nærme seg den virkelige sannsynligheten ved svært mange forsøk.
En delmengde A av utfallsrommet U kalles en hendelse eller begivenhet. En hendelse kan altså omfatte et antall utfall i utfallsrommet. For eksempel oppnå mellom 30 og 40 poeng på prøven.
En komplementhendelse
består av alle utfall i U som ikke er med i hendelsen A.
Kombinatorikk er et område innen
matematikken som går ut på å telle kombinasjoner av objekter i mengder som deles
etter gitte regler. Kombinatorikken inngår i sannsynlighetsregning i og med at
man trenger en metode å finne antall mulige utfall, og antall måter et bestemt
utfall kan opptre, for å beregne sannsynligheten for det nevnte utfallet.
Typiske kombinatoriske spørsmål kan være om hvor mange mulige måter det er å
stokke en kortstokk, hvilket er 52! (52 fakultet), eller antall mulige
lottorekker som kan beregnes ved .
Multiplikasjonsprinsippet
Antall mulige utfall m i n uavhengige forsøk, som utføres sammen, bestemmes ved å multiplisere antall mulige utfall mi i hvert forsøk: m=m1*m2*…*mn.
Eksempel:
Det er 5 ulike veier fra A til B og 7 veier fra B til C. Hvor mange ulike
veier er det fra A til C?
Hvert av de 5 ulike veivalgene fra A til B kan kombineres med 7 muligheter for valg av vei fra B til C. Altså er det m=5*7 mulige veivalg mellom A og C.
Permutasjon er en endring av rekkefølgen av elementene i en liste. Et eksempel på en permutasjon finner man i kortspill. De 52 kortene i en kortstokk ligger ordnet etter hverandre. Stokker man kortene, endres rekkefølgen, og dette er da en permutasjon av kortene.
I en liste med n elementer kan elementene ordnes på n! (n-fakultet) måter:
n!=n*(n-1)*(n-2)*…*3*2*1
Eksempel
På hvor mange mulige
måter m
kan 3 personer A, B og C stå i kø?
m=3!=3*2*1=6
ABC |
ACB |
BAC |
BCA |
CAB |
CBA |
Dette kan vises i en tabell:
Vi gjør et utvalg på r elementer av i alt n fra en urne. Dette kan gjøres på flere måter:
Utvalg
|
Med ordning |
Uten ordning |
Med tilbakelegging |
nr Vi har r trinn hvor antall utfall i hvert trinn er n. |
Ikke gjennomgått i kurset!
|
Uten tilbakelegging |
|
|
Eksempel
Vi har 4 bokstaver: A B C D, og skal gjøre et utvalg på 2 av disse 4 bokstavene på forskjellige måter.
1. Med tilbakelegging og med ordning: m=42=16
AA |
AB |
AC |
AD |
BA |
BB |
BC |
BD |
CA |
CB |
CC |
CD |
DA |
DB |
DC |
DD |
2.
Uten tilbakelegging og med ordning:
m=4*3=4P2=12
|
AB |
AC |
AD |
BA |
|
BC |
BD |
CA |
CB |
|
CD |
DA |
DB |
DC |
|
3.
Med tilbakelegging og uten ordning:
AA |
AB |
AC |
AD |
|
BB |
BC |
BD |
|
|
CC |
CD |
|
|
|
DD |
4.
Uten tilbakelegging og uten ordning: m=4*3/2!=4C2=6
=
|
AB |
AC |
AD |
|
|
BC |
BD |
|
|
|
CD |
|
|
|
|
En binomisk sannsynlighetsmodell er karakterisert av en enten-eller situasjon i en serie med uavhengige forsøk. Dvs vi har sannsynligheten p for suksess og (1-p) for fiasko er den samme i alle forsøk.
I kast med en terning kan vi definere en stokastisk variabel: X=antall seksere på 4 kast
Sannsynligheten for å få en sekser s på et kast er p(s)=1/6. Av det følger at sannsynligheten for å ikke få en sekser i er p(i)=1-p(s)=5/6.
Vi kan da beregne sannsynligheten for 0,1,2,3 eller 4 seksere på 4 kast.
Sannsynligheten for å få 0 seksere på 4 kast blir:
. Dette kan bare oppnås på en måte.
Sannsynligheten for å få 1 seksere på 4 kast blir:
. Vi må gange produktet med 4 siden sekseren kan framstå på
hvert av de 4 kastene.
Sannsynligheten for å få 2 seksere på 4 kast blir:
. Vi må gange produktet med 6 siden sekserne kan framstå på 6
ulike måter i de 4 kastene.
Sannsynligheten for å få 3 seksere på 4 kast blir:
. Vi må gange produktet med 4 siden sekserne kan framstå på 4
ulike måter i de 4 kastene.
Sannsynligheten for å få 4 seksere på 4 kast blir:
. Dette kan bare oppnås på en måte.
Alternativt kan vi skrive disse sansynlighetene slik:
Vi ser at antallet begivenheter som medfører X=x er symmetrisk om X=2. Det totale antall ulike begivenheter er 1+4+6+4+1=16.
Sannsynligheten er imidlertid ikke symmetrisk om X=2, men tyngdepunktet ligger mellom P(X=0) og P(X=1). Summen av sannsynlighetene for begivenhetene skal være 1. Summen kan uttrykkes på formen:
Nest siste ledd i
uttrykket er på formen , hvor (a+b)=1.
Generelt kan dette
uttrykkes :
hvor
P: Sannsynligheten for X=x suksesser i n
forsøk
X: Stokastisk variabel som inneholder antall suksesser i en serie på n forsøk
p: Sannsynligheten for suksess i ett forsøk
1 – p: Sannsynligheten for at suksess uteblir i ett forsøk
n: Antall forsøk i serien
x: Antall suksesser i serien
I denne oppgaven har du en boks med 3 røde ( R ) og 2 hvite ( H ) kuler. Du skal i hvert forsøk trekke en kule fra boksen, uten å se hva du trekker. Så skal du registrere fargen. Etter det skal du legge den tilbake.
b.
Vi tenker oss at du gjør forsøket tre ganger.
På hvor mange forskjellige måter kan du få 2 røde kuler?
Svar: Siden vi ikke ser forskjell på de røde kulene får vi følgende
mulige kombinasjoner: RRH, RHR, HRR.
Det betyr at vi har 3 mulige kombinasjoner. Dette kan uttrykkes matematisk slik:
c.
Hva er sannsynligheten for at
du får akkurat 2 røde kuler etter 3 forsøk?
Det kan skrives som P(X=2) hvor X er en stokastisk variabel som inneholder
antall røde kuler.
Svar: Dette er et binomisk forsøk hvor p(R)=3/5, P(H)=1-p(R)=2/5, n=3 og
x=2
d.
Hva er sannsynligheten for at du får 7 røde kuler etter 10 forsøk?
Svar: Dette er et binomisk forsøk hvor p(R)=3/5, P(H)=1-p(R)=2/5, n=10 og
x=7
e.
Anta at du gjør 12 forsøk Skriv opp formelen som angir sannsynligheten
for at du får r røde kuler, der r er et tall slik at
.
Hva kalles sannsynlighetsfordelingen i en slik forsøksrekke? Kommenter.
Svar: Dette er et binomisk forsøk hvor p(R)=3/5, P(H)=1-p(R)=2/5, n=12 og
x=r
I hypergeometrisk
fordeling endrer sannsynlighetene seg under forsøk med flere trinn!
Det er fornuftig å tenke på utfallsrommet som grupper av elementer som skal
betraktes hver for seg. Eksempelvis består utfallsrommet i Lotto av tallene
1-34. Av disse tallene skal vi trekke ut 7 vinnertall. Antall måter dette kan
gjøres på er gitt ved .
Det betyr at det er m mulige vinnerkombinasjoner i Lotto.
Vi definerer en stokastisk variabel X som inneholder antall rette Lottotall.
Hvis du tipper n
tall, hvor n>7, kan du tippeforskjellige kombinasjoner.
Hvis vi deler opp Lotto-tallene i 2 grupper: vinnergruppen A med 7 vinnertall og
de andre tallene B med de resterende 27 tallene, kan vi finne ut hvor mange
forskjellige kombinasjoner vi kan lage med n tall hvor de 7 vinnertallene
inngår. Det kaller vi antall gunstige g tallkombinasjoner.
Antall gunstige måter vi kan trekke ut de 7 vinnertallene på er gitt ved
. Tilsvarende kan vi trekke ut n - 7 tall fra de
resterende 27 tallene på
måter.
Det betyr at antall gunstige utvalg med n tall hvor vi får en vinnerekke
blir: .
Vi bruker regelen som sier at sannsynligheten er gitt ved kvotienten P(X=7) =
g/m , får vi følgende uttrykk for 7 rette med n tippede tall:
For Lotto kan vi definere den stokastiske variabelen: X=Antall rette på en Lotto kupong
Da gjelder følgende sannsynlighetsmodell for X :
Generelt for hypergeometriske sannsynlighetsfordelinger, kan vi definere en stokastisk variabel:
X=Antall spesielle i en begivenhet
Da gjelder følgende
sannsynlighetsmodell for X
hvor: N=Antallet i populasjonen
S=Antallet spesielle i populasjonen
n=Antallet i begivenheten
x=Antallet spesielle i begivenheten.
NB! Vi kan dele
utfallsrommet inn i flere en to grupper og regne ut antall mulige kombinasjoner
for hver gruppe!
Eksempel: Eksamensoppgave desember 2003
I en boks er det 15 røde drops, 10 gule drops og 5 grønne drops. Det skal trekkes ut to tilfeldige drops fra boksen, og du skal ta stilling til følgende to påstander:
a. i) Det er større sannsynlighet for å få to røde enn en rød og en gul.
ii) Det er mindre sannsynlighet for å få en gul og en grønn enn to røde.
i)
Svar:
Vi definerer tre stokastiske variabler X: Antall røde kuler, Y: Antall
gule kuler og Z: Antall grønne kuler i et forsøk med 3 grupper
n=30.
x=2,y=0 og z=0:
x=1,y=1 og z=0:
Påstanden er feil.
ii)
Svar:
x=0, y=1 og z=1:
Påstanden er rett
P(2 med ulike farge) = 1 – P(2 med lik farge) = 1 – 0,36 = 0,64