OPPSUMMERING I STATISTIKK

Vi bruker et datamateriale for å illustrere begreper og algoritmer.
På en prøve i matematikk fikk studentene (50) ved en høgskole disse poengsummene

(max 100 poeng):

38	58	21	30	37	33	24	52	35	30
42	35	42	45	36	15	55	30	24	50
30	58	34	25	35	32	40	35	61	65
34	55	40	56	61	19	20	32	30	52
56	48	62	31	28	35	54	49	45	46

Stokastisk variabel er en funksjon som tilordner verdier til elementer i utfallsrommet til et tilfeldig forsøk. For eksempel kan en stokastisk variabel X inneholde poengsummen til en elev, og de mulige utfallene er elementene i mengden {0,1,2,..,100} som beskrevet i tabellen over. For hver av de 50 poengsummene i tabellen over kan det tildeles en stokastisk variabel X₁, …, X₅₀, for å viderebehandle materialet matematisk.
Alternativt kan vi opprette stokastiske variable som inneholder antall forekomster av en bestemt poengsum, eller gruppe av poengsummer.
NB! En stokastisk variabel er alltid numerisk.

Utfall er resultatet av et forsøk/eksperiment. I forsøket over er et utfall en poengsum som en student får på prøven. Siden utfallene i eksempelet over er numeriske kan hvert utfall tildeles en stokastisk variabel.

Utfallsrommet er alle mulige utfall som et forsøk kan gi, og behøver ikke være numerisk. I forsøket over er utfallsrommet numeriske heltallsverdier i om rådet 0-100.

Hendelse/begivenhet betegner en mengde av utfall som observeres. For eksempel kan vi observere poengsummene [0-10>, [10-20> og så videre som grunnlag for å sette en karakter.

Frekvens/hyppighet betegner hvor mange ganger en hendelse forekommer i en serie med forsøk. Hvis vi definerer hver poengsum som en hendelse, og vi ser at hendelsen ”35 poeng” opptrer 5 ganger. Vi kan gruppere hendelser, for eksempel [30, 40>. Dette omtales som en klasse, siden den omfatter et antall utfall med felles egenskaper. Det er to typer frekvenser:

Absolutt frekvens som er antallet ganger en bestemt hendelse forekommer.

Relativ frekvens som er antallet ganger en bestemt hendelse forekommer dividert med totalt antall hendelser.

Frekvenstabell er en tabell over grupperte hendelser og frekvenser. En slik tabell blir som regel mindre enn tabellen over hendelser siden vi bare teller like hendelser og ikke tar vare på hver enkelt hendelse. På den måten mister vi informasjon om hvem som fikk poengsummen.

Vårt datamateriale inneholder poengsummer fra 0 til 100, og det er hensiktsmessig å gruppere frekvensene i klasser med utfall siden datamaterialet skal brukes til evaluering. Vi velger en klassebredde som samsvarer med karaktersettingen. I grunnskolen bruker vi bare fast klassebredde.

Vi grupperer de stokastiske variable i poengklasser og teller opp antallet hendelser h i hver klasse. Siden antall observasjoner er 50, regner vi også ut den relative frekvensen r, som gir et tall som kan brukes til sammenligning med andre tilsvarende forsøk hvor antallet er forskjellig fra 50. Vi velger klassebredde 10 poeng:

X:Antall poeng	h:Abs.frekv.	r: Rel.frekv.
[0, 10>	0	0
[10, 20>	2	2/50
[20, 30>	6	6/50
[30, 40>	19	19/50
[40, 50>	9	9/50
[50, 60>	10	10/50
[60, 70>	4	4/50

Merk hva intervallene betyr: [10, 20> forteller at klassen har det poengsummer fra og med 10 til og med 19, og [20, 30>, er poengsummer fra og med 20 til og med 29 osv.

En frekvenstabell med klassedelt materiale, der klassebredden er konstant, danner grunnlag for en grafisk fremstilling i et stolpe/søyle diagram. Hvis det ikke er avstand mellom søylene kalles denne diagramtypen ofte for histogram.

Andre diagramtyper er sektordiagram, linjediagram, punktdiagram, stammebladdiagram og arealdiagram.

Kumulativ frekvenstabell (latin: kumulasjon) er en tabell hvor frekvensene fortløpende summeres til neste klasse. Vi tar utgangspunkt i frekvenstabellen og ser hvordan kumulativ absolutt og relativ frekvens utvikles.

X:Antall poeng	h:Abs.frekv.	H: Kum.frek
[0, 10>	0	0
[10, 20>	2	2
[20, 30>	6	8
[30, 40>	19	27
[40, 50>	9	36
[50, 60>	10	46
[60, 70>	4	50

Tilsvarende kan vi regne ut kumulativ relativ frekvens.

X:Antall poeng	r:Rel.frekv.	R: Kum.frek
[0, 10>	0/50	0/50
[10, 20>	2/50	2/50
[20, 30>	6/50	8/50
[30, 40>	19/50	27/50
[40, 50>	9/50	36/50
[50, 60>	10/50	46/50
[60, 70>	4/50	50/50

Som diagrammer ser de ut som følger:

SENTRALMÅL

Middelverdi/gjennomsnitt/aritmetisk middelverdi:

· Utgangspunktet for beregning er det opprinnelige og usorterte datamaterialet.

· Summerer alle observasjonene og deler summen på antall observasjoner

Median

· Medianen er en verdi som i størrelse har like mange observasjoner over som under seg. Den delere det sorterte datamaterialet i 2 deler med like mange observasjoner.

1. Plasser observasjonene i stigende rekkefølge.

2. Når antallet observasjoner er lik et oddetall, er den midterste observasjonen medianen.

Når antallet observasjoner er lik partall, er gjennomsnittet av de to midterste observasjonene medianen.

Vårt datamateriale i stigende rekkefølge:

n=10rad+kol*	1	2	3	4	5	6	7	8	9	10
0	15	19	20	21	24	24	25	28	30	30
10	30	30	30	31	32	32	33	34	34	35
20	35	35	35	35	36	37	38	40	40	42
30	42	45	45	46	48	49	50	52	52	54
40	55	55	56	56	58	58	61	61	62	65

Vi har 50 observasjoner, dvs et partall og finner først de to midterste observasjonene, og deretter gjennomsnittet av disse to:

Typetall

Typetall er den hendelsen som forekommer hyppigst eller flest ganger i et datamateriale.

I vårt datamateriale er det poengsummene 30 og 35 som opptrer flest ganger. Siden det er to hendelser som opptrer med samme antall, har datamaterialet ikke noe typetall.
NB! Typetall brukes som oftest bare for ikke-numeriske utfallsrom.

SPREDNINGSMÅL

Variasjonsbredde

Differensen mellom høyeste og laveste verdi i datamaterialet: r = x_maks– x_min

Variasjonsbredde i vårt forsøk er: r = 65 – 15 = 50 (poeng)

Kvartiler

Første kvartil, eller 25. prosentilen, er hendelsen som er slik at ¼ av observasjonene er mindre eller lik denne verdien: x_0.25n (n er antall observasjoner)

Andre kvartil, eller 50. prosentil, er halvparten av observasjonene som er mindre eller lik medianverdien: x_0.50n (n er antall observasjoner)

Tredje kvartil, eller 75. prosentil, er hendelsen som er slik at ¾ av observasjonene er mindre eller lik denne verdien: x_0.75n (n er antall observasjoner)

Kvartilerdifferense/Midtspredning

Kvartildifferensen Q er Tredje kvartil minus Første kvartil: Q = x_0.75n - x_0.25n
Dette er et mål som angir spredningen på tilnærmet 50 % av observasjonene.

I vårt eksempel er Q = 52 – 30 = 22 (poeng)

Gjennomsnittlig absoluttverdiavvik

Måler gjennomsnittlig differanse mellom observasjonene og middelverdien.
(poeng)

Varians (S²)

Måler gjennomsnittlig kvadratavvik mellom observasjonene og middelverdien.

Standardavvik (S)

Standardavviket er et mål for observasjonenes spredning omkring middelverdien, og beregnes som kvadratroten av variansen: (poeng).

Generelt gjelder det at ca 2/3 (68 %) av alle observasjoner ligger innenfor området pluss/minus ett standardavvik fra middelverdien.

I vårt datamateriale vil det si at 32 observasjoner ligger innenfor dette intervallet.

SENTRAL- OG SPREDNINGSMÅL

I KLASSEDELT DATAMATERIALE

Disse målene bruker vi når vi ikke har enkeltobservasjonene i et materiale. De verdiene vi regner ut, blir ikke alltid like nøyaktige som i et ugruppert datamateriale.

Vi tar utgangspunkt i frekvenstabellen med det klassedelte materialet vårt:

X: Antall poeng	h:Absolutt frekvens	r: Relativ frekvens
[0, 10>	0	0
[10, 20>	2	2/50
[20, 30>	6	6/50
[30, 40>	19	19/50
[40, 50>	9	9/50
[50, 60>	10	10/50
[60, 70>	4	4/50

Nedre klassegrense: Den verdien som klassen starter på

Øvre klassegrense: Den verdien som klassen ender på

[10,20> har Nedre klassegrense = 10 og Øvre klassegrense = 20

Gjennomsnitt

Utgangspunktet er klassemiddelet som vi definerer som midtpunktet i hver klasse.

Det vil si:

X	h	X_middel	h*X_middel
[0, 10>	0	5	0
[10, 20>	2	15	30
[20, 30>	6	25	150
[30, 40>	19	35	665
[40, 50>	9	45	405
[50, 60>	10	55	550
[60, 70>	4	65	260
Totalt	50		2060

(poeng)

Median

Medianen er definert som klassemiddelpunktet i klassen hvor den midterste observasjonen befinner seg.
I eksempelet vårt er det observasjonen som ligger mellom observasjon 25 og 26. Den er i klassen [30, 40> og derav følger at medianen er x_middel= 35.

Kvartiler

Kvartiler defineres som klassmiddelpunktet i klassen hvor tilsvarende observasjoner befinner seg. I eksempelet vårt blir det:

1. kvartil: x_0.25n = 35 (Observasjon nr 13 er i klassen [30,>40>)

2. kvartil: x_0.50n = 35 (Observasjon nr 25.5 er i klassen [30,>40>)

3. kvartil: x_0.75n = 55 (Observasjon nr 38 er i klassen [50,>60>)

Varians (S²) og Standardavvik (S)

Utgangspunktet er klassemiddelet som vi definerer som midtpunktet i hver klasse.

Det vil si:
Vi bruker middelverdien:

X	h	X_middel	h*X_middel	h*(X_middel-)²
[0, 10>	0	5	0	0
[10, 20>	2	15	30	1373
[20, 30>	6	25	150	1575
[30, 40>	19	35	665	730
[40, 50>	9	45	405	130
[50, 60>	10	55	550	1904
[60, 70>	4	65	260	2266
Totalt	50		2060	7978

(poeng)

Eksempel med aldersfordeling blant studenter i en LU-klasse)

Frekvenstabell 1(F1) Frekvenstabell 2(F2)

Alder X	Antall (h)
20	6
21	15
22	21
23	12
24	13
25	6
26	8
27	hvor h er antallet for hver alder x hvor h er antallet for hver klasse og x er klassegjennomsnitt. Median av frekvensfordelt materiale. Medianen for frekvenstabellen med klassebredde 1 år er 24 år. Medianen for frekvenstabellen med varierende klassebredde ligger i klassen [22-26>, men hvor? 5
28	4
29	3
30	5
31	3
32	5
33	2
34	4
35	1
36	0
37	2
38	2
39	1
40	1
41	1

Frekvenstabell 1				Frekvenstabell 2
Alder x	Antall h	x*h	h(x-m)²		Klasse	Antall h	x*h		h(x-m)²
20	6	120	197		[20-22>	21	441		638
21	15	315	335		[22-26>	52	1248		328
22	21	462	291		[26-30>	20	560		44
23	12	276	89		[30-35>	19	618		681
24	13	312	39		[35-40>	6	225		724
25	6	150	3		[40-50>	2	90		684
26	8	208	1		Sum	120	3182		3100
27	5	135	8
28	4	112	21
29	3	87	32		Median (F1)			24.0
30	5	150	91		Median (F2)			24.0
31	3	93	83		Middelverdi (F1)			25,7
32	5	160	197		Middelverdi (F2)			26,5
33	2	66	106		Varians (F1)			25,2
34	4	136	274		Varians (F2)			25,8
35	1	35	86		Kvartil 1 (F1)			22.0
36	0	0	0		Kvartil 1 (F2)			24.0
37	2	74	254		Kvartil 3 (F1)			28,5
38	2	76	301		Kvartil 3 (F2)			28.0
39	1	39	176
40	1	40	204
41	1	41	233

Eksempel med 100 kast med 2 terninger

Sum	Absolutt hyppighet h	Absolutt kumulativ hyppighet H	Relativ hyppighet r	Relativ kumulativ hyppighet R
2	1	1	0,01	0,01
3	9	10	0,09	0,10
4	11	21	0,11	0,21
5	13	34	0,13	0,34
6	12	46	0,12	0,46
7	17	63	0,17	0,63
8	14	77	0,14	0,77
9	8	85	0,08	0,85
10	8	93	0,08	0,93
11	5	98	0,05	0,98
12	2	100	0,02	1,00

Relativ hyppighet beregnes med hvor r er relativ hyppighet, h absolutt hyppighet og n er antall forsøk.

Relativ kumulativ hyppighet beregnes med hvor R er relativ kumulativ hyppighet og r er relativ hyppighet.

OPPSUMMERING I SANNSYNLIGHETSREGNING

Sannsynlighet er et begrep som brukes i flere forskjellige sammenhenger. Det kan være

et mål for usikkerheten av fremtidige hendelser,
et mål for hvor ofte en hendelse opptrer når den er en av flere muligheter, eller
et mål for graden av personlig overbevisning. (Bayes' sannsynlighetsbegrep)

Sannsynlighetstenkning er en måte menneskene har utviklet for å håndtere de usikkerheter tilværelsen byr på. Mest avansert finnes dette i en gren av matematikken som nå kalles matematisk statistikk.

I hverdagen uttrykker vi oss ofte om sannsynligheter uten å tenke over det.

«Hvis været/ trafikken ikke er for ille, er jeg der om 15 minutter»
«Det ser ut til å bli godt fiskevær» (de andre gangene været var slik, fikk jeg fisk)
«Nå er der for glatt til å kjøre» (risikoen for å havne i grøfta er ubehagelig stor)
«Husk paraply» (stor sannsynlighet for at det blir bruk for den)

Hverdagsspråk og matematikk er ikke alltid på linje. Hvis vi tenker oss en samling av 100 lodd godt blandet i en skål, 50 uten og 50 med gevinst, vil spørsmålet «Hvor mange lodd må jeg ta for å være helt sikker på å få en gevinst», ha det matematisk korrekte svaret «51». Spør man etter å være «rimelig sikker», snakker vi om hverdagssannsynlighet og tipper for eksempel 10.

(Hentet fra Wikipedia)

Sannsynlighetsmodell

Et utfallsrom U inneholder alle mulige utfall som et forsøk kan få. U={u₁, u₂, …, u_n}

Hvert utfall u_i har en sannsynlighet P(u_i) for å framstå. For sannsynlighetene gjelder at

0£ P(u_i)<1 og P(u₁)+P(u₂)+…+P(u_n)=1.

Et forsøk som tilfredsstiller disse kravene har en sannsynlighetsmodell.

Hvis alle utfallene har lik sannsynlighet kalles det en uniform sannsynlighetsmodell.

Hvis vi betrakter tabellen over poeng i det innledende eksempelet, er det lite sannsynlig at alle mulige utfall (0-100) har samme sannsynlighet. Det er ikke mulig å beregne sannsynligheten for en poengsum teoretisk, men den kan beregnes for denne prøven.
Tilsvarende kan vi ikke beregne sannsynligheten for at en tilfeldig student har en bestemt alder teoretisk. Det vil nemlig variere fra klasse til klasse.
I terningkast derimot kan vi beregne sannsynligheten for å få en bestemt hendelse rent teoretisk. Men i et bestemt forsøk kan vi ikke være sikker på at vi får den teoretiske fordelingen.
Vi ser på frekvenstabellen for poeng.

X: Antall poeng	h:Absolutt frekvens	r: Relativ frekvens
[0, 10>	0	0=0,00
[10, 20>	2	2/50=0,04
[20, 30>	6	6/50=0,06
[30, 40>	19	19/50=0,38
[40, 50>	9	9/50=0,18
[50, 60>	10	10/50=0,20
[60, 70>	4	4/50=0,08

Relativ frekvens r kan betraktes som en sannsynlighet for at en tilfeldig valgt student har poengsum i en klasse X. Eksempelvis P(X i [30,40>)=0,38.

Denne sannsynligheten beregnes som en kvotient mellom antall gunstige utfall og antall mulige utfall:

Alle sannsynligheter kan beregnes på denne måten. Man må bare bestemme antall gunstige og mulige i et forsøk.

De store talls lov sier at den relative frekvensen vil nærme seg den virkelige sannsynligheten ved svært mange forsøk.

En delmengde A av utfallsrommet U kalles en hendelse eller begivenhet. En hendelse kan altså omfatte et antall utfall i utfallsrommet. For eksempel oppnå mellom 30 og 40 poeng på prøven.

En komplementhendelse består av alle utfall i U som ikke er med i hendelsen A.

Kombinatorikk

Kombinatorikk er et område innen matematikken som går ut på å telle kombinasjoner av objekter i mengder som deles etter gitte regler. Kombinatorikken inngår i sannsynlighetsregning i og med at man trenger en metode å finne antall mulige utfall, og antall måter et bestemt utfall kan opptre, for å beregne sannsynligheten for det nevnte utfallet.
Typiske kombinatoriske spørsmål kan være om hvor mange mulige måter det er å stokke en kortstokk, hvilket er 52! (52 fakultet), eller antall mulige lottorekker som kan beregnes ved .

Multiplikasjonsprinsippet

Antall mulige utfall m i n uavhengige forsøk, som utføres sammen, bestemmes ved å multiplisere antall mulige utfall mi i hvert forsøk: m=m₁*m₂*…*m_n.

Eksempel:
Det er 5 ulike veier fra A til B og 7 veier fra B til C. Hvor mange ulike veier er det fra A til C?

Hvert av de 5 ulike veivalgene fra A til B kan kombineres med 7 muligheter for valg av vei fra B til C. Altså er det m=5*7 mulige veivalg mellom A og C.

Permutasjon er en endring av rekkefølgen av elementene i en liste. Et eksempel på en permutasjon finner man i kortspill. De 52 kortene i en kortstokk ligger ordnet etter hverandre. Stokker man kortene, endres rekkefølgen, og dette er da en permutasjon av kortene.

I en liste med n elementer kan elementene ordnes på n! (n-fakultet) måter:

n!=n*(n-1)*(n-2)*…*3*2*1

Eksempel

På hvor mange mulige måter m kan 3 personer A, B og C stå i kø?
m=3!=3*2*1=6

ABC

ACB

BAC

BCA

CAB

CBA

Dette kan vises i en tabell:

Urnemodellen

Vi gjør et utvalg på r elementer av i alt n fra en urne. Dette kan gjøres på flere måter:

Med tilbakelegging og med ordning
Uten tilbakelegging og med ordning
Med tilbakelegging og uten ordning
Uten tilbakelegging og uten ordning

Utvalg

Med ordning

Uten ordning

Med tilbakelegging

n^r

Vi har r trinn hvor antall utfall

i hvert trinn er n.

Ikke gjennomgått i kurset!
r trinn med n mulige utfall

Uten tilbakelegging

Eksempel

Vi har 4 bokstaver: A B C D, og skal gjøre et utvalg på 2 av disse 4 bokstavene på forskjellige måter.

1. Med tilbakelegging og med ordning: m=4²=16

AA	AB	AC	AD
BA	BB	BC	BD
CA	CB	CC	CD
DA	DB	DC	DD

2. Uten tilbakelegging og med ordning: m=4*3=4P2=12

	AB	AC	AD
BA		BC	BD
CA	CB		CD
DA	DB	DC

3. Med tilbakelegging og uten ordning:

AA	AB	AC	AD
	BB	BC	BD
		CC	CD
			DD

4. Uten tilbakelegging og uten ordning: m=4*3/2!=4C2=6
=

AB	AC	AD
	BC	BD
		CD

Binomisk fordeling (Med tilbakelegging uten ordning)

En binomisk sannsynlighetsmodell er karakterisert av en enten-eller situasjon i en serie med uavhengige forsøk. Dvs vi har sannsynligheten p for suksess og (1-p) for fiasko er den samme i alle forsøk.

I kast med en terning kan vi definere en stokastisk variabel: X=antall seksere på 4 kast

Sannsynligheten for å få en sekser s på et kast er p(s)=1/6. Av det følger at sannsynligheten for å ikke få en sekser i er p(i)=1-p(s)=5/6.

Vi kan da beregne sannsynligheten for 0,1,2,3 eller 4 seksere på 4 kast.

Sannsynligheten for å få 0 seksere på 4 kast blir: . Dette kan bare oppnås på en måte.
Sannsynligheten for å få 1 seksere på 4 kast blir: . Vi må gange produktet med 4 siden sekseren kan framstå på hvert av de 4 kastene.
Sannsynligheten for å få 2 seksere på 4 kast blir: . Vi må gange produktet med 6 siden sekserne kan framstå på 6 ulike måter i de 4 kastene.
Sannsynligheten for å få 3 seksere på 4 kast blir: . Vi må gange produktet med 4 siden sekserne kan framstå på 4 ulike måter i de 4 kastene.
Sannsynligheten for å få 4 seksere på 4 kast blir: . Dette kan bare oppnås på en måte.
Alternativt kan vi skrive disse sansynlighetene slik:

Vi ser at antallet begivenheter som medfører X=x er symmetrisk om X=2. Det totale antall ulike begivenheter er 1+4+6+4+1=16.

Sannsynligheten er imidlertid ikke symmetrisk om X=2, men tyngdepunktet ligger mellom P(X=0) og P(X=1). Summen av sannsynlighetene for begivenhetene skal være 1. Summen kan uttrykkes på formen:

Nest siste ledd i uttrykket er på formen , hvor (a+b)=1.

Generelt kan dette uttrykkes : hvor

P: Sannsynligheten for X=x suksesser i n forsøk

X: Stokastisk variabel som inneholder antall suksesser i en serie på n forsøk

p: Sannsynligheten for suksess i ett forsøk

1 – p: Sannsynligheten for at suksess uteblir i ett forsøk

n: Antall forsøk i serien

x: Antall suksesser i serien

Eksempel: Eksamensoppgave fra mai 2001

I denne oppgaven har du en boks med 3 røde ( R ) og 2 hvite ( H ) kuler. Du skal i hvert forsøk trekke en kule fra boksen, uten å se hva du trekker. Så skal du registrere fargen. Etter det skal du legge den tilbake.

Hva er sannsynligheten for at du i et enkeltforsøk får en rød kule?
Hva er sannsynligheten for at du i et enkeltforsøk får en hvit kule?
Hvis du legger sammen disse sannsynlighetene, hvilket tall får du da? Forklar.
Svar:
P (R) = 3/5, P(H) = 2/5, P(R) + P(H) = 3/5 + 2/5 = 5/5 =1
Når begivenhetene er lik 1, betyr det at begivenhetene helt sikkert inntreffer.
Vi er garantert å få enten en rød eller en hvit kule.

b. Vi tenker oss at du gjør forsøket tre ganger.
På hvor mange forskjellige måter kan du få 2 røde kuler?
Svar: Siden vi ikke ser forskjell på de røde kulene får vi følgende mulige kombinasjoner: RRH, RHR, HRR.
Det betyr at vi har 3 mulige kombinasjoner. Dette kan uttrykkes matematisk slik:

c. Hva er sannsynligheten for at du får akkurat 2 røde kuler etter 3 forsøk?
Det kan skrives som P(X=2) hvor X er en stokastisk variabel som inneholder antall røde kuler.
Svar: Dette er et binomisk forsøk hvor p(R)=3/5, P(H)=1-p(R)=2/5, n=3 og x=2

d. Hva er sannsynligheten for at du får 7 røde kuler etter 10 forsøk?
Svar: Dette er et binomisk forsøk hvor p(R)=3/5, P(H)=1-p(R)=2/5, n=10 og x=7

e. Anta at du gjør 12 forsøk Skriv opp formelen som angir sannsynligheten for at du får r røde kuler, der r er et tall slik at . Hva kalles sannsynlighetsfordelingen i en slik forsøksrekke? Kommenter.
Svar: Dette er et binomisk forsøk hvor p(R)=3/5, P(H)=1-p(R)=2/5, n=12 og x=r

Hypergeometrisk fordeling (Uten tilbakelegging uten orden)

I hypergeometrisk fordeling endrer sannsynlighetene seg under forsøk med flere trinn!
Det er fornuftig å tenke på utfallsrommet som grupper av elementer som skal betraktes hver for seg. Eksempelvis består utfallsrommet i Lotto av tallene 1-34. Av disse tallene skal vi trekke ut 7 vinnertall. Antall måter dette kan gjøres på er gitt ved .
Det betyr at det er m mulige vinnerkombinasjoner i Lotto.
Vi definerer en stokastisk variabel X som inneholder antall rette Lottotall.

Hvis du tipper n tall, hvor n>7, kan du tippeforskjellige kombinasjoner.
Hvis vi deler opp Lotto-tallene i 2 grupper: vinnergruppen A med 7 vinnertall og de andre tallene B med de resterende 27 tallene, kan vi finne ut hvor mange forskjellige kombinasjoner vi kan lage med n tall hvor de 7 vinnertallene inngår. Det kaller vi antall gunstige g tallkombinasjoner.
Antall gunstige måter vi kan trekke ut de 7 vinnertallene på er gitt ved . Tilsvarende kan vi trekke ut n - 7 tall fra de resterende 27 tallene på måter.
Det betyr at antall gunstige utvalg med n tall hvor vi får en vinnerekke blir: .
Vi bruker regelen som sier at sannsynligheten er gitt ved kvotienten P(X=7) = g/m , får vi følgende uttrykk for 7 rette med n tippede tall:

For Lotto kan vi definere den stokastiske variabelen: X=Antall rette på en Lotto kupong

Da gjelder følgende sannsynlighetsmodell for X :

Generelt for hypergeometriske sannsynlighetsfordelinger, kan vi definere en stokastisk variabel:

X=Antall spesielle i en begivenhet

Da gjelder følgende sannsynlighetsmodell for X

hvor: N=Antallet i populasjonen

S=Antallet spesielle i populasjonen

n=Antallet i begivenheten

x=Antallet spesielle i begivenheten.

NB! Vi kan dele utfallsrommet inn i flere en to grupper og regne ut antall mulige kombinasjoner for hver gruppe!

Eksempel: Eksamensoppgave desember 2003

I en boks er det 15 røde drops, 10 gule drops og 5 grønne drops. Det skal trekkes ut to tilfeldige drops fra boksen, og du skal ta stilling til følgende to påstander:

a. i) Det er større sannsynlighet for å få to røde enn en rød og en gul.

ii) Det er mindre sannsynlighet for å få en gul og en grønn enn to røde.

i)                    Svar:
Vi definerer tre stokastiske variabler X: Antall røde kuler, Y: Antall gule kuler og Z: Antall grønne kuler i et forsøk med 3 grupper n=30.
x=2,y=0 og z=0:
x=1,y=1 og z=0:
Påstanden er feil.

ii) Svar:
x=0, y=1 og z=1:
Påstanden er rett

Hva er sannsynlighetene for at begge dropsene har samme farge?
Vi beholder de samme stokastiske variablene og har fra før P(X=2) = 0,24.

P(2 med lik farge)=
Hva er sannsynligheten for at dropsene har forskjellig farge?

P(2 med ulike farge) = 1 – P(2 med lik farge) = 1 – 0,36 = 0,64

38	58	21	30	37	33	24	52	35	30
42	35	42	45	36	15	55	30	24	50
30	58	34	25	35	32	40	35	61	65
34	55	40	56	61	19	20	32	30	52
56	48	62	31	28	35	54	49	45	46

38	58	21	30	37	33	24	52	35	30
42	35	42	45	36	15	55	30	24	50
30	58	34	25	35	32	40	35	61	65
34	55	40	56	61	19	20	32	30	52
56	48	62	31	28	35	54	49	45	46