jul 312013
 

Indledning

Fordelinger bruges inden for statistik, og måske endda mere præcist: Sandsynlighed. For sandsynligt er det at noget sker. De forskellige fordelinger bruges til at beskrive og udregne noget forventet ud fra nogle præmisser. Det kan også bruges til at udtale sig, som ved f.eks. konfidensintervaller, som oftest bruges ved meningsmålinger. Der kan man umuligt spørge hele befolkning så man tager en repræsentativ stikprøve, og man kan ud fra den beregne hvor vidt noget gør sig gældende for hele populationen.

Redegørelse for binomialfordelingen

Binomialfordelingen er diskontinuert, som betyder at det er observationer hvor de enkelte observationer kun kan antage enkelstående (diskrete, adskilte) værdier, f.eks. antal børn i en familie, antal sms’er sendt pr. dag osv. Derfor arbejder man som regel kun med 2 udfald, altså om man har ramt succes eller ikke succes. Som et eksempel med en terning kan man sige om man har ramt en 6’er eller ej. Der er altså kun de 2 udfald, succes (P) og ikke succes  23

Som regel regner man med et udfald ud fra et udfaldsrum. Man kan også arbejde med delmængder af et udfaldsrum.

U – Udfaldsrum: De forskellige resultater af et forsøg udgør udfaldene. Mængden af de forskellige udfald kaldes et udfaldsrum (en terning har f.eks. 6 udfald). Udfald skrives Som ui  (u1, u2 osv.)

P – probability: De engelske udtryk dækker over sandsynligheden for at et af udfaldene fra udfaldsrummet fremkommer ved et forsøg. Som eksempel vil P(u1) til en terning være 1/6 da der er en 1/6 chance for at få en 1’er når du

kaster en terning, hvis 1 er sat som succes.

A – Delmængde: Et udsnit af U. Dvs. at A={2,4,6} definere de 3 lige tal i udfaldsrummet, og udsnittet er derfor 3/6. P(a) (sandsynligheden for delmængden) vil i dette tilfælde være ½.

X – Angiver antal succeser fra det antal forsøg man nu laver. X=2, n=5 betyder således at der er 2 succeser ud af 5 forsøg.

Formlen for punktsandsynlighed ser således ud:  22

 

K(n,r)=Mængden(udfald) (n)/ antal elementer (r). K(n,r) betegnes binomialkoefficienten.

Angiver antal forskellige måder stikprøven kan udtages.

n=fuld mængde
r=Delmængde eller det antal succeser vi søger
p=chance for succes

 

Eksempel: 10 kast med en terning

Hvad er sandynligheden for at jeg i to kast får en sekser

Med beregning af punktsandsynlighed:

21

K udregnes således:

20

Man kan også løse hvor du vil ramme over eller under et punkt (>2 eller <2). Dette gøres med binom Cdf, og ser således ud

19

Her sætter du på samme måde antal forsøg (10) og sandsynlighed (1/6), men så sætter du bare lower og upper bound som grænserne for hvor stort et interval dine antal succeser skal ligge inden for (over 2 sucesser f.eks., hvor max så bare skal være antal forsøg i alt eller over. (10 eller over i vores tilfælde)

18

17

Altså simpelt: antal forsøg gange sandsynlighed for succes

16

Stikprøve betyder at man tager et lille udsnit af populationen (den samlede helhed) og bruger dette lille udsnit som mål for hvordan noget forholder sig for hele populationen.

P giver udtryk for chancen for succes ud fra et udfalds rum, og er defineret således:

15

Mens 14  giver udtryk for en beregnet sandsynlighed vurderet ud fra en stikprøve. F.eks. hvis vi har spurgt 10, ville p beregnes sådan:

13

1 angiver succes, 0 angiver fiasko.

Formlen ser sådan ud.

12

Dvs. at P-hat beregner sandsynligheden ud fra stikprøven mens P angiver en forventet sandsynlighed for populationen.

Forklar, hvad signifikansniveau (11) er.

Signifikansniveauet giver udtryk for med hvor stor sandsynlighed du kan udtale dig om det du siger. Dvs. at hvis du vil udtale dig om noget, skal du have en sikkerhed for at det du udtaler dig om er sikkert. Ud fra hvor sikkert du vil have det (man regner som regel med 90, 95 og 99 % sikkerhed) ekspandere det interval du udtaler dig om ind. Dvs. at du med 90 % sikkerhed kan sige at måske 27-33 % kommer til gymnasiefesten, mens du med 99 % sikkerhed kun kan sige at måskke 15-45 % kommer.

10 =

Ved 99 % sikkerhed er det 2,576

Ved 95 % sikkerhed er det 1,96

Ved 90 % sikkerhed er det 1,646

 

9

Kigger man på eksempel fra P-hat og P og arbejder videre med det kan man udregne konfidensintervallet således:

8

Dette betyder der med 95 % sandsynlighed (det signifikansniveau vi regnede med foroven) vil være mellem 29 og 90 % der kan lide mørk chokolade el.

PÅ lommeregner:

Menu -> 6(statistik) -> 6(konfidensintervaller) -> 5
X= antal stykker der var enig
N= Antal stykker der svarede
C-Niveau= hvor stor sandsynligheden for at du har ret i det.
C-Lower = Laveste del af intervallet i %
C-Upper= Højeste del af intervallet i %

 

Kendetegn ved normalfordeling

Normalfordelingen er kontinuert, som betyder at de enkelte observationer kan antage alle værdier, f.eks. højde, vægt, temperatur (målingens finhed afhænger kun af måleinstrumentet)

Når man snakker om sandsynlighed i forhold til normal fordelingen snakker man derfor inden for intervaller, altså hvad er sandsynligheden for at en person er melem 170 og 180 cm høj f.eks. Normal fordelingen er også kendetegnet ved at danne en klokke, hvis du stiller fordelingen op i et diagram.

For kontinuerte fordelinger er alle punktsandsynligheder 0, og der opereres udelukkende for med sandsynligheder der er knyttet til intervaller. 

Ved normalfordelingen regner man med sandsynlighed ud fra en middelværdi (6) og en standardafvigelse  (σ). Grunden til at man bruger standard afvigelse er at et snit kan være det samme, men standardafvigelse fortæller om fordelingen.

I dette eksempel tager vi udgangspunkt i 2 klassers karakterer (3G og 3J).

 

Gennemsnit Standardafvigelse
3G 9 2
3J 9 4

Ser man på eksempelet vil det således blive: For G klassen er standardafvigelsen mindre, dvs. at der er mindre afvigelse (spredning) fra gennemsnittet. Ved G vil de fleste ligge mellem 7 og 11 i snit (9 plus/minus 2)

For j vil de fleste ligge mellem 5 og 13 i snit (9 plus  / minus 4) 

Oftest vil dette skrives som N(5,6) som giver udtryk for N(Snit, Std. Afvigelse). Med disse 2 kan man så på samme måde udregne på cas hvor stor sandsynlighed der er for noget med Fordelinger -> NormalPdf (præcist ) eller Normal Cdf (for interval elr. Over/under en værdi). 

Som eksempel kan siges: Hvor stor er sandsynligheden for at en i 2. J får et snit på 6.

 

7

Der er altså 7,5 % chance for at en elev fra 2.j får et snit på 6.

·        4 – test

Med en chi-i-anden test beregner man hvorvidt der er afhængighed eller tilfældighed, altså om der er sammenhæng mellem det

forventede og det observerede datasæt.

Man laver som regel en hypotese om at der er uafhængighed eller afhængighed mellem data.

For at beregne med en chi test skal man kende antal frihedsgrader. Frihedsgrader beregnes som F=R-1

(antal forskellige observationer – 1)

Forskelligt for hvor stor sikkerhed du vil have for at din observation er rammende, er der forskellige værdier man skal gange med alt

efter hvor mange frihedsgrader man har. Dette kan ses på side 317, for at finde hvilken faktor man skal gange med, da det er et kæmpe

skema.

Man regner således:

3

Man skal altid have mere end 5 observationer.

Hvis man laver en chi test på 36 terningekast kan man fremstille et skema der ser således ud. Man laver en Goodness Of Fit test for at se om der er afhængighed eller uafhængighed.

Terningkast Observation Forventende (obs-forv)^2/forv Resultat

1

11

6

((11-6)^2)/6

4,166667

2

4

6

((4-6)^2)/6

0,666667

3

2

6

((2-6)^2)/6

2,666667

4

4

6

((4-6)^2)/6

0,666667

5

7

6

((7-6)^2)/6

0,166667

6

8

6

((8-6)^2)/6

0,666667

9

N=36
f=5 (6-1) terning er ok hvis X^2 er mindre end 11,07 (sikkerhed i observationer)

I en H0 hypotese vil man ofte antage at der er uafhængige mellem terning og udfald, eller i næste opgave: køn og valg. I terningekastet har man testet at der således er uafhængighed H1 hypotesen er således afkræftet, mens H0 hypotesen er bekræftet. Man kan altså sige der er sammenhæng mellem det observerede og det forventede da 9 < 11,07 som det skal være for at der er sammenhæng, nemlig at der er uafhængighed.

Sådan gør man på CAS:

Gå ind i lister og regneark

Skriv de faktiske tal ind i kolonne A og kald den ”obs”

Skriv de forventede tal ind i kolonne B og kald den ”forv”

Gå til 4( statistisk) -> 4 ( stat test) ->X^2 Goodnes of Fit. Kald Observationen ”obs” og expected ”forv”. Så skrives frihedsgraden ind, som regnes sådan: (r-1) antal forskellige observation eller antal forskellige udfaldsrum minus 1.

Bed den om at lave resultatet i Kolonne c eller d. Lav evt. en graph som kan tjekkes af i bunden.

2

Nyt eksempel:

Man spørger i lufthavnen mænd og kvinder hvordan de har købt deres billet

Reservationsmetode Kvinder Mænd I alt
Rejsebueau

256

74

330

Internet

41

42

83

Flyselskab

66

34

100

I alt

363

150

513

 

Forventet

231

99

330

Kvinder 363/513

0,7

58,1

24,9

83

Mænd 150/513

0,3

70

30

100

Dette er hvad man kan forvente

359,1

153,9

513

Så ganger man det ind med tallene i   den ovenstående tabel.
Man ganger dette tal med antal i   alt for hver af de 3 metoder.

På CAS kan man måle om der er afhængighed gennem den anden chi i anden test type.

1
Man skriver observationerne ind for hvert køn, bruger kolonnenavn (mand, kvinde)

 

 

 

 

 

 

 Leave a Reply

(required)

(required)