men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Størrelse: px

Starte visningen fra side:

Download "men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller"

Tina Brodersen
6 år siden
Visninger:

1 Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program ( ): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) = 1% 1. repetition: hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test, p-værdi. 2. lineær regression. Type II fejl: accepter når hypotese falsk. Styrke= 1- β = 1- P(type II)=sandsynlighed for at forkaste hypotese. Eksempel: antag µ = µ 1 og µ 1 µ 0. styrke = P µ=µ1 (Z < 2.58) + P µ=70 (Z > 2.58) men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! 1 Bemærk: signifikansniveau og styrke kan beregnes før forsøget udføres (dvs. uden vi har observeret X). 3 Hypotese-test: repetition Udgangspunkt i test for H 0 : µ = µ 0 mod alternativ µ µ 0 og σ kendt. Store/små værdier af kritiske. Hvis H 0 er sand, er X µ 0 eller Z = X µ 0 σ n X µ 0 N(0,σ 2 /n) og Z N(0,1) Eksempel: opgave 15 side 299 µ 0 = 200, σ = 15 og n = 9. Forkaster hvis X 191 eller X 209 eller hvis Z ( )/(15/ 9) = 1.8 eller Z ( )/(15/ 9) = 1.8. Signifikansniveau: α = P(Z 1.8) + P(Z 1.8) = 7.2% Styrke hvis µ = 185: 1 β = P µ=185 (Z 1.8) + P µ=185 (Z 1.8) = 88% Omvendt, hvis H 0 ikke er sand og µ = µ 1 : X µ 0 N(µ 1 µ 0,σ 2 /n) og Z N((µ 1 µ 0 ) n/σ, 1) da Z N(( ) 9/15,1) = N( 3,1) når µ =

2 Illustration af ensidet test Forkast hvis Z < 1.64 giver igen signifikansniveau P(Z < 1.64) = 7.2%. Styrke hvis µ = 185 er P µ=185 (Z < 1.64) = 91%! dnorm() mu= H0 Dvs. mindst 91 % sandsynlighed for at detektere afvigelser µ 200 < 15 (µ < 185). Ensidet test relevant fra forbrugerens synsvinkel. 5 Fortolkning af p-værdi p \ H 0 sand falsk lille noget usandsynligt er indtruffet ingen modstrid stor ingen modstrid ingen modstrid Dvs. håndfaste konklusioner kun mulig hvis lille p. Stor p-værdi : kan konkludere, at der ikke er evidens mod H 0 men ikke at H 0 er sand! (store p-værdier kan sagtens optræde under den alternative hypotese) p-værdi ikke sandsynlighed for at H 0 er sand - netop beregnet under antagelse, at H 0 er sand! 7 p-værdi I modsætning til α og styrke udregnes p efter at forsøget er udført. Ide: jo større afstand X µ 0 eller større Z des mere skeptisk er vi overfor hypotese. Ide: observeret afstand µ 0 eller observeret z stor hvis lille sandsynlighed for at observere endnu større afstand/z: p = P( Z > z) = P(Z < z) + P(Z > z) Bemærk: p-værdi udregnes under antagelse af, at H 0 er sand. Eksempel opgave 15 (soft drink). H 0 : µ = 200 Antag = 185 hvorved z = ( )/(15/ 9) = 3. p = P(Z < 3) + P(Z > 3) = 0.3% Dvs. enten er der sket noget meget usandsynligt eller også er antagelse µ = 200 forkert. Lille p: enten er der sket noget meget usandsynligt eller også er H 0 falsk. For test med signifikansniveau α: p < α forkast 6 8

3 Lineær regression Sammenhørende (regnmængde) og y (luftforurening) målinger: y Plot af målinger samt regressionslinie: Den lineære regressionsmodel Forklarende/Uafhængige variable: 1, 2,..., n y Afhængige variable: Y 1,Y 2,...,Y n (stokastiske) Y i = α + β i + ǫ i hvor ǫ i angiver uafhængige normalfordelte målefejl/støj: ǫ i N(0,σ 2 ) Y i N(α + β i,σ 2 ) Simpel model for sammenhæng: y = β + α Problem: passer ikke nøjagtigt pga. målefejl Statistiske problemstillinger: Pas på: i denne sammenhæng er α og β ikke sandsynligheder for type I og type II fejl. (bogens notation lidt uheldig) estimation af α og β. check af forudsætninger for lineær regressionsmodel. test af hypoteser vedr. α og β. prediktion

4 Mindste kvadraters metode For estimater ˆα og ˆβ er den predikterede værdi af Y i givet ved ŷ i = ˆα + ˆβ i Residual (afvigelse mellem observation og prediktion): e i = y i ŷ i Mindste kvadraters metode: vælg ˆα og ˆβ så sum af kvadrerede residualer i=1 e2 i minimeres. > fit=lm(y~) # ~ specificerer at y afhaenger af > fit Call: lm(formula = y ~ ) Coefficients: (Intercept) Dette giver ˆβ = i=1 ( i )(Y i Ȳ ) i=1 ( i ) og ˆα = Ȳ ˆβ > abline(fit) #tegner regressionslinie I R vha. lm(y~) Check af modellens forudsætninger Husk ǫ i uafhængige og N(0,σ 2 ). ǫ i = Y (α + β i ) estimeres af residualer e i = y i (ˆα + ˆβ i ) Estimat af σ 2 : s 2 = 1 n 2 n (y i ŷ i ) 2 n 2: mister 2 frihedsgrader ved estimation af de 2 ukendte middelværdiparametre α og β. i=1 Histogram og qq plot af e i : Frequency Histogram of res Sample Quantiles Normal Q Q Plot res Theoretical Quantiles Et par rigeligt store residualer - men ikke usædvanligt for så lille n

5 Varianshomogenitet y R kommandoer Ifølge modelantagelse har alle fejl ǫ i samme varians. Eksempel Typisk afvigelse er, at varians voksende/aftagende funktion af α + β i : y vs. residuals vs. ŷ fit=lm(y~) alpha.beta=coef(fit) #etract coefficients res=residuals(fit) #etract residuals hist(res,nclass=4) res qqnorm(res) qqline(res) hat y yhat=fitted(fit) # etract predictions plot(yhat,res) abline(c(0,0)) For regn/forureningsdata Statistisk inferens vedr. α og β ˆα og ˆβ funktioner af Y 1,...,Y n dvs. stokastiske variable. Fordeling af ˆα og ˆβ: res ˆβ β S/ SS og ˆα α S SS /(nss ) er begge t(n 2) fordelte (SS = i=1 2 i og SS = i=1 ( i ) 2 ). Dvs. konfidensintervaller, p-værdier og hypotese-test helt analog til konfidensintervaller og test for µ (σ ukendt) yhat Ingen systematisk sammenhæng 18 Eksempel 95 % konfidensinterval for β: t ˆβ β S/ SS t ˆβ + t S/ SS β ˆβ + t S/ SS og vi accepterer hypotese H 0 : β = β 0 hvis (n 2 frihedsgrader). 20 ˆβ β 0 S/ SS mellem t og t 0.975

6 > summary(fit) Call: lm(formula = y ~ ) Residuals: Min 1Q Median 3Q Ma Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-10 *** e-06 *** --- Signif. codes: 0 *** ** 0.01 * 0.05 Residual standard error: on 7 degrees of freedom Multiple R-Squared: ,Adjusted R-squared: F-statistic: on 1 and 7 DF, p-value: 4.579e-06 # aekvivalent med t-test for 21 Forsøgsplanlægning Hvordan skal vi vælge 1,..., n for at få præcist estimat af β? (smalt konfidensinterval) 23 R 2 Konfidensintervaller: > confint(fit) 2.5 % 97.5 % (Intercept) NB: ˆα = og standard error for ˆα er Grænser for konfidensinterval ˆα ± 2 std. error. Tilsvarende for β. R 2 = 1 i=1 (y i ŷ i ) 2 i=1 (y i ȳ) 2 mål for hvor megen variation, der beskrives af regressionslinie. Hvis lineær regressionsmodel ikke er forbedring i forhold til model hvor alle observationer har samme middelværdi µ gælder Dermed fås lille R 2. n (y i ŷ i ) 2 i=1 n (y i ȳ) 2 i=1 Omvendt R 2 tæt på 1 hvis lineær regression god beskrivelse af data

7 Estimation/Prediktion Lad 0 være en værdi af den forklarende variabel og antag Y 0 uobserveret Vi kan nu være interesseret i at estimere µ Y 0 = E(Y 0 ) = α + β 0 (deterministisk størrelse) eller prediktere Y 0 = α + β 0 + ǫ (stokastisk variabel). I begge tilfælde er bedste estimat/prediktor givet ved Ŷ0 = ˆα + ˆβ 0. Konfidensinterval for EY 0 se WMMY side 368 henh % Prediktionsinterval for Y 0 : interval der med sandsynlighed 95 % vil indeholde uobserverede Y 0 (side 370 henh. 411 i WMMY). 25 Bereging af konfidensintervaller og prediktionsintervaller vha. R 0=seq(min(),ma(),len=100) #danner vektor af -vaerdier # som vi vil prediktere y for #udregner prediktioner samt intervaller ypred0=predict(fit,newdata=data.frame(=0),interval="prediction") yhat0=predict(fit,newdata=data.frame(=0),interval="confidence") #newdata indeholder de -vaerdier som vi vil prediktere for plot(,y) #plotter data abline(fit) #samt tilpasset regressionslinie #tilfoejer konf. og pred. intervaller til plot lines(0,ypred0[,2],lty=2) lines(0,ypred0[,3],lty=2) lines(0,yhat0[,2],lty=3) lines(0,yhat0[,3],lty=3) 27 NB: Y 0 Ŷ0 = Y 0 E(Y 0 ) + E(Y 0 ) Ŷ0 = ǫ 0 + E(Y 0 ) Ŷ0 dvs. prediktionsfejl er ǫ 0 plus estimationsfejl af E(Y 0 ). Derfor er prediktionsinterval for Y 0 bredere end konfidensinterval for EY 0. Regnvejrs/forureningsdata: y

Relaterede dokumenter

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større