95 % sikker? Om feiltolkning av signifikante resultater

mandag, 26 oktober 2020

Om forfatteren

Mads Motrøen

Mads Motrøen

Ansvarlig for politiske målinger i Ipsos

95 % sikker? Om feiltolkning av signifikante resultater
95 % sikker? Om feiltolkning av signifikante resultater

Et statistisk signifikant resultat sier ingenting om hvor sannsynlig det er at du har rett.

Å formidle signifikante forskjeller er en bransjestandard innen politiske målinger og andre markedsundersøkelser. Vi gjør befolkningsundersøkelser og samler inn data, får oversikt over svarandeler og hvilke av disse andelene som er signifikant forskjellig fra gjennomsnittet eller hvilke andeler som er forskjellig innad i en gruppe. I politiske målinger oppgir vi gjerne prosentandelens feilmargin og hvorvidt andelen er signifikant forskjellig fra måned til måned. 

Bruken av begrepet kommer av at «signifikante endringer» ofte gir oss en umiddelbar løsning på spørsmålet om hva som skal formidles og hvor mye tid vi skal legge ned i analysearbeid. En vanlig måte å jobbe på i bransjen er at man rapporterer noen av funnene man ser gir et statistisk signifikant utslag til kunden, gjerne med en kort setning om hva et statistisk signifikant funn innebærer. 

Problemet er at de setningene som skrives, hvis de skrives overhodet, nesten uten unntak er gale. Dette gjelder ikke bare markedsanalytikere, men strekker seg langt inn i akademia. Her er det de fleste finner overraskende: Et statistisk signifikant resultat sier ingenting om hvor sannsynlig det er at du har rett eller tar feil. 

 

Fikk du med deg denne? Hvordan innsikt kan effektivisere reklame

 

Eksempel på datainnsamling og tolkning

Vi samler inn 1000 intervjuer i en spørreundersøkelse hvor vi spør om befolkningens politiske preferanser. La oss si at vi i oktober intervjuet 450 personer som ville stemt på Donald Trump hvis det var presidentvalg i morgen, noe som utgjør 45 % oppslutning for Trump. 

Hvor sikre kan vi være på at dette resultatet er riktig? Vi har ikke spurt hele befolkningen, så vi må ta noen forbehold når vi videreformidler disse tallene. Hvis vi antar at utvalget vårt er trukket helt tilfeldig og vi har fått svar fra et representativt utvalg av befolkningen i USA, så har vi noen regneregler vi kan bruke. Disse skal jeg ikke gå inn på her, men med 1000 respondenter så vil en andel på 45 % ha en tilknyttet feilmargin på ± 3.1 med et konfidensnivå på 5 %. 

Med et lavere konfidensnivå vil feilmarginen være større. Konfidensnivået settes utfra hvor strenge vi ønsker å være. Å benytte 5 % er en standard i både samfunnsforskning og for nesten alle andre som gjør kvantitative befolkningsundersøkelser av denne størrelsen. Når vi har lagt et konfidensnivå til grunn og regnet ut feilmarginen så har vi et utgangspunkt for å sammenligne andre andeler. 

La oss si at rett før valget så får Trump en oppslutning på 50 %. Hvordan omtaler vi denne utviklingen? Mange vil her se på feilmarginene og raskt konkludere med at to utvalg med 1000 respondenter og to målinger på 45 og 50 % har en feilmargin på ±3.7. Forandringen er altså utenfor disse, og dermed sier vi at dette er en signifikant forandring på 5 %-nivå.  

Det er her feilslutningen skjer. Mange vil tro at signifikansnivået har noe å gjøre med sannsynligheten for å ta feil, og at denne forandringen er 95 % sikker, eller at det kun er 5 % sannsynlighet for at det er feil. Ingenting av dette er riktig. 

 Kommentaren fortsetter under bildet. 

Bilde1 MadsMotroen Analysen2 2020

 

Vi glemmer nullhypotesen

Signifikansnivået har ingenting å gjøre med hvor sannsynlig det er at et funn er sant. Dette er snarere det som kan kalles feilraten, og kan ikke utledes fra signifikansnivået. 50 % er høyere enn 45 % og utviklingen er definitivt interessant, men det er ingenting med de bakenforliggende utregningene som tilsier at vi er 95 % sikre på noe som helst. 

Misforståelsen kommer muligens fra at signifikansnivået oppgis i prosent, og at denne prosenten er sentral i å teste hvorvidt det er en forskjell mellom to tall eller ikke. La oss derfor se litt grundigere på denne prosenten. 

Det man gjør når man sammenligner to befolkningsmålinger av en presidentkandidat er implisitt å sette opp en hypotese. Denne hypotesen lyder for eksempel «Trumps oppslutning har økt fra oktober til november». Den korresponderende nullhypotesen er derfor «Det er ingen forskjell på Trumps oppslutning fra oktober til november». Vi tester dette ved å kalkulere feilmarginen ut fra vårt valgte konfidensnivå for disse to målingene. 

Konfidensnivået forteller oss kun noe om nullhypotesen, men aldri noe om selve hypotesen. Dette er nøkkelsetningen: Vi signifikanstester forskjellen mellom to datapunkter for å si noe om hvor sannsynlig det er at nullhypotesen stemmer (altså at det ikke er en økning). Definisjonen på en signifikanstest er derfor ikke helt som man tenker seg. Det signifikanstesten sier noe om, er hvorvidt det er sannsynlig at vi ville fått de dataene vi har samlet inn (og som da gjerne viser en signifikant forskjell) hvis nullhypotesen stemmer. Denne setningen er ekstremt vrien å vri hodet rundt, så les den gjerne flere ganger. 

Dette er muligens lettere å forstå hvis vi snur perspektivet. La oss derfor si at det egentlig ikke er en forskjell i befolkningens oppslutning om Trump selv om vi får to resultater på 45 % og 50 % og at det egentlig er nøyaktig samme oppslutning to måneder på rad, altså at forskjellene er helt tilfeldig og basert på feilkilder. Signifikanstesten forteller oss at dette vil skje i 5 % av tilfellene når vi har et gitt utvalg og ser på en gitt andel av respondentene. Signifikanstesten kan ikke og vil aldri vite noe om hvordan verden egentlig forholder seg, men er en kløpper på å regne ut hva vi kan forvente basert på matematiske grunnsetninger. 

 

5 % signifikant er galt i 23 % av tilfellene

Så, hvor sannsynlig er det at vi faktisk har rett når vi finner et signifikant resultat? Dette vil være det jeg nevnte over som feilraten, altså sannsynligheten for å ha rett eller galt. Noen statistikere så nærmere på dette i en artikkel som ble publisert i The American Statistician (Selke, Bayarri & Berger, 2001). De satt opp simuleringer av statistiske tester på medisiners effekt og regnet ut den gjennomsnittlige feilraten (sannsynligheten for å avvise sanne nullhypoteser) knyttet til forskjellige signifikansnivå. I halvparten av testene var simuleringen satt opp slik at medisinen ikke hadde noen effekt. Signifikanstestene med et nivå på 5 % viste seg å avvise en sann nullhypotese (altså finne en effekt når ingen finnes) med 23 % sannsynlighet, og typisk nærmere 50 %. 

Dette viser også at vi må vite noe på forhånd om hvor sannsynlig det er at noe stemmer (altså sannsynligheten for at nullhypotesen er sann) før vi gjør en undersøkelse. Her vil ekstraordinære funn være mindre sannsynlig, uavhengig av signifikansnivå, hvis vi vet at de er nettopp ekstraordinære. 

At Trump går fra 45 % til 50 % på en måned er ikke nødvendigvis ekstraordinært, men det er fremdeles usikkert om det stemmer. Mer usikkert enn med 5 % sannsynlighet. Her bør vi ha en bedre samtale med kunder generelt og media spesielt om hvordan man best formidler trender i politisk oppslutning. En løsning på dette er å formidle løpende gjennomsnitt, og sammenligne topp- og bunnmålinger over de siste x antall månedene. Dette kan bedre den politiske journalistikken og øke befolkningens tiltro og respekt for meningsmålinger.