Forræderiske tall 2: Samvariasjon eller årsak?
Ofte når vi leser gjengivelser av snurrige sammenhenger og snodige årsaker, står vi overfor et vanlig problem i statistisk analyse. Nemlig det som går ut på å skille mellom årsakssammenheng (kausalitet) og samvariasjon (korrelasjon). Gang på gang går journalister i den fella, og lager store oppslag med sensasjonelle overskrifter, som ofte gir debatt på helt feil grunnlag.
Når overskriften er “Kvinner med høy utdanning får oftere brystkreft” er det en slik feilslutning vi står overfor. Høy utdanning er neppe årsaken, men det samvarierer. For kvinner med høy utdanning får barn senere, og årsakssammenhengen går på hvor tidlig du får barn. Jo tidligere du får barn, og jo flere barn du får, jo mindre er sannsynligheten for å få brystkreft (kausalitet). Hvor tidlig eller sent du får barn, samvarierer gjerne med hvor lang utdannelse du har tatt (korrelasjon). I tilfellet med brystkreft var uttalelsen tillagt avdelingsdirektør i helsestatistikk ved Folkehelseinstituttet, Heine Strand. Jeg håper virkelig ikke det var han som hadde kommet med uttalelsen, men journalisten som hadde misforstått eller rett og slett vridd artikkelen feil.
Påstand: Høy musikk forårsaker kviser.
Ungdom hører på høy musikk. Ungdom får kviser. Ergo forårsaker høy musikk kviser.
Nei. Hormoner forårsaker kviser. Kviser samvarierer med en tendens til å ville høre på høy musikk.
Problemet med å tro at du har funnet en årsak, når du egentlig har funnet en samvariasjon er at du kan sette inn helt feil tiltak, fordi du trekker feil konklusjoner. Det er konsekvenser som er langt mer alvorlige enn at du får noen snurrige nettdebatter på tøysete grunnlag.
Et eksempel som er trukket frem i boken “The tiger that isn’t” er det med at det eldste barnet i en søskenflokk gjerne har høyere IQ enn yngre søsken. Undersøkelser har vist at det er slik. Teoriene har gått på at det skyldes at det første barnet får mest oppmerksomhet fra foreldrene, det neste barnet får mindre og så videre. Det høres jo ut som en plausibel forklaring. Men kan det være andre forklaringer?Jo, det kan det. Det er nemlig slik at det ofte i familier med lavere sosioøkonomisk status at du finner de store barneflokkene. Det er en mer sannsynlig årsak, enn kun det faktum at det er flere søsken. Det er ikke i seg selv det å ha søsken som gir lavere IQ-score, det er det at familier med lav sosio-økonomisk status får flere barn.
Når jeg jobber med slike statistiske sammenhenger for prognoseformål, bruker jeg følgende metodikk:
- Analyser historiske data, og se om du finner signifikante sammenhenger historisk
- Spør deg om sammenhengen er logisk, altså om det er rimelig å tro at det ligger en årsakssammenheng her. Er det vanskelig å finne en logisk sammenheng, er det muligens en “tilfeldig” samvariasjon du står overfor
- Vil den historiske sammenhengen også gjelde i fremtiden?
Først om alle de tre tingene er til stede, kan du mene at dette er en sammenheng du kan legge vekt på. Og når man leser om de rareste konklusjoner i mediene, er det på sin plass å se etter logikken, som i eksempelet med brystkreft og høy utdannelse.
Category: Statistikk og analyse
Comments (18)
Trackback URL | Comments RSS Feed
Sites That Link to this Post
- Dagens figur - fattige barn og kaffidrikking « Kandidat Weinbergs blogg | March 2008
- Bloggoversikten » Blog Arkiv » Samvariasjon og kausalitet | March 2008
- Eiriks formidlerblogg :: Leser ungdom mer enn før, eller like mye? | April 2008
Eller sagt kortere:
Correlation does not imply causation
Olds69
Og når det gjelder sammenhengen mellom brystkreft og ikke å få barn i ung alder, er sammenhengen slett ikke så stor som mange vil ha det til. Ettersom jeg er en kvinne på omtrent 40 som aldri har fått barn er jeg bare nødt til å vite dette for å kunne stoppe kjeften på folk som bruker altfor mye tid og energi på å kritisere meg for å ikke ha fått barn.
Sjansene for å få brystkreft er bare svært lite større for kvinner som ikke har fått barn før de fylte 30. Nære slektninger som har hatt brystkreft, overvekt, og diverse sykdommer øker sjansene mye mer, men stort sett dreier det seg ganske enkelt om å være uheldig. Samme gjelder forresten så godt som alle sykdommene vi til stadighet leser om hvordan vi kan unngå ved å spise visse matsorter eller ta piller eller noe sånt. Hvis man blir syk er det hovedsaklig fordi man er uheldig, ikke fordi man ikke levde riktig.
Men ved å leve sunt kan man minske sjansene for diverse sykdommer litt.
Marinas siste bloggpost er..Sub-optimal husjakt, uten hagle
That’s right, Olds 🙂
Det har du helt rett i, Marina. Og det er skremmende hvordan slike undersøkelser blåses opp som skremselspropaganda.
En sten kan ikke flyve. Mor Nille kan ikke flyve. Ergo er Mor Nille en sten.
~Erasmus Montanus~
Goodwills siste bloggpost er..Dejligt!
Nettopp, ja, Goodwill 😉
Foreleser’n min pleide å bruke eksemplet IQ og skonummer 🙂
Annes siste bloggpost er..Seminarhelvetet II
Alltid like interessant at noen tror korrelasjon og kausalitet er det samme. Jeg burde antageligvis en tid fått gratis sesongkort hos AaFK siden de en periode ikke tapte noen av kampene jeg var på. Dessverre ble utvalgsstørrelsen med tiden økt såpass at korrelasjonen ble svekket.
For øvrig kjenner vi vel alle sammenhengen mellom pirater og global oppvarming…
Weinbergs siste bloggpost er..Klimaproblemet, the Rögnvaldur Hannesson way
Hehe – den avtok etterhvert, ja? Synd det, ellers kunne du jo ha satt penger på det, og tjent deg rik!
De møtte Start og da røyk hele statistikken. Hersens sørlendinger!
Kombinasjonen sunnmøring og har hatt statistikk tilsier vel at jeg spiller relativt lite. Selv ikke årets Tippeligavinner har jeg spilt på, selv om det ifølge e24 og tretten ligninger med tretten ukjente skal være mulig å tjene penger på det (men det er som vanlig før gebyrer hos de forskjellige bookmakere er regnet inn).
Weinbergs siste bloggpost er..Dagens figur – fattige barn og kaffidrikking
Mja, du kan jo ha flaks du som andre folk. Og dessute, skal du først spille på noe, skal du spille på fotball. Eller hester. Der du kan ha nytte av kunnskap.
Hester er uinteressant. Med tanke på hvordan økonomien ser ut i dag er den vel omtrent like volatil som en middels tippekupong, så med noen litt over middels enkle analyser og en stategi med lavoddsere burde det kanskje være mulig å gå i pluss (spørsmålet er om det er verdt tidsbruken). Tror uansett det er bedre måter å sikre pensjonen på på lang sikt 🙂
Weinbergs siste bloggpost er..Dagens figur – fattige barn og kaffidrikking
Sannsynligvis er det nok det, ja. Ã… gå på NHH er f.eks. en god start.
Jeg har forresten vunnet 2.500 på Øvrevoll en gang, da. Jeg tippet på de hestene som hadde de peneste navnene. Det funka. Uten at jeg tenkte på det som en god strategi for pensjonssikring.
Morsomt. Min versjon her: http://www.espen.com/norskblogg/archives/2008/03/samvariasjon_og.html
Bare for å kverulere litt: Overskriften “Kvinner med høy utdanning får oftere brystkreft” representerer faktisk ingen feilslutning. Den sier ikke at høy utdannelse fører til brystkreft. Den gjør bare oppmerksom på en korrelasjon.
Hadde overskriften derimot sagt “Høyere utdannelse gir kvinner brystkreft” hadde saken vært en annen.
Språkpirk er selvsagt lov 🙂 Men les artikkelen hos ABC-nyheter. Der står det ikke noe om at dette er en ren samvarioasjon.