DEBATT

Misvisningens akse

Dårlig visualisering av data skjemmer en ellers utmerket artikkel om tillit.

Publisert

Tillitsparadokset av Andreas E. Masvie er et lite mesterverk som jeg lærte mye av. Dessverre egner datavisualiseringen seg bedre til villedning enn veiledning.

Ta en kjapp titt på denne grafen:

Bildetekst fra artikkelen: Hemne befinner seg i Trøndelag og har svært lav grad av etnisk heterogenitet – bydelen Grünerløkka, derimot, har svært stor grad av etnisk heterogenitet. Skalan går fra 0-100. Dataene er lånt av Audun Fladmoe og Kari Steen-Johnsen («Is Ethnic Diversity Bad for Any Dimension of Social Capital?», 2018) og NFR-prosjektet «Support for the Affluent Welfare State», ledet av Staffan Kumlin – og bearbeidet av Minerva.

Ved første øyekast ser det ut til at den lokale tilliten er mange ganger høyere i Hemne enn på Grünerløkka. Men er den egentlig det? Se nærmere på den vertikale aksen. Tallet for Hemne er cirka 58, mens det for Løkka er cirka 35. Hemne scorer altså omtrent 66 prosent høyere enn Grünerløkka.

Men Hemnes søyle er 460 prosent høyere enn Løkkas. Den enorme forskjellen — 460 prosent mot 66 prosent — skyldes at den vertikale aksen starter på 30 i stedet for null.

I tillegg kuttes den vertikale aksen på 70 i stedet for på 100. Også dette grepet gjør at forskjellen ser større ut enn den egentlig er, selv om det ikke gir seg utslag på søylenes høyde.

For øvrig er aksen ikke engang merket, noe som gjør det unødig vanskelig å skjønne hva grafen egentlig viser.

De samme feilene finner vi igjen i den andre av artikkelens to grafer:

Bildetekst fra artikkelen: I Norge som helhet er det en negativ sammenheng mellom lokal tillit og etnisk heterogenitet: Ettersom et nærmiljø blir mer etnisk heterogent blir den lokale tilliten svakere. Man kan ikke finne en lignende sammenheng mellom generell tillit og etnisk heterogenitet. Skalaen på begge akser går fra 0-100. Dataene er lånt av Audun Fladmoe og Kari Steen-Johnsen («Is Ethnic Diversity Bad for Any Dimension of Social Capital?», 2018) og NFR-prosjektet «Support for the Affluent Welfare State», ledet av Staffan Kumlin – og bearbeidet av Minerva.

Her stiller jeg meg i tillegg spørsmål ved hvor lurt det var å tegne linjer mellom punktene. Linjene gjør at grafen ser ut som om den viser utvikling over tid, noe den ikke gjør. Jeg tror at et punktdiagram (scatter plot) hadde vært et bedre valg her. I tillegg til å unngå misforståelser hadde det gitt en mindre kaotisk graf.

Flisespikkeri?

Hvor stort problem er slike misvisende grafer? Med andre ord, hvor feil er bildet leseren sitter igjen med? I studien How Deceptive are Deceptive Visualizations? (2015) fant amerikanske forskere betydelige effekter da de testet hvordan folks oppfatning ble påvirket av forskjellige typer misvisende visualisering:

«When asked to compare two entities or variables by answering on a scale between 1 and 5, the distorted charts lead to responses between 58.5% and 129.5% bigger than the control condition.»

Spesifikt for søylediagram med forkortet akse (truncated axis) fant de at respondentene overvurderte størrelsen med i gjennomsnitt 91 prosent.

Dette er bare én studie, og både grafer og lesere er forskjellige, så vi kan ikke uten videre anta at effekten er den samme i Minervas tilfelle. Men at i hvert fall noen lesere sitter igjen med feil inntrykk fremstår på meg som åpenbart.

Gode og dårlige grunner

Det finnes noen grunner til å kutte akser:

  1. Man ønsker å villede. Jeg hadde blitt overrasket hvis det viste seg å være tilfelle her. (Andre medier har begått liknende feil.)
  2. Grafen blir mer kompakt og ser ofte penere ut. Hvis mye tomrom er problemet, kan man noen ganger indeksere på ett tall og visualisere andre tall relativt til indeksen. Dette er et grep som ofte blir brukt når man sammenligner endring over tid.
  3. Hvis skalaen er ubegrenset må man kutte den. Det var imidlertid ikke tilfelle her, ettersom skalaen er fra 0 til 100.
  4. Noen dataprogrammer kutter automatisk akser for deg. Jeg testet Hemne vs. Grünerløkka i Excel, som det ser ut som om Minerva har brukt i dette tilfellet. Siste versjon av Excel valgte 0-70. Det gir mening ettersom Excel ikke vet at skalaen bare går til 100. (Så vidt jeg har forstått var Excel i tidligere versjoner mer ivrig på å kutte akser.)

Som nevnt tror jeg altså ikke at noen har ønsket å villede leserne, men det er nok like fullt resultatet. Jeg vil derfor oppfordre Minerva til å rette feilen både på nett og i papirutgaven.

Takk til Mads Haneborg for å ha lest utkast av innlegget.

Powered by Labrador CMS