Denne klumme er et debatindlæg og er alene udtryk for skribentens synspunkter.
Margrethe Vestager blev tirsdag den 10 april i Version2 citeret for at sige, at hvis virksomheder har tænkt sig at bruge machine learning-modeller til at tage beslutninger, som vedrører kunder, skal de være klar til at forklare skridt for skridt, hvordan algoritmen kommer frem til sit resultat.
Det lyder jo meget fornuftigt og der er masser af situationer hvor det giver fint mening og er praktisk muligt – særligt når data indgår i regel-lignende algoritmer, hvor prisen for forsikring for eksempel er afhængig af, om bilen har over eller under 140 hestekræfter.
Her den almindelige borger ikke en chance
Men data bliver også brugt i algoritmer, som er langt mere komplicerede. Den måde, man analyserer for eksempel en fritekst fra et evalueringsskema, et røntgenbillede fra en patientjournal eller lydfilen fra et opkald til et call center, er ekstremt kompliceret.
For eksempel foretages analyse af billeder eller lyd typisk af såkaldte dybe neurale netværk, der har millioner af parametre og en kompleks struktur for sammensætning af delresultaterne til et samlet output.
Der er selvfølgelig ingen chance for, at almindeligt borgere vil være i stand til at sætte sig ind i, hvad der faktisk foregår, og det har ingenting at gøre med, at folk ikke almindeligt godt uddannet, men derimod et udtryk for, at den matematik, der er nødvendig for at analysere den type data, er meget kompleks – hvad enten man kan lide det eller ej.
Dobbelt selvbedrag
Der er et dobbelt selvbedrag under overfladen her.
Det ene handler om forestillingen om, at de simplere modeller, som lineær regression eller beslutningstræer, er noget, alle forstår.
Selv om modellerne ganske rigtigt fremstår simplere end de berømte neurale netværk, er simpliciteten delvist misvisende: Lineær regression tror nogle folk at de forstår, fordi de havde dem engang på studiet, men virkeligheden er, at når de studentikose forudsætninger fra universitetet er afløst af den komplicerede virkelighed, opfører modellen sig langt fra lige så transparent og let-fortolkeligt som dengang, man havde statistikkurset.
Tilsvarende er beslutningstræet simpelt, når det er færdigt, mens processen med at finde træets struktur er rigeligt kompleks med brug diverse heuristikker og begreber som entropi.
Vi kan ikke forstå alt - og det skal vi heller ikke
Det andet selvbedrag handler om, hvor meget man egentlig forstår, når sagsbehandler Henning fra kommunen i telefonen forklarer, at man ikke kan få godkendt sit byggeri, fordi ”der er foretaget det skøn, at den brugsmæssige værdi i denne situation ikke opvejer naturbeskyttelseshensynet”.
Henning kan jo heller ikke redegøre for alle nuancer i sin proces, og man kan ikke sætte det på en enkelt formel, for så ville vi slet ikke kalde det et skøn.
Men vi mennesker kan godt lide at få den narrative forklaring fra et andet menneske – en historie, der kan blive vores egen historie om, hvorfor byggeriet blev afslået, men når alt kommer til alt, har vi mest af alt fået en fortælling, der sige noget upræcist med nye og flere ord.
Men det er dybest set også en underlig ambition at alle skal kunne forstå alle dele af samfundet.
Tænk, hvis kun de biler, som alle kunne forstå til bunds, måtte blive solgt, eller hvis kun de fjernsyn, som alle borgere forstod i alle detaljer, måtte stå i borgernes hjem.
Medicinsk parallel
Onsdag 11. april kom Microsoft Danmarks direktør Marianne Dahl Steensen med en god parallel til medicinske produkter:
"Vi tager alle en hovedpinepille eller noget penicillin, hvis det er nødvendigt – helt uden at forstå de biokemiske aktive stoffer der gør, at det virker. Grunden til, at vi kan have tillid til medicinen, er jo ikke, at vi forstår hvordan og hvorfor den virker, men at vi har en idé om, at den er testet statistisk validt med kontrolgrupper, og at disse valideringer i øvrigt er underlagt myndighedskontrol.
En mulig løsning
Og det bringer mig frem til en mulig løsning:
Vi har brug for en mærkningsordning, der fortæller i et enkelt symbol, i hvilket omfang en model er testet og hvor god den er. En svanemærkning for matematiske modeller, der fortæller os, at selvom vi ikke forstår alt, der foregår, så ved vi, at den har bestået den type af test, der skal til.
Og hvis vi så fortsat er utilfredse med afgørelsen, kan man jo altid have en ankemulighed, så den ender på sagsbehandleren Hennings bord.
Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.
Har du en god historie eller har du specialviden, som du synes trænger til at blive delt?
Læs vores klumme-guidelines og send os noget tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.