Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.
Det stod klart for de fleste, da Facebook og Cambridge Analytica indsamlede datasæt på 87 millioner Facebook-brugere og videresolgte data til politiske partier uden brugernes samtykke, at der var etiske udfordringer forbundet med brugen af data.
I takt med, at flere virksomheder bruger stigende mængder data til at drive deres forretning, er behovet for et solidt etisk grundlag større end nogensinde før. Ikke kun i forhold til hvilken data, som vi bruger, men i stor grad i forhold til, hvordan vi bruger den.
Ofte har vi tendens til at forsimple ting.
For eksempel bliver alle former for maskinlæring tit kaldet kunstig intelligens. Men det, som vi i virkeligheden taler om, er algoritmiske tilgange til dataanalyse.
Vi bliver præsenteret for store mængder data, som uden hjælp fra kunstig intelligens ville være nært umulige at fortolke.
Vi risikerer meget nemt at skævvride data
Maskinlæring handler om at træne en statistisk datamodel. Så når vi tænker på en datamodel, tænker vi i virkeligheden på tabeller, kolonner og relationer. Det er også det, vi kalder for datasæt.
Men at arbejde med datasæt og algoritmer er ikke helt problemfrit.
Vi risikerer nemlig meget nemt at skævvride de datasæt, vi fodrer algoritmerne med, og det skaber nogle alvorlige bias, som vi er nødt til at forholde os til.
Her er et eksempel på sådan en skævvridning: Lad os forestille os, at man vil forsøge at forudse økonomien og arbejdsløsheden i 2022. Hvis alle data er baseret på tal fra Covid-19 perioden, vil resultaterne være skævvredne.
Det er bl.a. derfor, det er så afgørende, at maskinlæring baserer sig på så meget data som muligt. Jo flere data, jo bedre.
I eksemplet vil man kunne udligne skævvridningen, hvis man tilføjer datasæt fra før, under og efter Covid-19.
Det første, som vi skal have styr på
Når vi taler om dataetik, betegnes sådanne skævvridninger som bias, og det er disse bias, der er forbundet med maskinlæringsalgoritmer.
Når vi undersøger bias i maskinlæring, er datasæt kun begyndelsen, men det er det første element, man skal have styr på.
De grundlæggende spørgsmål er blandt andet.: Hvilke data bliver algoritmerne fodret med? Hvor stammer de fra? Er datasættet tilstrækkeligt bredt, så vi kan undgå at skævvride resultatet?
Ny dataetik kræver investeringer
Det er velkendt, at algoritmer kan være forudindtagede.
Algoritmen kan være forudindtaget afhængigt af, hvem der har skrevet den, og hvordan den er skrevet.
Derfor er der behov for, at virksomheder sammensætter diverse teams, der ikke kun kigger på algoritmerne, men også de forskellige datasæt og resultater ud fra nogle fastlagte procedurer, der skal minimere risikoen for at skabe bias.
Den slags forandring kræver investeringer i selve rammerne for kunstig intelligens, evalueringsstandarder og programmer for dataetik, hvor data governance-råd undersøger output og processer og sikrer, at den rette balance bliver opretholdt.
Sådan sikrer vi en bedre dataetik
Dataetik burde være integreret i enhver virksomhed, som anvender kunstig intelligens og som ønsker at gøre det rigtige for både dem selv og deres kunder.
Det kræver dog, at vi skaber en form for etisk bevægelse i virksomhederne på baggrund af specifikke og gennemtænkte guidelines. Her er mit bud på tre konkrete tiltag til at kickstarte sådan en bevægelse:
Definér jeres etiske rammer
Det første skridt er at definere, hvad man mener med etik og hvordan definitionen stemmer overens med virksomhedens værdier.
Dernæst bør man opstille rammer for de etiske standarder, så man kan monitorere, hvornår der er eventuelle brud på dataetikken.
Herefter er det vigtigt at formidle det til alle relevante interessenter. Gennemsigtighed er nemlig et nøgleord, når vi taler om dataetik.
Stadigt flere forbrugere er bekymrede over, hvordan deres personoplysninger bliver brugt, og det kan påvirke virksomheders omdømme, hvis det er uklart.
Find datasæt uden bias
De fleste virksomheder køber kunstig intelligens hos en udviklervirksomhed. Men man skal stadig fodre softwaren med uvildige datasæt.
Og heri ligger en af de største udfordringer ved kunstig intelligens. Det kræver grundig data due diligence af hele datalinjen inkl. udvikleren.
Spørgsmål som ”hvor opdaterede er data?”, ”hvor stammer de fra?” og ”er dataprofilen egnet til kunstig intelligens?” er essentielle.
Her er det heller ikke kun vigtigt at undersøge datasættene, men også de algoritmer, der behandler dem.
Brug kunstig intelligens etisk
Når man anvender kunstig intelligens, er det afgørende, at man anvender den etisk.
Et af de klareste eksempler på uetisk anvendelse af kunstig intelligens er sagen med Facebook og Cambridge Analytica.
Her blev der indsamlet datasæt på 87 millioner facebookbrugere, og denne data blev videresolgt til politiske partier uden brugernes viden.
Der er med stor sandsynlighed mange af brugerne, som ikke ville samtykke, hvis de vidste, hvad deres data blev brugt til. Derfor er det vigtigt altid at gøre det klart hvad, hvordan og hvorfor datasæt bliver anvendt.
Vi er altså nødt til at anerkende og tage aktiv stilling til dataetik når vi behandler data, bruger algoritmer, maskinlæring og kunstig intelligens.
Ellers ender vi et sted, hvor ingen ved, hvem, der har vores data og med hvilke formål den bliver anvendt - og så vakler grundlaget for at bruge disse teknologier kommercielt.
Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.
Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?
Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.