(Foto: Dan Jensen)

Vi har brug for en national dansk AI-sprogmodel - og det er der flere grunde til

Klumme: Danmark bør satse på at bygge en national AI-sprogmodel for at stå stærkere sprogligt og kulturelt – og for at mindske afhængigheden af amerikanske techgiganter.

11. april 2024 kl. 15.00

Laura Klitgaard Formand for Ingeniørforeningen, IDA

Laura Klitgaard

Formand for Ingeniørforeningen, IDA

Laura Klitgaard har været formand for Ingeniørforeningen IDA siden 2022, hvor hun repræsenterer cirka 160.000 medlemmer, der beskæftiger sig med teknologi, naturvidenskab og IT. Hun har været medlem af IDAs hovedbestyrelse siden 2016.

Hun er uddannet civilingeniør i både arkitektur og byggeledelse ved Aalborg Universitet i 2013. Efterfølgende har hun arbejdet som bygherrerådgiver i Mariagerfjord Kommune (2013-2018) og i COWI (2019-2022).

Hun er bestyrelsesformand for Engineer the Future, som er Danmarks teknologiske alliance for flere børn og unge i STEM-fagene. Her deltager over 50 virksomheder som Lego, Mærsk og Novo Nordisk samt de tekniske universiteter, KU Science og andre organisationer. Desuden har hun bestyrelsesposter i Akademikerne, Association of Nordic Engineers (ANE) og Utzon Center i Aalborg.

Læs mere

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

I Sverige har forskere udviklet GPT-SW3. I Norge er man i fuld gang med at færdiggøre Nor GPT-23B, og i Finland har de FinGPT.

Alle tre er AI-sprogmodeller i stil med den populære ChatGPT – blot i mindre skala. Forskellen er, at de er bygget ud fra et andet perspektiv, der sætter troværdighed, gennemsigtighed og dataetik i højsædet.

Ræsonnementet hos vores nordiske naboer er, at små lande er nødt til at investere i nationale AI-løsninger for at fastholde deres kulturelle og sproglige identitet og værdier i en digital tidsalder.

Samtidig bliver modellerne også mere præcise og målrettede.

Meget forenklet sagt vil en svensk sprogmodel altid være bedre end en amerikansk til at kortlægge Pippi Langstrømpes baggrund eller til at udpege forbindelsen mellem den svenske musiker Cornelis Vreeswijk og forfatteren Aksel Sandemose.

Men mindst lige så væsentligt er det, at en national sprogmodel sikrer større åbenhed om de data, der ligger til grund for modellen, så det står klart for alle, hvad dens styrker og svagheder er.

Ved at træne på specifikke tekster og validerede data undgår man også juridiske slagsmål om brud på ophavsretten, som er fokus for flere store retssager i USA lige nu.

Endelig er der et væsentligt element af suverænitet i at bygge sin egen sprogmodel, som handler om at tage ansvar for den digitale infrastruktur, der binder os sammen, så vi gør os uafhængige af de techgiganter, der lige nu kæmper benhårdt om markedet for kunstig intelligens.

I Norge taler man om at opnå ”sproglig suverænitet” og om at ”demokratisere sprogteknologien”.

Derfor bliver både Nor GPT-23B og de andre nordiske modeller bygget på åben kode (open source), så der er fuld gennemsigtighed.

Modellen skal kunne benyttes af alle, der ønsker at udvikle nye applikationer og smarte løsninger oven på.

I Danmark er idéen om at statsstøtte til at medfinansiere en dansk AI-sprogmodel i første omgang skudt ned af digitaliseringsminister Marie Bjerre (V), som til Børsen har sagt, at det er ”markedet, der vil kunne udvikle de bedste, mest effektive og billigste løsninger”.

I februar debatterede Folketinget et beslutningsforslag fra SF om at afsætte 40 millioner kroner til at udvikle en dansk generativ sprogmodel, blandt andet med brug af data, der er tilgængelige hos Det Kongelige Bibliotek og andre større vidensdatabaser.

I forslaget hedder det, at ”vi nationalt bør arbejde for at være uafhængige af udenlandske kommercielle interesser og have fokus på datasikkerhed, transparens og dansk indhold i en dansk sprogmodel”.

Forslaget har mødt opbakning fra blandt andre De Konservative og Alternativet, men altså ikke fra regeringen.

Det er en skam. Og det virker besynderligt, at regeringen på den ene side ønsker en langt strammere regulering af techgiganter som Google, Meta og X, men på den anden side – igen – vil risikere at gøre os afhængige af amerikanske techvirksomheder som OpenAI og Microsoft, når det gælder AI.

En teknologi, som har potentialet til at blive en gamechanger på stort set alle områder af samfundet lige fra sundhedsvæsen til produktionsvirksomheder, og som bliver en grundpille for internettets infrastruktur i de kommende år.

Mens regeringen tøver, har det danske Alexandra Instituttet slået sig sammen med forskningsinstitutioner i Tyskland, Holland, Norge, Island og Sverige om at bygge en open source-sprogmodel for de germanske sprog i Europa.

Projektet er støttet med cirka 50 millioner kroner fra EU’s Horizon program.

Målet er at bygge en sprogmodel på de europæiske værdier, og som bliver tilgængelig for alle. Dermed undgår man også at låse sig fast til amerikanske løsninger, og man har fuldt indblik i de data, den er trænet på.

Tilsvarende er en række forskere gået sammen om projektet Danish Foundation Models (DFM), hvor Aarhus Universitet, Syddansk Universitet samt Alexandra Instituttet og virksomheden Alvenir er i gang med at bygge en unik dansk sprogmodel i et offentligt-privat samarbejde.

I notatet fremhæver DFM nødvendigheden af at bygge et alternativ til de amerikanske sprogmodeller, som tager udgangspunkt i nogle helt andre samfundsværdier, når det gælder områder som eksempelvis velfærd, sociale ydelser, sundhedssystemet og våben.

Idéen med en dansk GPT er, at den kan fungere som en basismodel, hvorpå man kan bygge nye modeller til eksempelvis uddannelsesbrug, forskning og sagsbehandling.

I skolerne vil den kunne løse det problem, vi kender fra Chromebook-sagen, hvor eleverne risikerer at videregive deres data til Google eller Microsoft.

Den vil også fjerne tvivlen om, hvilke data og informationer modellen egentlig er bygget på.

Den vil ikke være ”forurenet” af tvivlsomt eller fejlagtigt indhold, som får ChatGPT til at ”hallucinere.

Og den tager højde for et af de store problemer, vi endnu mangler at se eksplodere: Ophavsretten for de skribenter og kunstnere, der ufrivilligt har bidraget til ChatGPT.

På tværs af den offentlige sektor vil en styret og kontrolleret AI-model give kolossale fordele.

I sundhedssektoren vil den eksempelvis kunne give overblik over videnskabelige artikler, udarbejde analyser på tværs af hospitaler og klinikker og effektivisere arbejdsgange.

Forudsætningen er en 100 procent pålidelig model, der bygger på høj kvalitet af data, så der ikke er risiko for brud på persondatasikkerheden.

Indvendingerne fra regeringspartierne er, at det er dyrt at indsamle data, træne og ikke mindst vedligeholde en dansk model, og at den løbende skal opdateres i årene fremover. Men investeringen vil tjene sig ind på andre fronter.

Dels opnår vi uvurderlig viden og knowhow på et område, der vil få enorm samfundsmæssig betydning fremover, og dels skaber vi en model, der overholder alle reguleringer og lovkrav i EU.

Men vi skal op i tempo, og derfor kræver det politisk understøttelse, hvis vi skal udvikle en stærk, national sprogmodel i et tæt samarbejde mellem universiteter, myndigheder og private virksomheder.

I februar vedtog alle Folketingets partier en ny digitaliseringsstrategi, hvor der er afsat 61 millioner kroner over de kommende tre år til at skabe en ”ambitiøs og ansvarlig retning for udviklingen af kunstig intelligens” i Danmark.

Om det er ambitiøst nok, kan man diskutere, når AI-toget samtidig buldrer afsted ude i verden.

Personligt havde jeg nok prioriteret at finde flere midler til at støtte arbejdet med at udvikle en dansk GPT til gavn for hele samfundet.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.