Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.
De fleste virksomheder har efterhånden fået øjnene op for generativ AI – og med god grund.
Teknologien har nemlig vist sig at være yderst nyttig for en lang række medarbejdere, når der skal genereres idéer eller løses rutineopgaver.
Men det at benytte sig af store sprogmodeller (LLM’er) kan også udgøre en reel sikkerhedsrisiko. Mange af de mest benyttede sprogmodeller ligger i clouden og er open source, hvilket kan være en potentiel trussel mod en organisations sensitive data, da de potentielt kan tilgås af andre brugere.
Dette synliggør vigtigheden af at tage sine tage forholdsregler, inden der springes ud i generativ AI.
IDC fremhæver, at fordi store sprogmodeller lærer fra prompts – altså forespørgsler eller instruktioner – er der en reel risiko for, at sensitiv information kan videregives til andre virksomheder, der foretager lignende prompts.
Derudover frygter mange, at deres følsomme og fortrolige data kan blive gemt online og derfor være mål for hackere eller blive lækket på anden vis.
Det afholder desværre mange fra at fodre de store sprogmodeller med data, der kan være nyttige på grund af den øgede risiko for læk.
Der er dog flere forskellige måder, virksomheder kan høste fordelene af sprogmodeller på uden at kompromittere deres data.
Arbejd inden for egne sikkerhedsmure
En af måderne til at sikre virksomhedernes data er at trække sprogmodellerne ind i virksomheden i stedet for at anvende open source-modeller, der ligger i den offentlige sky.
Mange større virksomheder har bygget et robust forsvar op omkring deres data, og derfor er det hensigtsmæssigt at placere og benytte sprogmodeller, der er placeret i deres egne it-miljøer.
Det giver kontrol over data, og it-afdelingen får desuden mulighed for at udvikle og tilpasse sprogmodellen til forretningens behov.
Derved kan virksomheden anvende generativ AI, uden at beskyttet information lige fra følsomme personoplysninger, over patenter til produktudvikling og immaterielle aktiver sættes over styr.
Open source-sprogmodeller, der bliver fodret med data fra hele internettet, udgør mere end blot en sikkerhedsrisiko. Disse sprogmodeller er også tilbøjelige til at generere faktuel forkert data, upassende sprog og have visse bias.
Derudover er de ikke blevet trænet i virksomhedens kernefunktioner, data og sprog. Det betyder, at virksomheder ikke i lige så høj grad vil kunne få svar på de spørgsmål, der omhandler branche- og forretningsspecifikke informationer.
Skræddersy sprogmodeller
Sprogmodellen bør altså gøres til ekspert i netop det, virksomheden beskæftiger sig med.
Selvom det er generative AI-modeller som ChatGPT, der har trukket det meste af opmærksomheden, er der en voksende liste af sprogmodeller, som kan anvendes lokalt af virksomheder.
Det inkluderer værktøjer som Starcoder og StableLM, der kan downloades og tilpasses bag egen firewall, og derved beskyttes på virksomhedens eget netværk.
Disse sprogmodeller er allerede blevet fodret med en stor mængde data og har desuden den fordel, at de kan tilpasses til bestemte typer af indhold med en begrænset mængde forretningsdata.
Sprogmodeller behøver ikke at være enorme for at være nyttige.
Organisationer kan skræddersy deres egne sprogmodeller ved at bruge interne data, som er troværdige og indeholder de oplysninger, der er behov for.
De har ikke brug for at kunne spørge sprogmodellen om hjælp til diverse opskrifter eller gaveidéer. Derimod er det f.eks. langt vigtigere vide, hvordan salget i Nordjylland går, eller hvordan en bestemt kundes kontrakt er skruet sammen.
Svarene kan fås, hvis sprogmodellen tilføres virksomhedens egen data i et sikkert miljø.
Udover at en sådan sprogmodel giver resultater af højere kvalitet og er skræddersyet til virksomheden kan det også nedbringe ressourcebehovet.
Ved at benytte mindre sprogmodeller til bestemte formål og områder skal der bruges mindre regnekraft og dataplads end for sprogmodeller til generel, offentlig brug. Sprogmodeller til specifikke formål og afdelinger giver ikke bare bedre resultater. De er også mere omkostningseffektive.
Bearbejd ustruktureret data til multimodal AI
Det at gøre en sprogmodel klar til at svare på spørgsmål om den enkelte organisation kræver dog, at sprogmodellen får adgang til al relevant information.
En stor del af dette er muligvis ikke tekst. 80 proccent af verdens data er ustruktureret, så der findes sandsynligvis en stor mængde mails, billeder, kontrakter og videoer, der også bør inkluderes.
Det kræver derfor teknologier såsom sprogteknologi at bearbejde information om den ustrukturerede data og gøre den tilgængelig for virksomhedens Data Science-afdeling.
Når de har den, kan de bygge en multimodal AI-sprogmodel, der kan sammensætte data af forskellig karakter og give nye perspektiver.
Rid med på bølgen, men træd varsomt
Generativ AI er et område, der udvikler sig med lynets hast og uanset tilgangen, er det vigtigt at være forsigtig.
Før en virksomhed beslutter sig for at benytte en bestemt sprogmodel eller service, skal man altid huske at læse det med småt og vælge en anerkendt leverandør, hvor der er styr på garanti og teknologi.
Generativ AI er et område, der skal investeres i for at følge med, men enhver virksomhed bør finde ud af, hvordan det kan forbedre deres arbejde og ændre branchen frem for blot at følge med på en bølge.
Det er vigtigt at tage chancer, men det kan være en fordel at udvikle en sprogmodel inden for virksomhedens eksisterende sikkerhedsmure for at have kontrol over, hvor ens egne data lagres.
Gøres det, kan virksomheden høste frugterne af den nye teknologi uden at kompromittere sikkerheden.
Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.
Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?
Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.