I sidste indlæg kom vi ind på hvad Generativ AI er og ikke er - ikke mindst hvordan det med de nuværende tilgange ikke vil kunne lede til det niveau af AI (AGI) som vi drømmer om, og indtil nu kun har set på film.
Det blev noget filosofisk, men i dag skal vi ned i praktikken, og udfolde en særlig slags anvendelse af Generativ AI og store sprogmodeller, som jeg oplever, at mange totalt overser.
Dagens spørgsmål vil nemlig være: Hvad er sammenhængen mellem klassisk machine learning (ML), som vi har haft i mange år, og så de helt nye store sprogmodeller inden for Generativ AI?
Vis modellen nok eksempler og så vil den trænede AI-model kunne kigge på nye billeder, den ikke har set før, og fortælle os om det er et menneskeligt ansigt eller ikke med høj præcision, fordi den har lært mønstret i, hvad det vil sige, at noget er et ansigt.
Samme tilgang kunne man have med røntgenbilleder af kræfttilfælde og ikke-kræfttilfælde, eller historiske transaktionsdata for kunder, der valgte at skifte til konkurrenten og kunder, der valgte at blive – også kaldet churn prediction.
Her prøver man at finde mønstret, der ledte til, at man mistede en kunde, bruger den trænede model til at forudse, om det vil ske i fremtiden, og så tager aktion til at prøve at fastholde dem.
Trods udviklingen er det fortsat klassisk ML, der er bedst til ting som churn prediction, fordi meget af inputtet, såsom transaktionsdata, ikke er sprogligt, og modellen alene skal trænes på ens egne data.
Store sprogmodeller som ChatGPT, Copilot og lignende bygger ovenpå unsupervised learning.
Det vil sige, at man ikke har tilrettelagt træningseksemplerne, men i stedet slipper modellen løs på en masse data, som den selv skal finde sammenhængskraften i – nemlig den totale sammenhængskraft mellem alle ord og fraser på alle sprog!
Store sprogmodeller er derfor fra det øjeblik, hvor du får dem i hænderne, trænet på voldsomme mængder af sprogligt materiale, som internettet, Wikipedia, alle bøger, artikler, osv.
På den måde er de meget generelle, men mestrer til gengæld de menneskelige sprog.
Herfra kan vi så fokusere disse sprogkyndige generelle modeller ned på vores egne data, men det er et emne til næste indlæg.
Store sprogmodeller gør mere end at bruge deep unsupervised learning. De benytter også reinforcement learning til at justere modellernes svarform og adfærd og Googles Transformer-arkitektur, men det er også et helt emne i sig selv.
For nu er pointen, at klassisk machine learning, i form af deep unsupervised learning er en central del af de store sprogmodellers opbygning, sammen med andre tilføjelser, så nye som 2017, og Generativ AI er et område hvor der fortsat forskes intenst.
Store Sprogmodeller i Klassisk ML
Men hvad med den anden vej?
For hvis skarpe anvendelser såsom churn prediction fortsat laves bedst med klassisk machine learning på ens egne specifikke kundedata, kan store sprogmodeller så ikke hjælpe her?
Jo det kan de faktisk, og nu når vi til den lidt oversete pointe, som jeg indledte med at omtale. Store sprogmodeller ændrer nemlig fuldstændig spillereglerne for klassisk anvendelse af ML.
I klassisk anvendelse af ML kan man nemlig ikke arbejde med sproglige data.
Når modellen tager imod data, skal det være i form af spænd af tal – eksempelvis decimaltal mellem 0,0 og 1,0. Den kan i sin rene form ikke tage imod ustruktureret data såsom de menneskelige, naturlige sprog.
Hvis vi ser på churn prediction som eksempel, havde det ellers været smart, for hvis en kunde på en bestemt dato har skrevet en sur klagemail, er det værdifuldt input til en model, der ved at kigge på historiske kundedata skal finde mønstre i, hvad der gør, at man mister kunder.
Men det kan store sprogmodeller altså hjælpe os med.
De kan kort sagt kvantificere sproglige data – altså omsætte sprog til tal.
Man kan således bede en stor sprogmodel vurdere fra 0-20 hvor irriteret, interesseret, afmattet, ophidset og så videre ordlyden er i en e-mail eller anden sproglig udveksling med kunden er, og benytte disse tal som input til en klassisk ML-model.
Så selv om der er stor værdi i de sproglige udvekslinger, som man kan have med en stor sprogmodel i sig selv, så skal man ikke undervurdere dens evne til at omsætte det menneskelige sprog til matematik, og dermed åbne op for, at vi kan lave nogle løsninger i klassisk ML, som ikke var mulige før.
Generativ AI kan meget, når det står alene, men den sande værdi kommer først, når vi samtænker det med vores egne data og bygger features oven på deres generelle virkemåde – hvordan vi bedst gør dette, skal vi høre mere om i det næste indlæg.