Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.
GPT-modellerne har altid været OpenAIs præmiemodel inden for store sprogmodeller.
De har været målestokken for de alternative modeller fra konkurrenterne, de mest anvendte og udbredte, og dem som har haft den stærkeste performance på stort set alle metrikker.
Så det ville da være lidt af en verdensnyhed, mange ville lægge mærke til, hvis OpenAI introducerede en hel ny måde at lave store sprogmodeller (LLMs) på, hvis tidlige version allerede kunne overgå selv de stærkeste GPT-modeller vi har i dag?
Måske - har du hørt om o1? For det er lige, hvad der sker med den.
I stedet for at hedde GPT-5 eller GPT-4.5 er o1 navngivet som den første af en ny række modeller, for at formidle det paradigmeskifte den repræsenterer – det er simpelthen en ny måde at lave store sprogmodeller på, som er baseret på chain-of-thought og Reinforcement Learning, men hvad betyder det?
Modellen virker mere eftertænksom
Alle brugere i ChatGPT kan allerede prøve en preview-version af o1.
Stiller man den spørgsmål vil man opdage at den er længe om at svare, men kommer med stærkere svar, med en tilhørende tankerække.
Man kan udfolde dens ”tankeproces”, inden for chain-of-thought og se, hvordan den er nået frem til sit svar.
Her antager modellen, at afstanden mellem byerne er 100 kilometer, men den er også nødt til at kende en afstand for at lave beregningerne.
Men det er processen og ikke svaret, der er interessant her.
I højre side ses den førnævnte ”tankeproces”, som er baseret på den nævnte chain-of-thought – altså den logiske tankerække der i flere skridt leder til det rigtige svare.
Reinforcement Learning på Chain-Of-Thought
Det kan være lidt svært at forstå, men o1 er delvist trænet ved selv at skulle prøve at nå frem til de rette konklusioner i chain-of-thought (CoT).
Det betyder ikke, at den kan tænke da det fortsat er logisk atomisme (se også min første klumme herom).
Men det betyder, at den kan træne sig selv og øve sig i at ræsonnere i CoT ved at se eksempler på korrekte ræsonnementer, og ret interessant – potentielt blive bedre end sine træningseksempler.
Det er denne anvendelse af Reinforcement Learning på CoT, som udgør et paradigmeskifte inden for store sprogmodeller, og det betyder også, at der gælder nogle nye anvendelser og perspektiver for denne type modeller, man skal være opmærksom på.
Afgørende forskelle ved o1
Én ting er, at man nu kan se mere ind i hvordan den er nået frem til sine resultater ved at kigge på ”tankerækken”, og OpenAI fremhæver også gerne dette, som en vej til en mere sikker anvendelse, da forklarlighed er vigtigt inden for de etiske og juridiske aspekter af store sprogmodeller.
Dette er dog ikke helt firkantet skåret, da det stadig er baseret på deep learning, som har lille til ingen forklaringsstyrke og gennemsigtighed.
Hertil kommer at det også kun er et filtreret resumé af den egentlige tankerække, der vises til brugeren.
Anvendelsen af Reinforcement Learning (RL) er også afgørende for, hvordan modellen kan anvendes.
RL er nemlig bedst anvendt på lukkede matematiske systemer som spil og andre logiske, abstrakte, afgrænsede problemer.
Det betyder konkret, at CoT kun virker optimalt på de problemer, hvor vi kan sige, at der er et rigtigt og forkert svar, så brug o1 på matematiske og logiske problemer, og selvfølgelig især programmeringsspørgsmål.
Er der ikke et rigtigt eller forkert svar, ser man faktisk at GPT-4o er bedre, men ellers er o1 stærkest – selv i den svagere preview-version, vi har adgang til nu:
Uklart, hvad loftet for o1+ vil være
GPT-modellernes udvikling står klart for de fleste eksperter.
Med mere træningsmateriale og flere modaliteter (lyd, billede, video) vil de kun blive bedre, men indtil en vis grænse.
OpenAI CEO Sam Altman har selv tidligere udtalt, at der efter disse skridt, ikke er en plan for, hvordan udviklingen kan tages videre for GPT-modellerne.
Det, jeg synes er mest interessant og tankevækkende, er, at jeg - som forsker og ekspert - der har tænkt over disse ting i årtier, ikke kan se, hvad loftet for o1 og dens efterfølgere kommer til at være.
Netop derfor bør vi i den kommende fremtid være ekstra opmærksomme på denne nye type model, og hvor langt vi kan nå med dens brug af chain-of-thought og Reinforcement Learning.
Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.
Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?
Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.