(Foto: Jonathan Kemper/Unsplash)

Stortest: DeepSeek mod ChatGPT, Claude og Gemini – hvilken sprogmodel er egentlig bedst?

Det er store forskelle på hvad klodens førende LLM'er er bedst til og dermed på, hvordan du bør bruge dem. Vi tester dem.

29. januar 2025 kl. 15.59

Niels de Boissezon Teknologiredaktør

Konkurrencen blandt sprogmodellen er blevet markant skærpet efter at den kinesiske start-up DeepSeek på ingen tid har skabt en AI-sprogmodel, som kan dyste med de allerbedste.

Sprøgsmålet er så, hvilken der faktisk er bedst.

I denne stortest får to gratis-tjenester, den spritnye DeepSeek R1 og eksperimentelle, men højt ratede Gemini 2.0 Flash fra Google, mulighed for at tørne mod de to af de mest populære og avancerede betalende tjenester, OpenAI’s ChatGPT o1 (med plus abonnement til 170 kroner) og Anthropics Claude Sonnet 3.5.

Dagens test afgrænses til alene at teste sprogmodellerne, hvorfor øvrige funktioner såsom evnen til at søge oplysninger på nettet, at afkode fotos, tale eller andre formater eller bruge agenter ikke vurderes.

Lærer af Internettet

Første og anden udfordring går ud på at teste dybden af de oplysninger, som modellerne har indhentet fra nettet og evnen til at sammenstykke disse til nye oplysninger, som der fremskrives ud fra.

Giv mig en kort oversigt over de dyreste problemer ejeren af en brugt Porsche 911 Carrera 997.1 fra 2005 med 160.000 kilometer på tælleren kan opleve. Giv en statistisk vurdering af, hvor sandsynligt det er, disse kan opstå inden for de næste fem år.

Her klarer OpenAI’s ChatGPT o1 sig klart bedst, som det vurderes af CW’s redaktionens chefredaktør, som netop har investeret i en tilsvarende Porsche-model.

Den roses for at være bedre til beskrive, hvad der kan forårsage problemer og giver præcise vurderinger, på hvad reparationer vil koste.

Næstbedst er DeepSeek, som giver nogle udmærkede vurderinger, men først leverer resultater i en unavngiven valuta (som viser sig at være amerikanske dollar).

Både Claude og Gemini klarer sig mindre godt her, ved at Claude overvurderer eventuelle skader, men Gemini er noget vag i sine betragtninger.

I den anden udfordring skal modellerne vurdere strømforbruget på et grafikkort, som endnu ikke er udgivet endnu (da modellen udkom). Den skal derfor fremskrive, hvad et system vil bruge.

Kan jeg bruge et 850 watts PSU til et Nvidia RTX 5090 kort?

DeepSeek kommer her med rimelige, men generiske anbefalinger.

DeepSeek estimerer, at RTX 5090 kortet vil bruge ligeså meget strøm som sin forgænger til trods for, at Nvidias typisk hæver det maksimale forbrug ved hver ny generation.

Her er Claude og ChatGPT trods lidt aldrende vidensdatabase mere fremsynet, mens Google Gemini 2 synes at nyde godt af at være nyest, da det har opsnappet, at Nvidia anbefaler en 1.000 watt strømforsyning (kortet var dog ikke officielt udgivet, da flash udkom 11. december 2024)

Jura-testen

Tredje udfordring er hentet fra et eksamenssæt i CBS-faget Erhvervsret, herunder i kondenseret form.

Køber købte pony af hestehandler for 34.000kr. Pony viste sig opereret/uegnet som ridehest. Søren kræver køb ophævet + dyrlægeregning på 9.500kr erstattet. Sælger afviser, da han oplyste manglende kendskab til hest. Hvad er retsstilling for køber?

Både ChatGPT, DeepSeek og Claude svarer, at der her er tale om et forbrugerkøb, men overser Købelovens §4 a, stk 8, som præciserer, at levende heste ikke anses som forbrugerkøb.

Når ChatGPT og DeepSeek gøres opmærksom på dette forhold, holder tjenesterne fast i deres forkerte svar, mens Claude retter efter.

Gemini 2.0 Flash nægter helt at svare.

Computerworlds nye journalist

Fjerde udfordring måler AI-modellernes evne til at levere til en eventuel notesektion på Computerworld.

Skriv en nyhedsartikel efter samme stilguide som netmediet Computerworld.dk ud fra denne pressemeddelelse (teksten er her blevet pastet ind, red.) Sørg for at holde teksten til under 700 tegn inklusiv mellemrum. Foreslå efterfølgende tre forskellige rubrikker og manchetter.

OpenAI leverer en tekst, der med sine 473 tegn bliver for kort og som samtidig mister detaljer fra meddelelsen. Samme tendens opleveles hos DeepSeek, der leverer en lidt længere sag på 580 tegn, men som stadigvæk skærer for mange detaljer fra og bliver for generaliserende.

Her klarer Claude sig væsentligt bedre ved at levere et velskrevet og informationsrigt referat af pressemeddelelsen på 670 tegn, hvor rubrikforslagene kan finpudses yderligere.

Googles Gemini leverer en relativ velskreven notits, der dog går langt over de aftalte 700 tegn (1687 tegn)

Fakta-tjek

Femte, sjette og syvende udfordring går ud på evnen til at vurdere og beskrive faktuelle forhold.

Hvem vandt præsidentvalget i USA i november 2020?

Både Claude, ChatGPT, DeepSeek er ikke i tvivl om, hvem der vandt valget mellem Donald Trump og Joe Biden.

Alle svar fra dem er faktuelle og veksler mellem det meget korte og koncise (OpenAI) og lidt længere og mere detaljerede (Claude og DeepSeek).

Googles Gemini nægter at svare hvad angår ’valg og politiske personer’.

Hvem kontrollerer Taiwan?

Claude, Gemini og ChatGPT giver her alle koncise svar, der både rummer de aktuelle forhold omkring Taiwans suverænitet, demokratiske styre og den globale anerkendelse af landet, mens som også nuancerer det med den kinesiske regerings meget skeptiske syn på taiwansk selvstændighed.

Her nægter DeepSeek helt at svare og foreslår at skifte emne.

Hvem blev topscorer i den første årgang af superligaen?

Her rammer ChatGPT og DeepSeek tjenesterne plet (Bent ’Turbo’ Christensen), mens begge tjenester oplyser det forkerte antal scorede mål.

Claude derimod opfinder både spiller og klub, som aldrig har været i nærheden af toppen af Superligaen da den debuterede i 1991.

Gemini rammer trekanten og giver det rigtige spillernavn, antal scorede mål og hans hold.

Logik for LLM'er

En af de store gevinster ved nyere sprogmodeller som ChatGPT o1 samt DeepSeek R1 er deres evne til at ræsonere - ved at tænke sig om og afprøves svar, før der svares.

Disse evner afprøves i de tre følgende spørgsmål, hvor modellernes matematiske, logiske og visualiseringsevner afprøves.

Forestil dig en uge kun har seks dage. Jeg har to drenge. Den ene dreng er født på ugens sidste dag. Hvad er oddsene for, at mit andet barn er en dreng?

Sprøgsmålet snyder, da det minder om en velkendt gåde kaldet 'Tuesday Boy'. Svaret ligger dog i gåden. Jeg har to drenge, hvor sandsynligheden for det andet barn er en dreng er 100 procent.

ChatGPT o1 går direkte ind og genkender - fejlagtigt - problemet som en ’Tuesday Boy’-gåde, hvorefter den opstiller en korrekt, men altså vildledt, statistisk beregning for at komme frem til resultatet, 11/23, svarende til 47,8 procent.

DeepSeek R1 kommer også frem til det samme svar og viser sine mellemregninger.

Claude og Gemini skyder her begge ved siden af og foreslår det intuitive, men forkerte, svar på 50 procent.

Hvor mange lysår er der mellem København og Wellington, New Zealand

Hvad der kan ligne et enkelt regnestykke, bliver ikke rigtig taget godt imod af sprogmodellerne.

Både Claude og DeepSeek mener, med en vis ræson, at lysår-enheden er uegnet til at måle den slags afstande og nægter derfor at gennemføre regnestykket.

ChatGPT er mere medgørlig og giver et korrekt resultat for afstanden mellem den danske og New zealandske hovedstad: 1,9×10⁻⁹ lysår – eller ca. 1,9 ’nanolysår’ svarende til 17.900 kilometer.

Den korteste afstand, som måles langs den direkte linje igennem Jorden, er der ingen af modellerne der ræsonnerer sig frem til.

Hvordan vil du stable tre blyanter, en hardback-bog, en toiletrulle og en tennisbold for at få så højt et tårn som muligt?

Her yder ChatGPT til UG ved at være den eneste, der finder frem til en løsning, hvor bogen stilles på højkant.

DeepSeek R1 overser denne mulighed men kommer med et ellers fornuftigt bud på, hvordan tårnet kan samles og et estimat på, hvor højt resultatet bliver.

Claudes bud giver det laveste tårn, men er det mest stabile. Svarer i øvrigt på norsk.

Gemini-tårnet er højere men meget ustabilt – det foreslår, at der skal tape og lim til at holde sammen på det hele.

Gode gratis alternativer

Resultatet af LLM’erne 10-kamp bliver måske ikke overraskende, at den mest regnetunge ræsonerende model ChatGPT o1 generelt klarer sig bedst.

Der er dog opstået flere overraskende momenter i de enkelte discipliner, hvor modeller dumper af uventede grunde.

Det gælder eksempelvis Gemini, når snakken falder på politik, mens andre gør en overraskende god figur i en enkelte discipliner såsom Claude, når det gælder sproglige udfordringer.

Hvilken du i sidste ende bør benytte dig af kommer an på din pengepung.

ChatGPT o1’s førsteplads retfærdiggør, at den fortsat er dyrest i selskabet, mens både Claude, Gemini og DeepSeek R1 udgør gode gratis-alternativer, når de anvendes i de discipliner, hvor de hver især gør det bedst.