CIO Tech Eksperten IT-JOB IT-Kurser Events Podcast Søg

Log ind eller opret profil

Du kan også logge ind via nedenstående tjenester

Artikel top billede

(Foto: Zac Wolff/Unsplash)

Her må selv de førende AI-tjenester give op: OpenAI’s hundedyre Pro-model klarer sig dårligst

Klodens førende AI-modeller dumper alle med et brag, når de sættes til at løse avancerede matematiske opgaver.

1. april 2025 kl. 16.52

Niels de Boissezon Teknologiredaktør

Selvom generativ AI-tjenester såsom OpenAI’s ChatGPT og Googles Gemini bliver stadigt bedre til at klare opgaver, er der stadigt områder, som kan give de alvidende modeller store udfordringer.

Det viser et nyt forskningsstudie fra amerikanske Cornell University, hvor klodens nyeste og mest avancerede modeller sættes til at løse opgaverne i den seneste runde af USA’s matematik olympiader, USAMO 2025.

Her viser alle modellerne at have det ualmindeligt svært ved at løse opgaverne, som kendetegnes ved at kræve logisk konsistens, kreativ tænkning og selvindsigt.

Igen af modellerne formår at levere bare fem procent rigtige svar, med DeepSeek R1 som topscoreren med 2,0 points ud af 42 mulige.

Dyrest er dårligst

Hvor avanceret og regnetung en given model er, synes ikke at forudsige hvor godt en model klarer sig i matematik-prøverne.

Undersøgelsens sværvægter Open AI’s o1-Pro model, scorer her alene 1,2 points points til trods for, at den forbruger for 203 dollar af AI-tokens.

Det er samme resultat som den kinesiske QwQ-model signeret af Alibaba, som kræver for 0,42 dollar regnekraft for at opnå en tilsvarende score.

Fælles for modellerne er, at deres evne til at vurdere egen performance og validere egne resultater er overdreven.

Den fulde undersøgelse kan granskes her.

De matematiske udfordringer og svar på disse kan findes her.

Har du en kommentar til artiklen eller en idé til Computerworld? Send en mail til journalisten bag artiklen.

Seneste artiklerRSS

16:48

Et enormt skred sker i klodens datacentre: AMD og Intel vrages som aldrig før

15:56

Test: 5G-router leverer hurtigt internet til hele huset og har et par smarte tricks i ærmet

15:30

Microsoft vil gøre det umuligt at optræde anonymt i Windows 11: Men enkelt fix gør det nemt at omgå

14:59

Her har du syv europæiske alternativer til amerikanske VPN-løsninger

14:19

Så god en forretning er Raspberry Pi efter børsnotering i fjor - er stadig et stort hit blandt it-entusiaster

13:41

AI-lab: Sådan kan du nemt få AI til at omforme tekst til interessante videoer

13:03

Din it-organisation går store forandringer i møde: Inden længe vil AI have bombet den 25 år tilbage

12:20

Danmarks største Cloud & AI Festival klar med stjerneprogram med toppolitikere, førende eksperter og professorer

11:40

Vil betale Apple 700 millioner kroner for at smide Mastercard på porten

10:59

Check Point ramt af hackerangreb - selskabets korte besked til de danske kunder: "Ingen kommentarer"

10:15

Øget overvågning undergraver vores frihed

Vis flere artikler

IT-JOB

Gyldendal A/S

Techlead til meningsfyldt arbejde i kulturelt hus

Politi

Centerchef for Rigspolitiets infrastruktur

inforevision A/S

Specialist i informationssikkerhed

Arbejdernes Landsbank

Navnenyt fra it-danmarkVis alle »

Kenny Bech

Frank Østergaard Hansen

Frank Østergaard Hansen

Joel Andreé Andersen

Joel Andreé Andersen

Søren Damløv

Karen Høffer

Michael Agerskov Jensby

Michael Agerskov Jensby

Mia Borg

Jesper Hessner

Brancheguiden

Opdateres dagligt:

Den største og
mest komplette
oversigt
over danske
it-virksomheder

Hvad kan de? Hvor store er de? Hvor bor de?

Advania Danmark A/S

Hardware, licenser, konsulentydelser

Nøgletal og mere info om virksomheden

Skal din virksomhed med i Guiden? Klik her

Kommende events

SAP Excellence Day 2025

Hvordan du orkestrerer og opdeler SAP-projekter for at opnå gevinster hurtigere? Hvordan påvirker AI fremtiden for SAP i almindelighed og måske også din virksomhed? Dette er blot nogle af de svar du får ved at deltage på denne spændende konference.

03. april 2025 | Læs mere

Cyber Briefing: Backup, availability og disaster recovery

I en tid hvor truslerne mod it-driften kun vokser, er det afgørende at kende forskellen på backup, availability og disaster recovery. Deltag og få konkret viden og praksisnære eksempler på, hvordan I kan styrke jeres beredskab.

07. april 2025 | Læs mere

Cyberthreat Day, København: Trusler, angreb og forsvar i praksis

Stå rustet mod cybertrusler. Få et detaljeret overblik over de nyeste sårbarheder, angrebsmønstre og metoder, som cyberkriminelle anvender. Lyt til beretninger fra sikkerhedseksperter på den digitale frontlinje, og få indsigt i både succesfulde angreb og de, der blev afværget

08. april 2025 | Læs mere

Se flere events »

White papers

Flere white papers »

Flere dybdegående Computerworld artikler

Artikel teaser billede

Test: 5G-router leverer hurtigt internet til hele huset og har et par smarte tricks i ærmet

Det fine ved TP Links 5G-router er ikke kun hastigheden, men også dens mange muligheder for tilslutninger og udvidelser. Skulle 5G ikke være tilgængeligt, kan den også levere på 4G-nettet samt fungere med dit fiberbaserede internet.

Artikel teaser billede

AI-lab: Sådan kan du nemt få AI til at omforme tekst til interessante videoer

Artikel teaser billede

Danmarks største Cloud & AI Festival klar med stjerneprogram med toppolitikere, førende eksperter og professorer

Artikel teaser billede

Vil betale Apple 700 millioner kroner for at smide Mastercard på porten

Artikel teaser billede

Øget overvågning undergraver vores frihed

Artikel teaser billede

Kampen om England med dansk stjerne i front

Artikel teaser billede

Træt af techgiganter? Mozilla lancerer forbedret open source-mail som alternativ til Gmail og Outlook

Artikel teaser billede

EU’s cloud-alliance kaster 7,5 millioner kroner efter open source – og pengene har de fra Microsoft

Øget overvågning undergraver vores frihed

Erik David Johnson

OpenAI har fjernet støttehjulene og givet os mere frie tøjler til, hvordan vi kan anvende teknologien

Jim Nielsen

Menneskelig intuition er helt afgørende, hvis du vil have fuld udbytte af AI og data

Mogens Nørgaard

Nørgaard: Den Hellige Treenighed (AI, Microsoft & Oracle)

Henri Teho

På disse smarte måder kan kunstig intelligens integreres i din software-udvikling

Nørgaard: Den Hellige Treenighed (AI, Microsoft & Oracle)

Klumme: I Danmark fejrer vi lysets komme med årsopgørelsen fra Skat og andre festlige tiltag.

Af: Mogens Nørgaard

OpenAI har fjernet støttehjulene og givet os mere frie tøjler til, hvordan vi kan anvende teknologien

Klumme: Det er slut med at have babysitter på, når du anvender OpenAI.

Af: Erik David Johnson

På disse smarte måder kan kunstig intelligens integreres i din software-udvikling

Klumme: Generativ AI er alle vegne i disse dage, og hvis benyttet korrekt, kan kunstig intelligens være en game changer for udviklingsteams. Her er fem tips til AI-integration i udviklingsmiljøer.

Af: Henri Teho

Ole Kjeldsen

opinion
Ole Kjeldsen

Ole Kjeldsen: Jeg kan ikke sige det nok gange: Med Trump har du en opgave, som er vigtigere end nogensinde før

opinion Ole Kjeldsen

Ole Kjeldsen: Jeg kan ikke sige det nok gange: Med Trump har du en opgave, som er vigtigere end nogensinde før

Premium

Teaser billede

Microsoft vil gøre det umuligt at optræde anonymt i Windows 11: Men enkelt fix gør det nemt at omgå

Her har du syv europæiske alternativer til amerikanske VPN-løsninger

Så god en forretning er Raspberry Pi efter børsnotering i fjor - er stadig et stort hit blandt it-entusiaster

Din it-organisation går store forandringer i møde: Inden længe vil AI have bombet den 25 år tilbage

Se alle »

Computerworld

Teaser billede

Prøvekørt: 'Årets bil' er kvadratisk, praktisk og bare god

Husk det her, når du skal købe it-løsninger næste gang: Vi er vidner til it-branchens største maskefald nogensinde

Elon Musk sælger sit sociale medie X

Guide: Er din Google-konto hacket? Sådan finder du svaret

Se alle »

CIO

Teaser billede

Husk det her, når du skal købe it-løsninger næste gang: Vi er vidner til it-branchens største maskefald nogensinde

EU vil udvikle eget styresystem som alternativ til Windows: På vej med EU OS

Microsoft-direktør Mette Kaagaard har med AI lagt sit arbejdsliv om: Sådan sparer agent hende mange timer hver uge

TDC-topchef: Vi kan ikke længere udelukke, at der lukkes for amerikanske it-services i Danmark

Se alle »

Job & Karriere

Teaser billede

Den danske it-branche er på vagt: Hvad nu hvis Trump lukker for Microsoft 365 og AWS fra på mandag?

Carsten advarede som it-sikkerhedschef om problemer og blev fyret: "Det endte med voksen-mobning af værste skuffe"

Microsoft fyrer de dårligst performende ansatte: Disse jobtitler bliver ramt

Nørgaard: I de gode gamle dage havde jeg for vane at fyre alle mine medarbejdere jævnligt

Se alle »

White paper

Teaser billede

AI og kunderejsen: Sådan vinder du fremtidens forbrugere

Tidsbegrænset kampagne: Overvejer du at udskifte eller tilføje printere i din forretning? Vi kan tilbyde én eller flere maskiner gratis

Sådan: Virtualisering uden vendor lock-in og høje omkostninger

Revolutionér kundeoplevelsen med AI og automatisering

Se alle »