Artikel top billede

(Foto: Nvidia PR)

På størrelse med en madkasse: Så kraftig er Nvidias mikroskopiske supercomputer

Nvidia slipper en lille, men mægtig supercomputer løs. Så stærk er den i forhold til en regulær supercomputer.

Supercomputere er noget som man forbinder med særdeles strøm og pladskrævende hardware, som på ingen måde er egnet til at dele rum med ens skrivebord.

Da AI-kæmpen Nvidia løftede sløret for sin ’project Digits’ lod selskabet forstå, at der her var mulighed for at få en AI-supercomputer til skrivebordet.

Ikke nok med det: Den særlige computer ville endda ikke fylde meget mere end en madkasse.

De vilde løfter tager denne uge i form af to nye fysiske produkter, hvis teknikblad Nvidia nu løfter sløret for: Project Digits hedder nu ’DGX Spark’ og ledsages nu af en hyperkraftig ’DGX Station’.

Runder ’billiarden’

Er der noget som kunstig intelligens kræver, så er det evnen til at udføre billionvis af udregninger per sekund, noget som Nvidia hævder Spark-minicomputeren ombordværende ’GB10’ kan levere ved at udføre 1000 teraflops – svarende til en ’petaflop’ eller en million milliarder, altså en billiard, udregninger per sekund.

Men hvor ’flops’ traditionelt måles i dobbelte (FP64), hele (FP32) eller halve (FP16) præcisioner, måler Nvidia her i en ottendels præsision FP4, hvorfor tallet ikke kan eller bør sammenlignes direkte med øvrige produkter.

DGX Spark er dog koblet op med 128 gigabyte LPDDR5X hukommelse, som forbundet via en bred 256-bits bus, hvilket giver en båndbredde på op til 273 gigabyte per sekund.

De store mængder hukommelse gør det muligt at afvikle store, avancerede modeller på op til 200 GB lokalt. I praksis vil brugere skulle væbne sig med tålmodighed, for hukommelsens båndbredde sætter et teoretisk loft på omkring 6-7 tokens per sekund for en 70B model med Q4 kompression.

Der skal typisk et til to tokens til at stave et ord i AI-sprogmodeller.

Nvidia påpeger, at en full-size model såsom Metas Llama 405B kan endda afvikles lokalt, ved at lade to DGX Spark arbejde i tandem. Hvorvidt der kan leveres mere end en enkel token per sekund er uvist.

Den reelle supercomputer

For at få mere praktisk anvendelige storskalamodeller, skal der kigges i retning af storebror DGX Station, som er bygget omkring en langt kraftigere GB300 chip, som i sig selv kan levere op til 20 petaflops, mens den fødes af op til 784 gigabyte hukommelse.

Af disse er 288 gigabyte at den ekstremt hurtige HBM3e type, som i selv kan levere omkring 30 gange højere båndbredde end i DGX Spark: omkring otte terabyte per sekund.

AI-ydelsen kan derfor regnes med at være mellem 20 og 30 gange højere end i den i forvejen potente mini-pc.

De resterende 496 gigabyte hukommelse er knyttet til en dedikeret ’Grace V2’ processor med 72 regnekerner, som får op til 396 gigabyte per sekunds båndbredde.

Priser og partnere

Nvidias centrale rolle i AI-økosystemet gør, at selskabet kan tage sig godt betalt for sin hardware.

Det tyder på, at de nye DGX enheder ikke bliver nogen undtagelser hvad den trend angår, med startpriser fra 3.000 dollar, for DGX Spark og en endnu ikke oplyst pris på den dyrere DGX Station.

DGX Spark kan forudbestilles på Nvidias hjemmeside med forventet levering til sommer.

Her noterer hardwaremediet Toms Hardware, at der skal regnes med ‘flere titusinder af dollars’ for et grafikkortet alene, hvorfor en eventuel pris omkring den halve million kroner ikke virker usandsynlig.

Flere partnere agter også at byde ind med respektive pendanter til Nvidias DGX Spark og DGX Station. Både HP. Dell og Asus melder klar med tilsvarende modeller fra en gang i sommer.

Dertil kommer pendanter fra mindre specialiserede partnere som Supermicro, Lambda og Boxx.

Hastig udvikling

Mens Nvidia altså kan byde på ekstrem ydelse i både lomme- og desktop format, har selskabet produkter på tegnebrættet som står til at løfte barren gevaldigt i den nærmeste fremtid.

Selskabets afløser til Blackwell Ultra generationen, døbt ’Rubin Ultra’ står til at udkommer omkring 2026 og 2027, hvor der vil tilbydes hele 50 petaflops i en enkel chip sammen med 13 terabyte/sekund HBM4 hukommelse.

Dertil vil Rubin Ultra udkomme i en særlig dual-variant, hvor to chips sammenstykkes til i alt at levere 100 petaflops ved FP4 præcision.