Siden AI-tjenesten ChatGPT for alvor satte AI-kapløbet i gang blandt tech-giganterne er nogle mindre, men stadigt kompetente alternativer begyndt at dukke op i form af såkaldte lokale sprogmodeller, eller ’local LLM’.
I stedet for forespørgsler sendes op til den store AI-sky hos ChatGPT, Microsoft Copilot eller Google Gemini, afvikles de lokalt på en model, der afvikles på ens maskine.
Disse er gået igennem en rivende udvikling, så selv relativt små modeller kan måle sig med i hvert fald ældre versioner af ChatGPT.
At komme i gang med dem er tilmed relativt enkelt mens mange funktioner kan skræddersys – det kan du læse om her.
Det store tag selv-bord
Hvor der i øjeblikket kun tilbydes en håndfuld Chat-tjenester ude i skyen, er udvalget af lokale LLM’er kæmpestort.
Inden du kan afvikle dem, skal du dog have fingre i et værktøj, hvori modellerne kan afvikles. I denne guide tages udgangspunkt i programmet ’LM Studio’ som kan hentes til Windows, MacOS eller Linux her.
LM Studio er gratis og kan afvikle de fleste tilgængelige sprogmodeller i det såkaldte gguf-format.
Når du har installeret AI-studiet, får du mulighed for at søge efter modeller under ’Search’ fanen, chatte med modellen under ’AI-chat’ fanen og administrere modeller under ’My Models’.
Dertil tilbyder app’en både eksperimenteren med multi-modal modeller og opsætningen af en chat-server.
Populære modeller at forsøge sig med først er Metas ’Llama 3 8B instruct’ og ’Qwen2 1.5B Instruct’ som begge kan hentes i versioner, der kan afvikles på de fleste maskiner.
Disse skal loades op i hukommelsen, hvorefter du kan gå i gang med et chatte i chat-vinduet.
Her kan du allerede nu lege med forskellige ’presets’, hvor du beder modellen om at slå en bestemt tone an. Du kan hermed bestemme om den skal være kortfattet og faktuel eller mere kreativ og floromvunden i sine svar.
Strenge hardware-krav
Kvaliteten og evnerne i de modeller der kan hentes, afhænger i høj grad af deres størrelse og den mængde træning og træningsdata der er bagt ind i de enkelte modeller.
En større model som Metas Llama 3 70B er ifølge flere benchmarks sammenlignelig med OpenAI’s GPT 4, men vil stille enorme krav til din systems regnekraft, hukommelse og båndbredde.
Din processor er ikke optimeret til de ’inferens’-opgaver, som ligger i at afvikle en LLM. Her er det i stedet dit grafikkort, der skal tage det tunge løft.
Llama 3 70B kræver typisk 30-40 gigabyte hukommelse, mens Llama 3 8B kan nøjes med omkring seks.
Og det bliver forskellen på, hvorvidt modellen kan afvikles på dit systems dedikerede grafikkort. Forbruger-rettede grafikkort byder her på typisk seks til 16 gigabyte hukommelse.
En lille krølle ved historien er, at Apples M-baserede maskiner deler hukommelse med processoren, hvorfor Mac-enheder med 64 eller 128 gigabyte hukommelse, vil kunne afvikle de største og tungeste modeller.
Tempoet svarene leveres med, afhænger derefter af dit grafikkorts ydeevne og båndbredde. Et mellemklasse-grafikkort som Nvidias RTX 3060 12 gigabyte er et godt sted at starte, mens et eller endda to styk high-end kort som Nvidias RTX 3090 eller RTX 4080 med 24 gigabyte vil levere de bedste resultater.
Hastigheden for svar måles i token per sekund, hvor det typisk kræver et til to tokens at generere et ord.
Valg af modeller
Efter at have pejlet sig ind på, hvad din hardware kan håndtere af modeller, kan du forbedre din oplevelse og resultater ved at fintune dit valg af model.
Når du vælger LLM-model, kan du vælge mellem forskellige grader af kvantificering, et mål for hvilken præcision der regnes med, hvor højere typisk vil være bedre men også mere regne- og ram-krævende.
Her er modeller med mellem Q4 og Q8 gode udgangspunkter.
Dertil skal du vælge hvor omfattede kontekstvinduet skal være – altså hvor stor en samtale modellen skal rumme.
Chat med AI-modeller med små vinduer på 4K eller 8K, vil hurtigt degenerere, mens større 128K-vinduer vil give modellen plads til at lagre og huske mere – men samtidig kræve flere ressourcer.
Set med danske briller, vil du også hurtigt erfare, at understøttelsen af dansk er mangelfuld, hvilket oftest kan tilskrives, at de open-source modeller, der findes, langt overvejende er trænet med engelsksproget materiale.