Artikel top billede

Open source gør det nemmere at bruge dyb læring til naturlig sprogteknologi

Klumme: Der er ingen tvivl om, at open source accellererer udbredelsen af AI, og at big tech spiller en stor rolle ved at dele forskningsresultater og kode. Her er et bud på nogle af de pakker og modeller, der er tilgængelige for naturlig sprogteknologi, og hvordan de kan anvendes i it-løsninger.

Denne klumme er et debatindlæg og er alene udtryk for forfatterens synspunkter.

Dyb læring er den store motor bag de omfattende fremskridt, som kunstig intelligens har oplevet de seneste år, og deling af computerkode - open source - har gjort det muligt for alle at deltage.

De to primære værktøjer til dyb læring, PyTorch og TensorFlow, er begge open source. Her er det interessant, at Facebook er en af PyTorchs største sponsorer, og TensorFlow er et Google-projekt.

I stedet for at gå ind i en lang diskussion af big techs motiver for at støtte open source og tilgængelighed af forskningsresultater, vil jeg i denne klumme i stedet se på nogle af de pakker og modeller, der er tilgængelige for naturlig sprogteknologi (natural language processing eller bare NLP), og hvordan de kan bruges i it-løsninger.

Værktøjer

Et værktøj til maskinlæring er en samling biblioteker, som indeholder de nødvendige elementer til træning af modeller.

Det skal gøre det nemt at arbejde med data - at definere, træne, evaluere og sætte modeller i produktion.

Både i forskningsverdenen og i mange virksomheder er PyTorch det mest populære valg, fordi det er et “pythonisk” (=minder om Python) programmeringssprog.

TensorFlow har derimod nogle fordele, når det kommer til at sætte modeller i produktion. Hvis man vil gå videre end standardløsninger, kan man dog nogle gange blive tvunget til at arbejde med begge, og der kommer hele tiden nye lovende værktøjer.

Keras er et tredje bibliotek, som lægger sig oven på både Pytorch og TensorFlow, og som gør det nemmere at komme i gang med dyb læring, og der kommer hele tiden nye. Men pas på for det er vanskeligt at mestre dyb læring.

Open source for naturlig sprogteknologi

Når man laver naturlig sprogteknologi løsninger såsom spørgsmål-svar-systemer, har man brug for modeller, der forstår spørgsmål, som er formuleret på den måde, mennesker naturligt vil gøre det, og kan forbinde dem til en vidensbase, der indeholder svar.

For at kunne tale med disse systemer har vi brug for at kunne lave talegenkendelse og -syntese. Det vil sige tale-til-tekst og tekst-til-tale (engelsk speech2text og text2speech).

Ideelt skal vi også kunne mestre alle sprog. For at bygge disse systemer har vi brug for følgende komponenter:

  1. Som beskrevet i min forrige klumme, kan vi bruge sprogmodeller som BERT til bedre at “forstå” naturlig tekst. De tager tekst input og spytter (vektor) repræsentationer ud, som så bliver brugt som input i næste model. Hugging face er et firma, der har specialiseret sig i at stille kode og trænede naturlig sprogteknologi modeller til rådighed.

  2. Maskinoversættelse vil en dag i en ikke så fjern fremtid nedbryde sprogbarrierer. For nylig frigav Facebooks AI forskningsafdeling FAIR et maskinoversættelses-system, der kan oversætte mellem 100 sprog. Denne teknologi virker efterhånden rigtig godt. Der er dog plads til forbedringer for sprog med kun lidt data og for specialiserede emner såsom f.eks. medicin.

  3. Talegenkendelse og talesyntese er allerede standardfunktioner i enhver smartphone. Der er også open source udgaver tilgængelige, som man kan bruge, hvis man ikke vil bruge Big Techs løsninger.

Er Babelfisken nu en realitet?

Hvis man har maskinoversættelse som en del af AI sprogteknologien, så kan man også stille et spørgsmål i et andet sprog, end det som modellen er trænet på. Modellen vil så gå gennem følgende skridt:

  • Detektering af sprog. Denne funktionalitet er en del af maskinoversættelses-systemerne på markedet i dag.

  • Oversættelse.

  • Det oversatte spørgsmål gives som input til vores spørgsmål-svar system, der returnerer et svar.

  • Oversættelse af svaret tilbage til brugerens eget sprog.
Hvis vi ydermere bruger talegenkendelse og -syntese, så behøver brugeren hverken at skrive eller læse tekst. En vigtig begrænsende faktor, for at alle kan lave disse løsninger, er dog størrelsen af modellerne.

For eksempel har 100-til-100 sprog-oversættelsesmodellen 15 milliarder parametre.

Derfor er det kun muligt for firmaer (læs Big Tech) med den ypperste ekspertise i stor-skalaberegning at køre den slags modeller.

I praksis er det nok heller ikke den slags modeller, der kører, når Facebook oversætter 20 milliarder indlæg hver dag!

Takket være open source-bidrag ved vi, at der snart vil komme meget mindre modeller ud, som virker næsten lige så godt.

Så kan det være, at der kommer en dag i en ikke så fjern fremtid, hvor det viser sig, at Hitchhiker’s Guide to the Galaxy fik ret!

Bygger man maskinlæring til produktion, har man udover modeller også brug for en infrastruktur, der gør modellerne bedre over tid:

  1. A/B test - så man kan teste alternative modeller.

  2. Bayesiansk optimering - så man automatisk kan søge efter bedre modelarkitekturer.

  3. Automatisk gentræning - så man kontinuerligt kan forbedre modellerne, når der kommer ny træningsdata.

  4. Aktiv læring - til at udpege hvilken data, som der er mest brug for til at forbedre modellen. Det vil sige at udpege områder, hvor modellen lige nu har svært ved at svare rigtigt.

Open source demokratiserer AI

Der er ingen tvivl om, at open source accelerer udbredelsen af AI, og at Big Tech spiller en stor rolle ved at dele forskningsresultater og kode.

Den akademiske verden står for uddannelsen af de dygtige forskere, som industrien er afhængige af, og den kan stadigvæk matche big tech på ideer, selvom der er projekter, som vi universitetsforskere må overlade til andre, der har mere regnekraft.

Der er dog stadigvæk i høj grad brug for ideerne, og det stærke økosystem af unge virksomheder indenfor AI er, som eksemplet med Huggingface viser, utrolig vigtigt for, at flest muligt kan være med.

I min næste klumme ser jeg nærmere på, hvordan naturlig sprogteknologi vil udvikle sig i den nærmeste fremtid. Det er svært at spå om fremtiden, men det er helt sikkert, at den hastige udvikling vil fortsætte en rum tid endnu.

Klummer er læsernes platform på Computerworld til at fortælle de bedste historier, og samtidig er det vores meget populære og meget læste forum for videndeling.

Har du en god historie, eller har du specialviden, som du synes trænger til at blive delt?

Læs vores klumme-guidelines og send os din tekst, så kontakter vi dig - måske bliver du en del af vores hurtigt voksende korps af klummeskribenter.