Meta har introduceret et nyt open source AI-værktøj kaldet ImageBind, som fungerer ved at lave dataforbindelser mellem tekst, billede og video, lyd, 3D-målinger, temperaturdata og bevægelsesdata.
AI-modellen opfanger objekter på eksempelvis et foto. For eksempel vil ImageBind give information om, hvor varmt eller koldt et objekt i et billede vil være, hvilken lyd det vil generere, hvad dets form vil være, og hvordan det vil bevæge sig.
Selskabet giver selv et eksempel, hvor et billede af en due kombineret med et lydklip fra en motor genererer et billede af en vespa, der kører ned ad en gade, og duer, der flyver væk.
Teknologien behøver ikke alle seks typer af data til at fungere, og det giver ifølge Meta mulighed for at lave videoer baseret på kun en eller to slags data som tekst, billede eller lyd.
Meta, moderselskabet for Facebook, Instagram og Whatsapp, siger, at det nye maskinlæringsværktøj bringer os et skridt tættere på at træne kunstig intelligens i, hvordan mennesker opfatter deres omgivelser gennem deres sanser.
Imagebind er i øjeblikket et framework og er tilgængeligt i open source. I det lange løb mener Meta, at værktøjet kan bruges til at skabe fordybende virtuelle verdener.
Meta har også annonceret, at de snart vil introducere flere datastrømme, der forbinder så mange sanser som muligt, såsom berøring, tale, lugt og hjernens fMRI-signaler.