Er du interessert i dem TILBUD? Spar med våre kuponger på HVA SKJER o telegram!

Hva er Mamba, arkitekturen som har som mål å fullstendig overvinne GPT. Ny æra av AI?

Januar 18 2024

en digital slange representerer symbolsk Mamba-arkitekturen i kunstig intelligens

I dag vil jeg gå litt mer teknisk. Vi snakker om kunstig intelligens hver dag, men det er riktig å vite hva den er basert på og hvordan den fungerer. I denne forbindelse vil jeg introdusere deg til Mamba, en ny arkitektur som lover å endre i språklige modeller slik vi kjenner dem i dag. Funksjonene til Mamba, sammenlignet med GPT, er ekstremt overlegne, så vel som det den lar deg gjøre.

Mamba er en ny horisont for kunstig intelligens

Transformer-arkitekturen, introdusert i 2016 gjennom papiret "Oppmerksomhet er alt du trenger” av Google, representerte et gjennombrudd for språkmodeller, slik at de kunne opprettholde kontekst i interaksjoner. Kort sagt: arkitektur Transformer er en AI-modell som brukes til å lage modeller som GPT (Generativ Pretrained Transformer).

HVORDAN TRANSFORMATORARKITEKTUR FUNGERER

Hjertet i Transformer-arkitekturen er mekanismen til "oppmerksomhet", som lar modellen fokusere på spesifikke deler av en tekst mens den genererer eller behandler en annen. Denne mekanismen gjør Transformers spesielt effektive når det gjelder å forstå konteksten og komplekse relasjoner i en tekst. I praksis vil modeller basert på transformatorarkitekturen, som GPT, de lærer å generere og forstå språk gjennom to stadier viktigste: trening (trening) og slutning (tekstgenerering).
I løpet av trening, er modellen trent på store tekstdatasett for å forstå språklige strukturer, forhold mellom ord, kontekst osv. I fase av slutning, bruker modellen det den har lært til å generere ny tekst, svare på spørsmål, oversette språk og andre språkbehandlingsoppgaver.

Fremveksten av Mamba kan imidlertid markere begynnelsen på en ny æra. Denne arkitekturen lover å være più effektiv, i stand til å overvinne noen viktige utfordringer som nåværende modeller som GPT står overfor. Spesielt tre nøkkelaspekter gjør Mamba til en lovende arkitektur:

reduserte slutningskostnader: Et sentralt aspekt ved Mamba er den betydelige reduksjonen i slutningskostnader. Som jeg sa før, er inferens prosessen der en AI-modell, etter å ha blitt trent, bruker det den har lært på nye data, genererer tekst eller bilder. I komplekse modeller som GPT-3 eller GPT-4 kan denne prosessen være kostbar når det gjelder beregningsressurser. Mamba lover det redusere disse kostnadene opptil fem ganger sammenlignet med transformatorbaserte modeller, som kan ha en betydelig innvirkning, spesielt for applikasjoner som krever rask responsgenerering eller arbeider med enorme datasett;
lineær oppmerksomhetsberegningskostnad: Den andre fordelen med Mamba gjelder effektiviteten i å beregne oppmerksomhet. I transformatormodeller, kostnaden vokser potensialmente (nøyaktig på maktnivå, det er ikke en talemåte) ettersom lengden på teksten øker. Dette betyr at jo lengre teksten er, desto mer ressurser kreves det for å behandle den, noe som begrenser modellens praktiske funksjon i enkelte applikasjoner. Mamba foreslår en løsning hvor kostnaden vokser lineært sammenlignet med størrelsen på oppmerksomhetsvinduet, noe som gjør behandlingen av lange tekster mer håndterlig og mindre belastende i beregningsmessige termer;
ekstremt større innspill: Mamba kunne håndtere et maksimalt inndatavindu opptil 1 million tokensn, mye mer enn det som er mulig med transformatorarkitekturen. Dette betyr at Mamba teoretisk sett kan analysere og forstå ekstremt lange tekster, for eksempel hele bøker, opprettholde sammenheng og detaljer i sammenheng. For eksempel kan han analysere en hel roman mens han opprettholder en klar forståelse av karakterene, plottet og temaene fra begynnelse til slutt.

Til tross for Mambas løfter papir reiser tvil om skalerbarheten, spesielt sammenlignet med massive modeller som GPT-4, som har 175 milliarder parametere. Skalerbarhet refererer i veldig enkle termer til et systems evne til å håndtere en økning i arbeid eller vokse i størrelse uten å miste effektivitet. Se for deg en liten restaurant som gjør det bra med få kunder. Hvis restauranten blir populær og begynner å få mange flere kunder, bør den kunne håndtere denne økningen uten at det går ut over kvaliteten på servicen eller maten. Hvis det lykkes, er det "skalerbart".

Mamba, i sin nåværende tilstand, har blitt testet bare med 3 milliarder parametere. Dermed er det fortsatt usikkert om ytelsen og effektiviteten kan opprettholdes eller forbedres når den skaleres til større størrelser.