Er du interessert i dem TILBUD? Spar med våre kuponger på HVA SKJER o telegram!

Det er et stort problem som holder tilbake treningen av nevrale nettverk

2 april 2024

I den dynamiske verden avintelligens kunstig, står ledende teknologibedrifter overfor en uventet utfordring som kan bremse innovasjonstakten: den voksende vanskeligheter med å finne data av kvalitet for å trene modellene sine. Denne datamangelen påvirker utviklingen av avanserte teknologier som f.eks GPT-5, mens selskaper av kaliber Microsoft og OpenAI søker innovative løsninger for å overvinne denne hindringen.

AI-treningsutfordringer: Det er en hunger etter data og dette bremser fremgangen

I en tid preget av en enestående økning i datakraft og utvikling av maskinlæringsteknikker, står OpenAI og lignende overfor en paradoks: Overflod av nettdata blir ikke automatisk oversatt til en brukbar ressurs for AI-trening. De trenger nøyaktige data, relevant og oppdatert er mer kritisk enn noen gang, spesielt når det gjelder opplæring av stadig mer komplekse modeller som den planlagte GPT-5.

Overgangen fra GPT-4 til GPT-5 illustrerer denne eksponentielle veksten i dataetterspørselen: mens førstnevnte krevde "bare" 12 billioner tokens, er estimatene for etterfølgeren ca. 60-100 billioner. Avviket mellom tilgjengelighet og behov for data av høy kvalitet fremstår som en betydelig hindring, og estimerer en mangel som kan variere mellom 10 og 20 billioner tokens.

Denne mangelen på kvalitetsdata fører til en reell flaskehals for utviklingen av AI. De ofte foreldede eller lavkvalitetsdataene som fyller nettet representerer en alvorlig grense for effektiviteten til maskinlæring. I tillegg forverrer begrensningene som pålegges av datatilgang fra store plattformer bare problemet, og begrenser ressursene som er tilgjengelige for opplæring ytterligere. språklige modeller.

Som svar på denne utfordringen varierer de vedtatte strategiene fra tekniske innovasjoner til strategiske partnerskap. OpenAI, for eksempel, har som mål å forbedrebruke lyd- og videodata gjennom Whispe-talegjenkjenningsverktøyetr, for å utvide utvalget av tilgjengelige data. Parallelt utforsker selskapet muligheten for generere syntetiske data av kvalitet som kan tjene til å fylle det eksisterende gapet.