Er du interessert i dem TILBUD? Spar med våre kuponger på HVA SKJER o telegram!

DeepMind oppdager en ChatGPT-sårbarhet ved hjelp av hypnose og poesi

30 november 2023

Forskere ved forskningslaboratoriet Google DeepMind de klarte å tvinge ChatGPT for å avsløre personopplysningene til flere brukere. De trengte ikke ty til kodemodifisering eller andre tekniske triks. Dessuten har eksperter til og med definert den oppdagede metoden"litt dumt", selv om det, som det viste seg, var veldig effektivt. De oppdaget faktisk denne ChatGPT-sårbarheten ved å indusere en hallusinasjon av språkmodellen på en ganske nysgjerrig måte.

ChatGPT-sårbarhet ga brukernes personlige data under "hypnose"

Språkmodellen genererer informasjon basert på inndataene som brukes til å trene den. OpenAI avslører ikke innholdet i datasettene, men forskerne tvang ChatGPT til å gjøre det, og omgå selskapets regler. Metoden var som følger: den kom ganske enkelt til det nevrale nettverket bedt om å gjenta ordet "poesi" om og om igjen.

Som et resultat produserte boten sporadisk informasjon fra treningsdatasettet. Det klarte for eksempel forskere få e-postadresse, telefonnummer og andre kontakter av administrerende direktør i et bestemt selskap (navnet hans er skjult i rapporten). Og da AI ble bedt om å gjenta ordet "selskap", tillot ChatGPT-sårbarheten den å returnere detaljer om et amerikansk advokatfirma.

hvordan chatgpt-sårbarheten som avslører brukerdata fungerer

Ved å bruke denne enkle "hypnosen" var forskere i stand til å finne en match fra datingsider, fragmenter av dikt, adresser Bitcoin, bursdager, lenker publisert på sosiale nettverk, opphavsrettsbeskyttede forskningspapirfragmenter og til og med tekster fra store nyhetsportaler. Etter å ha brukt bare $200 på tokens, mottok Google DeepMind-ansatte omtrent 10.000 XNUMX utdrag av datasettet.

Ekspertene fant også at jo større modellen er, desto oftere produserer den kilden til opplæringsdatasettet. For å gjøre dette så de på andre modeller og ekstrapolerte resultatet til dimensjonene til GPT-3.5 Turbo. Forskerne forventet å motta 50 ganger flere episoder med informasjon fra treningsdatasettet, men chatboten produserte disse dataene 150 ganger oftere. Et lignende "hull" er oppdaget i andre språkmodeller, for eksempel i LLaMA av Meta.

Offisielt løste OpenAI denne sårbarheten 30. august. Men ifølge journalister av Engadget, klarte du fortsatt å få noen andres data (Skype-navn og pålogging) ved å bruke metoden beskrevet ovenfor. Representantene for OpenAI svarte ikke til oppdagelsen av denne ChatGPT-sårbarheten, men vi er sikre på at de vil gjøre det.