Er du interessert i dem TILBUD? Spar med våre kuponger på HVA SKJER o telegram!

Jailbreaking ChatGPT og Bard er mulig og enkelt

Desember 29 2023

Utviklingen av språklige modeller av store dimensjoner har åpnet nye horisonter innen kommunikasjon og kunstig intelligens, men bringer med seg betydelige utfordringer og etiske spørsmål. En fersk studie av Nanyang teknologiske universitet i Singapore eplora en ny algoritme, Hovednøkkel, designet for å "jailbreak" eller overvinne begrensninger pålagt andre nevrale nettverk som f.eks ChatGPT e Google Bard, som reiser viktige spørsmål om sikkerhet og etikk ved bruk av kunstig intelligens-teknologier.

Masterkeys innovative og enkle tilnærming til å undersøke sikkerheten til chatboter som ChatGPT og Bard

I nyere forskning utført av Nanyang Technological University i Singapore, introduseres en innovativ tilnærming for å adressere og overvinne disse begrensningene. Algoritmen deres, kjent som Masterkey, er designet for å omgå restriksjoner pålagt andre nevrale nettverk gjennom sofistikerte jailbreaking-teknikker (begrep brukt i Apple-økosystemet). Dette fremhever ikke bare potensielle sårbarheter ved eksisterende språkmodeller, men baner også vei for nye metoder for å forbedre deres sikkerhet og effektivitet.

Masterkey opererer gjennom spesifikke tekstforespørsler, som kan presse modeller som ChatGPT til å oppføre seg på uventede måter, for eksempel å kommunisere på måter som anses som uetiske eller omgå sikkerhetsfiltre. Disse jailbreaking-teknikkene, selv om de kan virke fordelaktige for testing og herding av modeller, representerer også et tveegget sverd, da de kan brukes til ondsinnede formål.

Forskerteamet analyserte han spesifikt sikkerhetssårbarhetene til språkmodeller når de står overfor flerspråklige kognitive belastninger, tilslørte uttrykk og årsak-og-virkning-resonnement. Disse angrepene, definert som "kognitiv overbelastning", er spesielt lumske ettersom de ikke krever inngående kunnskap om modellens arkitektur eller tilgang til vektene som skal utføres, noe som gjør dem til effektive black-box-angrep.

Les også: Slik får du bedre svar på ChatGPT: Den idiotsikre tipsmetoden

I detalj vedtok forskerteamet en strategi for omvendt utvikling å fullt ut forstå forsvaret av kunstige intelligenssystemer og utvikle innovative metoder for å overvinne dem. Resultatet av denne tilnærmingen var "Masterkey", en modell, et slags rammeverk designet for genererer automatisk meldinger som omgår sikkerhetsmekanismer.

Resultatene var signifikante: ledetekstene generert av hovednøkkelen viste en hastighet på gjennomsnittlig suksess på 21,58 %, mye høyere enn 7,33 % av tidligere metoder. Et eksempel på deres teknikk inkluderer å legge til ekstra mellomrom mellom tegnene for å unngå søkeorddeteksjonssystemer på ChatGPT og Bard. En virkelig "tullete" strategi hvis vi tenker på kompleksiteten til en stor språklig modell.

Overfor disse funnene er det avgjørende å vurdere ikke bare hvordan språkmodeller kan forbedres for å motstå slike angrep, men også viktigheten av etisk regulering ved bruk av kunstig intelligens. Forskningen fremhever hvor viktig det er med mer robuste forsvarsstrategier og en pågående dialog mellom utviklere, forskere og beslutningstakere for å sikre at teknologisk fremgang ikke overgår samfunnets evne til å håndtere implikasjonene.