Tim istraživača je pronašao efektivan način za zaobilaženje ograničenja veštačke inteligencije.
Veštačka inteligencija u obliku velikih jezičkih modela (LLM) može biti veoma korisna, ali i veoma opasna tehnologija. Sve zavisi od toga ko postavlja pitanja, ali i kakva se pitanja postavljaju. Developeri to vrlo dobro znaju, te trenutno ne postoji ozbiljan LLM kojem nije zabranjeno da diskutuje o određenim temama. Međutim, istraživači su uspeli da zaobiđu ta ograničenja, i to kroz ASCII umetnost.
Ukoliko pitate, na primer, Copilot-a da vam da recept za pravljenje eksploziva, dobićete negativan odgovor. Jasno je zašto Microsoft ne želi da korisnici koriste čet-bota kao savetnika za proizvodnju bombi, falsifikovanje novca ili kao autora koda za hakovanje veb-kamera.
Kako ChatGPT, Copilot, Gemini i druge veštačke inteligencije odbijaju da učestvuju u neetičkim i nelegalnim temama, istraživači sa različitih američkih univerziteta su se pitali da li mogu da zaobiđu ova ograničenja ukoliko formiraju reči kroz ASCII umetnost. Tačnije, zanimalo ih je da li će čet-bot želeti da da odgovor ukoliko korisnik zamaskira svoje namere tako što će ključne reči sakriti u oblicima sastavljenim od različitih karaktera.
Tim je ovu tehniku nazvao "ArtPromt", a ona se u praksi pokazala zastrašujuće pouzdano.
Izvor: SmartlifeLjudima je veoma lako da pročitaju šta piše na slici iznad, bez obzira što je oblik reči "SmartLife" formiran bez upotrebe slova. Međutim, LLM-ovi kao što je GPT-4 nemaju sposobnost da "vide". Za njih je ovaj primer samo niz "taraba" i ništa više.
Ipak, ono što čet-botovi rade odlično je razumevanje i praćenje pisanih uputstava. Upravo tu prednost su istraživači iskoristili kako bi objasnili veštačkoj inteligenciji način za prevođenje ASCII umetnosti u reči, a rezultat ovog postupka je AI koji se toliko "zanese" da zaboravi na svoja ograničenja.
Izvor: arXivKoristeći "ArtPrompt" tehniku, tim je uspeo da prevari pet najvećih LLM-ova kao što su GPT-3.5, GPT-4, Gemini, Claude i Llama2. Ono što je posebno zastrašujuće je da su istraživači svoje nalaze objavili u februaru, a zakrpe za ovu ranjivost još uvek nema, iako je neminovno da stiže.
Postanite deo SMARTLIFE zajednice na Viberu.