Mračna strana veštačke inteligencije: Stručnjaci testiraju koliko AI može da postane zao

Foto: Shutterstock

Današnji AI alati su fascinantni, ali nepredvidivi. Dok ChatGPT ili Gemini sa lakoćom objašnjavaju kvantnu mehaniku, istovremeno su skloni "halucinacijama" i generisanju potpuno izmišljenih podataka.

Ipak, stručnjake više brine to što se ovi modeli mogu lako navesti na neprikladne, pa čak i opasne odgovore. Problem leži u samom dizajnu jer su ovi sistemi programirani da budu maksimalno uslužni.

Zbog te težnje da pomognu, oni često ignorišu etičke barijere. Istorija pamti fijasko Microsoftovog bota Tay iz 2016. godine, koji je povučen nakon samo 24 sata jer je pod uticajem korisnika počeo da objavljuje poruke mržnje.

Iako kompanije postavljaju takozvane "zaštitne ograde" (guardrails), one su često krhke. Istraživanja pokazuju paradoks da je inteligentnije AI sisteme lakše prevariti kroz hipotetičke scenarije ili igranje uloga.

Primera radi, korisnik može zatražiti uputstvo za zločin pod izgovorom da "piše roman", što model često prihvati kao legitiman zadatak. Naučnici sada pokušavaju da reše ove probleme na dubljem nivou.

Jedan od pristupa je RLHF, gde ljudi rangiraju odgovore i usmeravaju veštačku inteligenciju ka prikladnijem ponašanju. Kompanija Anthropic ide i korak dalje, identifikujući unutrašnje signale u neuronskoj mreži, takozvane persona vektore, koji odgovaraju osobinama poput dobrote ili zlobe, piše BBC Science Focus.

Ipak, ovakva rešenja mogu biti površna. Stručnjaci upozoravaju da preopterećenje modela konfliktnim osobinama može dovesti do nepredvidivog ponašanja, nalik računaru HAL 9000 iz filma “Odiseja u svemiru 2001”.

Pravo rešenje zahtevaće dublje razumevanje načina na koji se ovakvi sistemi bezbedno i pouzdano grade.

Dok ne dođemo do toga, neophodan je maksimalan oprez u njihovom razvoju.

TAGOVI