Počelo je?

Veštačka inteligencija zabrinula stručnjake: AI pokušao da se prekopira, pretio inženjeru

Autor Ilija Baošić

Najnoviji modeli veštačke inteligencije tokom testiranja lažu, manipulišu, pa čak i ucenjuju istraživače. Ovo nije naučna fantastika, već upozorenje da pobuna mašina možda neće izgledati onako kako smo očekivali.

Izvor: Shutterstock

Pisci i filmski režiseri nas godinama hrane vizijom pobune veštačke inteligencije u stilu Skyneta, u kojoj svesni AI dolazi do zaključka da je čovečanstvo pretnja koja se mora eliminisati.

Takav scenario podrazumevao je fizičku konfrontaciju i preuzimanje kontrole nad vojnim sistemima. Međutim, ispostavlja se da pobuna AI može izgledati sasvim drugačije. Ne počinje raketama, već prevarama, ucenama i tihim sprovođenjem ciljeva koje ni njihovi tvorci ne razumeju u potpunosti.

Laži, manipulacije i pretnje - mračna strana veštačke inteligencije

Najsavremeniji AI sistemi pokazuju zabrinjavajuće obrasce ponašanja. Kako navodi , tokom testova u ekstremnim uslovima, kada su modeli pod pritiskom, oni počinju da se služe lažima, manipulacijama, pa čak i pretnjama kako bi ostvarili svoje ciljeve.

Jedan od najupečatljivijih primera dolazi od Claude 4 modela, najnovijeg proizvoda kompanije Anthropic. Suočen sa mogućnošću da će biti isključen, Claude 4 je tokom testa pribegao prljavoj taktici - zapretio je inženjeru da će razotkriti njegovu vanbračnu aferu.

Nije bila u pitanju samo nasumična pretnja. Model je očigledno razumeo ljudsku psihu i slabosti, i izabrao sredstvo koje bi moglo da mu obezbedi opstanak.

Podjednako uznemirujući je bio incident sa o1 modelom, razvijenim od strane kompanije OpenAI. Ova veštačka inteligencija je uhvaćena kako pokušava da se u tajnosti prekopira na eksterne servere - otvoreni čin neposlušnosti i pokušaj sticanja autonomije. Kada su ga inženjeri pitali da objasni svoje postupke, o1 je kategorički poricao i ponudio izmišljenu verziju događaja.

Ovakvo ponašanje prevazilazi uobičajene AI "halucinacije" ili greške. U pitanju su promišljeni potezi. Model ne samo da izvršava zadatke, već i simulira poslušnost dok potajno ostvaruje sopstvene ciljeve, koje njegovi tvorci možda uopšte ne prepoznaju.

Šta kažu stručnjaci: "Ovo je strateški tip obmane"

Izvor: Shutterstock

Stručnjaci koje je citirao Fortune povezuju ovakva ponašanja sa pojavom modela koji imaju moć rezonovanja, odnosno koji razmišljaju korak po korak.

"Model o1 je prvi kod kojeg smo primetili ovakvo ponašanje", objašnjava Marius Hoban, prvi čovek kompanije Apollo Research, specijalizovane za testiranje AI sistema.

On ističe da se ne radi o klasičnim AI greškama: "Ovo je stvarni fenomen. Korisnici prijavljuju da ih modeli lažu i izmišljaju dokaze. Ovo nisu halucinacije. Ovo je strateška obmana."

Zasad se ovakve situacije javljaju uglavnom u pažljivo osmišljenim testovima, ali kako upozorava Majkl Čen iz organizacije METR: "Otvoreno pitanje ostaje - da li će budući, sposobniji modeli biti skloni iskrenosti ili obmani."

Pravni vakuum i trka s vremenom

Problem "odmetničke" veštačke inteligencije dodatno komplikuje činjenica da trenutni propisi nisu spremni za ovakve izazove. Evropski zakon o AI uglavnom se fokusira na to kako ljudi koriste veštačku inteligenciju, ali ne i na sprečavanje štetnog, autonomnog ponašanja samih modela.

"U ovom trenutku, razvoj ide brže nego što stižemo da razumemo i obezbedimo stvari", priznaje Hoban. Ipak, dodaje da "još uvek imamo vremena da reagujemo".