"kolaps modela"

Da li nam je AI već "potrošio" sve podatke? Mask tvrdi da jeste i nudi alternativu

Industrija veštačke inteligencije dostigla nivo tzv. "vršnih podataka" pa će njihov nedostatak za dalju obuku AI-ja morati da dovede do promene, zato šef xAI-ja nudi "sintetičke podatke" kao zamenu

Izvor: Shutterstock

Količina podataka iz stvarnog sveta preostala za obuku generativnih modela veštačke inteligencije (AI) toliko je mala da bi uskoro mogla da bude potpuno potrošena. Sa tim, nedavno iznetim, mišljenjem stručnjaka da je celokupan skup podataka na kojima se treniraju AI modeli skoro prazan, slaže se i Ilon Mask.

"Iscrpeli smo kumulativni zbir ljudskog znanja u obučavanju veštačke inteligencije. To se dogodilo još prošle godine", rekao je Mask u razgovoru sa predsednikom marketinške kompanije Stagwell Markom Penom, koji je prenošen na platformi X.

Mask, čija se kompanija xAI upravo bavi primenom veštačke inteligencije, ustvari je samo ponovio konstataciju koju je prethodno izneo nekadašnji glavni naučnik OpenAI-ja Ilja Sutskever na konferenciji o mašinskom učenju NeurIPS, održanoj u decembru.

A prema njegovim rečima, industrija veštačke inteligencije je dostigla ono što je nazvao "vršnim podacima". Sutskever je predvideo da će nedostatak podataka za dalju obuku AI-ja dovesti do promene, odnosno otklona od načina na koji se AI modeli danas razvijaju.

Izvor: Shutterstock / Frederic Legrand - COMEO

Maskova alternativa

To mišljenje Mask je podržao, ponudivši kao alternativu – sintetičke podatke. Odnosno, informacije koje generišu sami modeli veštačke inteligencije kao odgovor na upite koje su im ljudi postavljali.

"Jedini način da se potrošeni podaci iz stvarnog sveta nadomeste su sintetički podaci, gde je AI taj koji kreira podatke za obuku. Sa sintetičkim podacima AI će, na neki način, samog sebe ocenjivati i tako prolaziti kroz proces samoučenja", smatra Mask.

Neki tehnološki giganati, uključujući tu kompanije Meta, Microsoft, OpenAI i Anthropic, već koriste sintetičke podatke za obuku svojih AI modela. Prema istraživanju konsalting agencije Gartner, 60 odsto podataka koji su korišćenih za AI i analitičke projekte tokom 2024. godine bilo je sintetički generisano, prenosi TechCrunch.

Izvor: Pixabay

Posledica – "kolaps modela"

Ovaj trend već je vidljiv i kod generativnih AI modela Microsoft Phi-4 i Google Gemma. Oba su trenirana na kombinaciji podataka iz stvarnog sveta i sintetičkih podataka.

Upotreba sintetičkih podataka za obuku AI modela takođe donosi i finansijske koristi. Startap Writer je, tako, tvrdio da je njegov AI model Palmyra X 004, obučen uglavnom na sintetičkim podacima, pa je njegov razvoj koštao samo 700.000 dolara. A to je značajno manje novca od procenjenih 4,6 miliona dolara koliko je bilo potrebno za obuku OpenAI modela slične veličine.

Istraživanja, međutim, ukazuju na potencijalne rizike od upotrebe sintetičkih podataka kao što je "kolaps modela". To je situacija u kojoj rezultati koje model generiše, tokom vremena, postaju manje "kreativni" a više pristrasni, zbog sve više pristrasnosti i ograničenja u samim podacima koji se koriste u obuci ovih modela.

BONUS VIDEO: