Razgovor Zelenskog i Fridmena sinhronizovan je na tri jezika. Otkrivamo vam kako je moguće da glas sagovornika na sva tri ostaje isti.
Predsednik Ukrajine nedavno je učestvovao u podkastu Leksa Fridmena, koji je za kratko vreme pregledan više od 20 miliona puta na YouTube i X platformama. Razgovor je trajao skoro dva i po sata, tokom kojih su se voditelj i Volodimir Zelenski dotakli različitih tema, i to na tri jezika - engleskom, ukrajinskom i ruskom.
Fridmen, koji je se kao dete preselio iz Moskve u SAD, postavljao je pitanja na ruskom i engleskom, dok je Zelenski odgovarao na ukrajinskom i engleskom. Podrazumevano, čitav razgovor je sinhronizovan na engleski, ali gledaoci, ukoliko ga gledaju na YouTube-u, mogu da promene jezik sinhronizacije na isključivo ukrajinski ili isključivo ruski, kao i da odaberu originalni, mešoviti snimak.
Promeniti jezik sinhronizacije je lako. Sve što treba da uradite jeste da u YouTube plejeru izaberete Settings, zatim Audio Track, i na kraju sinhronizaciju koju želite da čujete.
Ukoliko to učinite, vrlo brzo ćete shvatiti da se pokreti usana, naravno, ne podudaraju sa onim što čujete. Međutim, ono što će vas izenaditi je da se glasovi Zelenskog i Fridmena ne menjaju u zavisnosti od izabranog jezika. Kako je to moguće?
Ne, Zelenski i Fridmen nisu naknadno sinhronizovali sve što je rečeno tokom razgovora. U pitanju je upotreba veoma interesantne tehnologije iza koje stoji kompanija ElevenLabs, zbog koje danas vredi preko milijardu dolara.
Sinhronizacija pomoću veštačke inteligencije
Osnovana 2022. godine u Njujorku, kompanija ElevenLabs brzo je postala jedan od lidera u razvoju tehnologije za sintezu govora pomoću veštačke inteligencije. Iza ovog inovativnog startapa stoje poljaci Pjotr Dabkovski, bivši inženjer za mašinko učenje u Google-u, i Mati Staniševski, nekadašnji strateg za razvoj u kompaniji Palantir.
Ideju da stvori tehnologiju koja je sposobna da generiše prirodan govor, ovaj dvojac je pronašao u svom detinjstvu, nezadovoljan lošom sinhronizacijom holivudskih filmova. Njihova vizija bila je da razviju veštačku inteligenciju koja može da premosti jezičke barijere, ali i da različite vrste sadržaja učini dostupnim svima, u najvišem mogućem kvalitetu.
Postoji više usluga koje ElevenLabs nudi. Ipak, jedan od najvažnijih proizvoda je AI sinhronizacija. Upravo ova tehnologija je korišćena za audio prevod Fridmenovog podkasta i zadržavanje ključnih karakteristika originalnih glasova.
Kako bi postigla impresivne rezultate koje smo imali priliku da čujemo, ElevenLabs veštačka inteligencija je morala da prođe kroz nekoliko koraka:
- Prepoznavanje govora: Analiza originalnog audio zapisa kako bi se identifikovale sve karakteristike govornika, uključujući tonalitet, intonacije, stil, ritam i emocije u govoru.
- Prevođenje i prilagođavanje na ciljanom jeziku: Prevođenje govora na odabrani jezik, uz očuvanje značenja i stila.
- Generisanje novog govora: Kreiranje govora na ciljanom jeziku sa identičnim tonalitetom, intonacijom i emocijama kao u originalu.
Fridmen tvrdi da su u sinhronizaciju njegovog podkasta sa predsednikom Ukrajine, pored upotrebe veštačke inteligencije, aktivno bili uključeni i sami inženjeri iz ElevenLabs-a, a sve kako bi se postigao što bolji rezultat.
Koliko obećava tehnologija koju razvija ElevenLabs možda najbolje govori podatak da je u januaru 2024. godine vrednost kompanije procenjena na milijardu dolara. Stručnjaci smatraju da bi njena vrednost već ove godine mogla da dosegne čak 3 milijarde dolara.
Ukoliko već niste, ne propustite da vidite AI sinhronizaciju na delu: