Višesatni pad AWS-a oborio je ključne servise širom sveta, a sada znamo šta je tačno pošlo po zlu.
Amazon je otkrio uzrok višesatnog prekida rada svog Amazon Web Services (AWS) servisa koji se desio 20. oktobra, a zbog kog su brojne aplikacije i servisi bili nedostupni. Krivac je bila greška u softveru za automatizaciju, a kompanija je sada detaljno objasnila lanac događaja koji je do toga doveo.
Korisnici nisu mogli da se povežu sa DynamoDB-om, sistemom baza podataka u kojem AWS klijenti čuvaju svoje podatke, zbog "latentnog nedostatka u automatizovanom sistemu upravljanja DNS-om".
DynamoDB održava stotine hiljada DNS zapisa i koristi automatizaciju za praćenje sistema, redovno ažuriranje zapisa, dodavanje kapaciteta po potrebi, rešavanje hardverskih kvarova i efikasnu raspodelu saobraćaja.
Glavni problem bio je prazan DNS zapis za američku regiju US-East-1 (Virdžinija). Greška nije mogla da se automatski ispravi, pa je bila potrebna ručna intervencija operatera. AWS je zatim privremeno isključio DNS planer i DNS enactor automatizaciju na globalnom nivou, dok ne otkloni sve okolnosti koje su dovele do prekida i ne doda dodatne mere zaštite. Problem je istovremeno izazvao i prekide rada drugih AWS alata.
Prema podacima Downdetector-a, prekid je pogodio više od 2.000 kompanija i servisa, među kojima su Signal, Snapchat, Roblox, Duolingo, ali i bankarske platforme i Ring-ova pametna zvona. Ukupno je zabeleženo više od 8,1 milion prijava problema korisnika širom sveta.
Ovakvi incidenti još jednom pokazuju koliko je globalni internet sistem zavisan od pojedinačnih tačaka kvara. Ta tačka nije samo AWS, već čitava cloud infrastruktura kojom dominiraju svega tri velike kompanije, piše Guardian a prenosi Tportal.
Postanite deo SMARTLIFE zajednice na Viberu.