Масштабний збій AWS, який паралізував половину інтернету, нарешті усунуто — ось що сталося

Великий збій Amazon Web Services (AWS) порушив роботу глобальних вебсайтів, додатків і сервісів. Проблема виникла через відмову DNS у регіоні AWS US-East-1. В останньому оновленні Amazon повідомила, що збій усунуто.

Зміст

Масові уповільнення та тайм-аути
Проблему пом’якшено, але відновлення йде повільно

Amazon Web Services (AWS) — основа значної частини інтернету — вийшов із ладу раннього ранку понеділка. Приблизно о 00:11 за східним часом 20 жовтня стався масштабний збій, який вивів з ладу численні вебсайти, додатки та онлайн-платформи по всьому світу.

Джерело проблеми — критично важливий регіон компанії US-East-1 у Північній Вірджинії, найбільший і найважливіший дата-центр AWS. Основні проблеми вдалося усунути лише о 18:53 за східним часом. Навіть після цього деякі супутні збої тривали.

Масові уповільнення та тайм-аути

AWS вперше визнала проблему після виявлення підвищеного рівня помилок і затримок у численних ключових сервісах, включно з EC2, Lambda та DynamoDB — хмарною технологією баз даних Amazon. Пізніше інженери виявили проблему з розв’язанням доменних імен (DNS), яка вплинула на API-точку DynamoDB і каскадом поширилася на залежні системи.

- Advertisement -

Так, це правда. Старий технічний жарт — «Коли виникає проблема з мережею, це завжди DNS» — знову виявився правдивим.

Хоча інженери швидко усунули проблему з DNS, інші сервіси AWS почали давати збої, залишаючи платформу неповноцінною. Наступна велика проблема виникла, коли перевірки працездатності AWS Network Load Balancer почали ламатися, спричиняючи збої в інших сервісах. Коли збій поширювався, панель стану сервісів AWS підтвердила, що постраждали 28 різних сервісів AWS, спричинивши масові уповільнення та тайм-аути в хмарних операціях.

Наслідки поширилися на критичні сектори, вивівши з ладу доступ до великих споживчих платформ, таких як Snapchat, Ring, Alexa, Roblox і Hulu, а також фінансових і AI-сервісів на кшталт Coinbase, Robinhood і Perplexity. Навіть Amazon.com і Prime Video зазнали часткових збоїв.

У Великій Британії та ЄС великі банки, включно з Lloyds Banking Group, та деякі урядові сайти також вийшли з ладу, оскільки порушення поширилося за межі Північної Америки.

За даними DownForEveryoneOrJustForMe, тисячі користувачів почали повідомляти про проблеми відразу після 03:00 за східним часом. До полудня лише для Amazon зареєстрували понад 14 000 звітів про збої. Системи розумного дому, що працюють на AWS, такі як дверні дзвінки Ring і пристрої з Alexa, перестали функціонувати або втратили підключення, підкресливши глибоку залежність багатьох домогосподарств і компаній від хмари Amazon.

Дані Downdetector також показали масштаби збою AWS. Протягом перших двох годин надійшло понад 1 мільйон звітів зі США, за ними — 400 000 з Великої Британії. До полудня загальна кількість глобальних звітів перевищила 8,1 мільйона, з них 1,9 мільйона зі США та 1 мільйон з Великої Британії.

Соціальні мережі заповнилися скаргами користувачів і спекуляціями, коли збої каскадом поширилися на роздрібну торгівлю, стрімінг, ігри та фінансові операції по всьому світу. Виявилося, що без інтернету ми не щасливі. Хто б міг подумати?

Проблему пом’якшено, але відновлення йде повільно

Інженери AWS спочатку повідомили, що «працюють над кількома паралельними шляхами прискорення відновлення», зосереджуючи розслідування на помилках мережевих шлюзів у регіоні Східного узбережжя США.

- Advertisement -

Пізніше Amazon повідомила, що збій усунуто о 06:35 за східним часом, хоча такі сервіси, як Ring і Chime, все ще повільно відновлювалися. Проте станом на 13:03 за східним часом у понеділок AWS ще не повністю відновився.

«Ми продовжуємо застосовувати заходи з пом’якшення проблеми зі станом балансувальника мережевого навантаження та відновлюємо підключення для більшості сервісів AWS», — повідомила компанія. «Lambda зазнає помилок виклику функцій, оскільки внутрішня підсистема постраждала від перевірок працездатності балансувальника мережевого навантаження. Ми вживаємо заходів для відновлення цієї внутрішньої системи Lambda. Щодо помилок запуску інстансів EC2 — ми перевіряємо виправлення та застосуємо його до першої зони доступності, як тільки переконаємося, що можемо зробити це безпечно».

Downdetector повідомив, що зареєстрував понад 6,5 мільйона звітів для понад 1000 залежних сервісів станом на 00:30 за британським літнім часом. Дані показали, що понад 2000 компаній зазнали порушень, причому близько 280 все ще були під впливом станом на пізній ранок.

Люк Кехо, галузевий аналітик Ookla, зазначив, що синхронізована картина по сотнях сервісів вказує на «збій основної хмарної інфраструктури, а не на ізольовані збої додатків». Він підкреслив важливість стійкості та рекомендував організаціям розподіляти робоче навантаження між кількома регіонами, щоб зменшити вплив майбутніх збоїв.

Деніел Рамірес, директор продукту Downdetector by Ookla, додав, що такі масштабні збої трапляються рідко, але можуть ставати частішими, оскільки компанії дедалі більше централізують критичні дані й операції на єдиному хмарному провайдері.

«Такий тип збою, коли фундаментальний інтернет-сервіс виводить з ладу велику кількість онлайн-сервісів, трапляється лише кілька разів на рік», — сказав Рамірес. «Вони, ймовірно, стають трохи частішими, оскільки компанії повністю покладаються на хмарні сервіси, а їхні архітектури даних розроблені так, щоб максимально використовувати конкретну хмарну платформу».

Маріюс Брідіс, технічний директор NordVPN, прокоментував: «Такі збої підкреслюють серйозну проблему: деякі з найбільших світових компаній часто покладаються на ту саму цифрову інфраструктуру, а це означає, що коли падає одна доміно, падають усі».

І цього разу це безумовно підтвердилося.

Для користувачів, які все ще мають проблеми з розв’язанням кінцевих точок сервісу DynamoDB у US-East-1, Amazon рекомендувала очистити кеш DNS. «Основну проблему DNS повністю усунуто, і більшість операцій AWS-сервісів тепер виконуються нормально», — повідомила Amazon. «Деякі запити можуть бути обмежені, поки ми працюємо над повним вирішенням проблеми».

Очікується, що найближчими днями Amazon оприлюднить детальний посмертний аналіз того, що саме пішло не так.

- Advertisement -