Минулого тижня Amazon Web Services (AWS) вийшов з ладу, і багато з нас були не в захваті. Цього тижня настала черга Microsoft Azure впасти та вибухнути, і знову ми дуже незадоволені цією ситуацією.
Microsoft повідомила, що останній збій Azure розпочався приблизно о 18:00 за київським часом 29 жовтня. Однак Downdetector, який спирається на звіти користувачів, зафіксував проблеми раніше — близько 17:40.
ThousandEyes, компанія Cisco з мережевої безпеки, «виявила тайм-аути HTTP, коди помилок сервера та підвищену втрату пакетів на межі мережі Microsoft, що унеможливлювало успішне підключення до постраждалих сервісів».
Останнє оновлення статусу
О 23:30 за київським часом 29 жовтня Microsoft повідомила: «Ми розпочали розгортання нашої останньої працездатної конфігурації, яке тепер успішно завершено. Зараз ми відновлюємо вузли та перенаправляємо трафік через справні вузли».
Однак Microsoft застерегла: «У міру відновлення деякі запити все ще можуть потрапляти на несправні вузли, що призводить до тимчасових збоїв або зниженої доступності, доки більше вузлів не буде повністю відновлено. Цей процес передбачає перезавантаження конфігурацій та перебалансування трафіку великої кількості вузлів. Процес є поступовим за задумом, щоб забезпечити стабільність і запобігти перевантаженню під час відновлення залежних сервісів».
Компанія очікувала повного відновлення до 01:20 за київським часом 30 жовтня. Насправді це зайняло трохи більше часу. Azure повідомила про повернення до нормального режиму о 02:05 30 жовтня. Навіть тоді Microsoft попередила, що зміни клієнтських конфігурацій Azure Front Door (AFD) залишаться тимчасово заблокованими.
Відстеження помилкового розгортання
Остаточного звіту про те, що сталося, ми досі не маємо. Спочатку Microsoft лише повідомила: «Починаючи приблизно з 18:00 за київським часом, ми почали відчувати проблеми з Azure Front Door (AFD). Ненавмисна зміна конфігурації в AFD спричинила масштабний збій сервісу, що вплинув як на сервіси Microsoft, так і на клієнтські додатки, які залежать від AFD для глобальної доставки контенту».
Зміна спричинила недійсний стан конфігурації, що, в свою чергу, призвело до збою значної кількості вузлів AFD при завантаженні, включно зі збільшенням затримок, тайм-аутів та помилок підключення для нижчих сервісів.
У міру того, як несправні вузли випадали з глобального пулу, розподіл трафіку між справними вузлами ставав незбалансованим, посилюючи вплив та спричиняючи переривчасту доступність навіть у частково справних регіонах.
Проблему відстежено до помилкового процесу розгортання конфігурації клієнта. «Наші механізми захисту для перевірки та блокування помилкових розгортань не спрацювали через програмний дефект, який дозволив розгортанню обійти перевірки безпеки», — зазначила компанія.
Хоча про це не згадується в документі, ранні звіти Azure частково звинувачували — вгадайте що! — проблему DNS (системи доменних імен). Скажімо це разом: коли виникає проблема з мережею, «Це завжди DNS!»
Які сайти та сервіси постраждали?
Біль відчули й звичайні користувачі. Популярні сервіси, такі як Microsoft 365 та Microsoft Intune для бізнес-користувачів, а також Xbox Live та Minecraft для тих, хто просто хотів розважитися, також були недоступні. Інші повідомляли, що вхід у систему Microsoft також уповільнився або повністю не працював.
Постраждали такі сервіси:
- Microsoft 365
- Microsoft Azure
- Microsoft Copilot
- Microsoft Entra
- Microsoft Store
- Microsoft Teams
- Minecraft
- Xbox
Це був поганий день для тих, хто покладався на Microsoft.
Alaska Airlines зазнала переривань у роботі критичних внутрішніх систем, включно з веб-сайтом та операційною інфраструктурою. Vodafone у Великій Британії та аеропорт Хітроу також постраждали від збою.
За лаштунками Microsoft тепер повідомляє, що постраждали такі сервіси Azure: App Service, Azure Active Directory B2C, Azure Communication Services, Azure Databricks, Azure Healthcare APIs, Azure Maps, Azure Portal, Azure SQL Database, Container Registry, Media Services, Microsoft Defender External Attack Surface Management, Microsoft Entra ID, Microsoft Purview, Microsoft Sentinel, Video Indexer та Virtual Desktop.
Ризики централізації
Раніше аналітик телекомунікацій Ookla Люк Кехо заявив: «Microsoft Azure вивів з ладу багато сервісів у всьому світі, з широким радіусом ураження авіакомпаній, банків та урядових установ. Це друга така подія цього місяця, що підкреслює системні ризики концентрації та єдиних точок логічного відмовлення, незалежно від того, наскільки фізично посилена інфраструктура».
Він має рацію. Ми занадто сильно покладаємось на AWS, Azure та інші хмарні сервіси, які, коли справа доходить до труднощів, виявляються єдиними точками відмови.
Як би там не було, у своєму останньому квартальному звіті, який вийшов після закриття торгів того ж дня, Microsoft повідомила, що перевершила прогнози Уолл-стріт, а дохід Azure зріс приблизно на 40%. Проте через цей збій та визнання Microsoft про неспроможність задовольнити попит на ШІ та хмарні технології, акції компанії впали в позабіржовій торгівлі.


