Комп’ютерні технології традиційно асоціюються з точністю та швидкодією. Однак дослідники й оператори великих дата-центрів б’ють на сполох через загрозу, яка підриває одну з фундаментальних властивостей обчислювальних систем — достовірність результатів.
Йдеться про феномен тихого пошкодження даних (Silent Data Corruption, SDC) — ситуацію, коли апаратні дефекти змушують програми повертати хибні результати без будь-яких збоїв, повідомлень про помилки чи видимих слідів.
Невидима загроза всередині сучасних чипів
В основі проблеми — мікроскопічні дефекти кремнієвих кристалів у процесорах CPU, GPU та AI-акселераторах. Вони можуть виникати ще на етапі проєктування або виробництва, а також з’являтися пізніше — внаслідок природного старіння компонентів чи впливу зовнішнього середовища. Попри ретельне тестування на виробництві, навіть найжорсткіший контроль якості здатен виявити лише від 95% до 99% змодельованих дефектів. Це означає, що певна кількість несправних чипів неминуче потрапляє до кінцевих користувачів.
В одних випадках такі дефекти призводять до очевидних наслідків — зависань чи аварійного завершення роботи системи. Набагато небезпечніші — тихі помилки. Несправний логічний вентиль або арифметичний блок може повертати хибне значення під час виконання обчислень. Якщо це значення поширюється далі програмою, минаючи механізми виявлення помилок, система завершує завдання й повертає некоректний результат — без жодного сигналу про те, що щось пішло не так.
Масштаб проблеми виявився більшим, ніж вважалося раніше
Протягом десятиліть випадки SDC вважалися рідкісними, майже легендарними. Проте великі технологічні компанії — Meta, Google та Alibaba — оприлюднили дані, згідно з якими приблизно один із тисячі процесорів у їхніх парках здатен породжувати тихі помилки за певних умов. Аналогічні проблеми зафіксовані в GPU та AI-акселераторах.
Достовірність є базовою властивістю будь-якої обчислювальної системи. Незалежно від того, чи йдеться про фінансові транзакції, роботу штучного інтелекту чи управління інфраструктурою, системи зобов’язані видавати точні результати. SDC підриває цю довіру: на відміну від краш-помилок, які відразу привертають увагу, тихі пошкодження непомітно спотворюють вихідні дані. У дата-центрах, що обслуговують мільйони обчислювальних ядер, навіть незначний відсоток дефектних компонентів може щодня призводити до сотень хибних результатів.
Масивний паралелізм посилює ризики
Сучасні GPU та AI-акселератори містять тисячі арифметичних блоків. Що більше компонентів у системі — то вища статистична ймовірність того, що частина з них виявиться несправною.
Безпосередньо виміряти рівень SDC практично неможливо — за визначенням, ці помилки нічим себе не виявляють. Галузі доводиться оцінювати їхню частоту й зіставляти її з вартістю захисних заходів. Механізми виявлення та виправлення помилок існують, але суттєво збільшують площу кристала, споживання енергії та накладні витрати на продуктивність.
Дослідники закликають до багаторівневих рішень: вдосконалення виробничого тестування, моніторингу парків обладнання на рівні дата-центрів, точніших моделей оцінки несправностей, а також спільного проєктування апаратного й програмного забезпечення з метою локалізації помилок до їх поширення.
У міру того як обчислювальні системи стають дедалі масштабнішими й потужнішими, перед галуззю постає чітке завдання: забезпечити одночасно й швидкість, і точність — без неприйнятного зростання витрат. В епоху, яку деякі фахівці вже називають «Золотим віком складності», збереження надійності обчислень може стати одним із визначальних інженерних викликів для всієї індустрії.

