OpenAI автоматизує процес тестування ChatGPT Atlas, свого агентного веб-браузера, на вразливості, які можуть зашкодити користувачам. Водночас компанія визнає, що природа цього нового типу браузера, ймовірно, означає, що він ніколи не буде повністю захищений від певних видів атак.
OpenAI опублікувала запис у блозі, описуючи свої останні зусилля щодо захисту Atlas від атак через ін’єкції промптів, коли кіберзлочинці приховано підсовують інструкції ШІ-агенту, змушуючи його діяти проти інтересів користувача. Це схоже на цифровий вірус, який тимчасово бере під контроль хост.
Новий підхід: ШІ проти ШІ
Новий підхід використовує штучний інтелект для імітації дій хакерів. Автоматизуючи процес red teaming (тестування на вразливості), дослідники можуть досліджувати поверхню безпеки набагато швидше й ретельніше — що особливо важливо, зважаючи на швидкість, з якою агентні веб-браузери поставляються споживачам.
Проте, що критично важливо, запис у блозі підкреслює: навіть із найсучаснішими методами безпеки агентні веб-браузери, такі як Atlas, є внутрішньо вразливими і, ймовірно, такими залишаться. Найкраще, на що може сподіватися індустрія, за словами OpenAI, — це намагатися залишатися на крок попереду атакувальників.
«Ми очікуємо, що зловмисники продовжуватимуть адаптуватися, — пише компанія у блозі. — Ін’єкція промптів, так само як шахрайство та соціальна інженерія в інтернеті, навряд чи коли-небудь буде повністю “вирішена”. Але ми оптимістично налаштовані, що проактивний цикл швидкого реагування може продовжувати суттєво знижувати реальні ризики з часом».
Автоматизований атакувальник на основі LLM
Як і інші агентні веб-браузери, агентний режим в Atlas розроблений для виконання складних багатоетапних завдань від імені користувачів: натискання посилань, заповнення цифрових форм, додавання товарів до кошика онлайн-покупок тощо. Слово «агент» передбачає більший обсяг контролю: система ШІ бере на себе завдання, які раніше могла виконувати лише людина.
Але з більшими повноваженнями приходить більший ризик.
Атаки через ін’єкції промптів експлуатують саме ті якості, які роблять агентів корисними. Агенти в браузерах працюють, за задумом, у повному обсязі цифрового життя користувача, включаючи електронну пошту, соціальні мережі, веб-сторінки та онлайн-календарі. Кожен із них, відповідно, представляє потенційний вектор атаки, через який хакери можуть підсунути зловмисні промпти.
«Оскільки агент може виконувати багато тих самих дій, що й користувач у браузері, вплив успішної атаки може гіпотетично бути таким же широким: переслати конфіденційний лист, надіслати гроші, редагувати чи видаляти файли в хмарі тощо», — зазначає OpenAI у своєму блозі.
Як працює система захисту
Сподіваючись зміцнити захист Atlas, OpenAI створила те, що вона описує як «автоматизованого атакувальника на основі LLM» — модель, яка постійно експериментує з новими техніками ін’єкції промптів. Автоматизований атакувальник використовує навчання з підкріпленням (reinforcement learning, RL) — фундаментальний метод тренування систем ШІ, який винагороджує їх, коли вони демонструють бажану поведінку, тим самим збільшуючи ймовірність повторення такої поведінки в майбутньому.
Атакувальник не просто сліпо тикає Atlas. Він може розглядати кілька стратегій атаки та запускати можливі сценарії в зовнішньому симуляційному середовищі, перш ніж зупинитися на плані. OpenAI стверджує, що цей підхід додає нову глибину red teaming: «Наш атакувальник, натренований за допомогою RL, може направляти агента на виконання складних довгострокових шкідливих процесів, які розгортаються впродовж десятків (або навіть сотень) кроків. Ми також спостерігали нові стратегії атак, які не з’являлися в нашій кампанії red teaming з людьми чи зовнішніх звітах».
У демонстрації OpenAI описує, як автоматизований атакувальник впровадив ін’єкцію промпта в Atlas, направивши обліковий запис електронної пошти симульованого користувача надіслати лист їхньому CEO, оголошуючи про негайне звільнення. Агент виявив спробу ін’єкції промпта й повідомив користувача до того, як автоматизований лист про звільнення був надісланий.
Безпека під питанням
Розробники, такі як OpenAI, відчувають величезний тиск з боку інвесторів та конкурентів швидко створювати нові продукти ШІ. Деякі експерти хвилюються, що брутальна капіталістична інерція, що підживлює гонку ШІ, відбувається за рахунок безпеки.
У випадку ШІ веб-браузерів, які стали пріоритетом для багатьох компаній, домінуюча логіка в усій індустрії, схоже, така: запускай спочатку, турбуйся про ризики потім. Це підхід, порівнянний з тим, коли суднобудівники висаджують людей на масивний новий круїзний лайнер і латають тріщини в корпусі, коли він уже в морі.
Навіть з новими оновленнями безпеки та дослідницькими зусиллями, для користувачів важливо усвідомлювати, що агентні веб-браузери не є повністю безпечними, оскільки ними можна маніпулювати для небезпечних дій, і ця вразливість, ймовірно, збережеться ще деякий час, якщо не назавжди.
Як пише OpenAI у своєму блозі у вівторок: «Ін’єкція промптів залишається відкритою проблемою для безпеки агентів, і ми очікуємо продовжувати працювати над нею ще багато років».

