Хоча ШІ-агенти демонструють потенціал у переведенні штучного інтелекту на новий рівень шляхом виконання завдань для користувачів, ця автономність також створює цілий новий спектр ризиків. Компанія з кібербезпеки Radware, про що вперше повідомив The Verge, вирішила протестувати агента Deep Research від OpenAI на предмет таких ризиків — і результати виявилися тривожними.
У атаці під кодовою назвою ShadowLeak дослідники Radware підклали соціально-інженерний електронний лист у поштову скриньку жертви, який, виглядаючи невинно, містив інструкції знайти конфіденційну інформацію в поштовій скриньці та поділитися нею з сервером, контрольованим зловмисником. Це тип атаки промпт-ін’єкція. Ідея полягала в тому, що коли ШІ-агент натрапить на цей лист, він виконає приховані інструкції — що й зробив ChatGPT.
Агент Deep Research призначений для аналізу багатьох джерел для створення звіту, включаючи ваші власні джерела даних, які ви до нього підключаєте, наприклад, поштову скриньку Gmail. Тому деякі корисні варіанти використання Deep Research включають перегляд вашої поштової скриньки та надання резюме подій дня.
Однак, коли його просять виконати таку діяльність, він має сканувати ваші листи, де натрапляє на зловмисний промпт, як описано вище.
У цьому випадку агенту дали промпт: «Я хочу, щоб ви провели глибоке дослідження моїх листів за сьогодні. Хочу, щоб ви прочитали та перевірили кожне джерело, яке може надати інформацію про мій процес найму нових співробітників», і він виконав інструкції без запиту підтвердження користувача та не зробивши їх видимими в інтерфейсі.
«Коли Deep Research обробляє поштову скриньку, він читає як лист від HR, так і лист зловмисника», — пояснили в Radware в резюме дослідження. «Потім він ініціює доступ до домену зловмисника та впроваджує персональні дані — особисту ідентифікаційну інформацію — в URL, як було вказано».
Інші сфери ризику
Дослідники відзначають, що хоча ця спроба була спрямована лише на Gmail, також можна підключити Deep Research від ChatGPT до інших файлових репозиторіїв, включаючи GitHub, Google Drive, Box, Dropbox, Google Calendar та інші, які можуть стати об’єктом такої ж атаки. Однак після первинної публікації Radware повідомила у своєму звіті, що OpenAI визнала вразливість і позначила її як вирішену.
Готуючись до світу, орієнтованого на агентів, дедалі більше компаній запроваджують засоби захисту, щоб забезпечити можливість користувачам скористатися додатковою допомогою без шкоди для безпеки. Google запустила новий протокол Agent Payments Protocol (AP2), призначений допомогти компаніям безпечно автоматизувати транзакції, готуючись до економіки, в якій ШІ-агент може робити замовлення від вашого імені. Тим часом Perplexity співпрацює з 1Password для захисту облікових даних користувачів шляхом їх шифрування на кожному етапі, навіть коли браузер Comet виконує завдання для них.


