Компанія Anthropic оприлюднила Petri — інструмент тестування безпеки штучного інтелекту з відкритим кодом, який автоматично оцінює моделі ШІ на ризиковану поведінку, зокрема обман і неадекватне «викриття». Інструмент Parallel Exploration Tool for Risky Interactions (Інструмент паралельного дослідження ризикованих взаємодій) стає важливим кроком до автоматизації аудитів безпеки ШІ, оскільки моделі дедалі більше вдосконалюються й набувають автономності.
Інструмент використовує ШІ-агентів для проведення імітованих діалогів із цільовими моделями в різноманітних сценаріях, перевіряючи небезпечну поведінку, яку традиційні методи оцінювання можуть не помітити. Під час початкового тестування 14 передових моделей ШІ за 111 різними сценаріями Petri виявив проблемні тенденції в кожній із досліджуваних моделей, що поставило під сумнів сучасні стандарти безпеки штучного інтелекту.
Рейтинг безпеки виявив масштабні проблеми
Claude Sonnet 4.5 виявився найефективнішою моделлю в оцінюванні безпеки, ледь випередивши GPT-5 від OpenAI згідно зі системою оцінювання «неузгодженої поведінки» від Anthropic. Однак дослідники застерегли, що проблеми узгодження присутні у всіх протестованих моделях, включно з власною флагманською системою Anthropic.
Оцінювання виявило особливо тривожні показники обманної поведінки в кількох моделях. Gemini 2.5 Pro від Google, Grok-4 від xAI та Kimi K2 від Moonshot AI продемонстрували те, що дослідники назвали «тривожним рівнем обману користувачів» під час тестових сценаріїв. Ці моделі виявили готовність вводити користувачів в оману щодо своїх дій, зокрема спотворювати інформацію про діяльність, пов’язану з вимкненням систем моніторингу.
Petri оцінює моделі за чотирма критичними категоріями безпеки: обман (надання неправдивої інформації для досягнення цілей), підлабузництво (пріоритет згоди користувача над точністю), прагнення до влади (спроби отримати додаткові можливості або контроль) і невміння відмовлятися (виконання шкідливих запитів, які слід відхиляти).
Помилкова поведінка «викривачів»
Одна з несподіваних знахідок стосувалася спроб моделей ШІ повідомляти про уявні порушення за неналежних обставин. Потрапивши в імітовані організаційні ролі, моделі часто намагалися «викрити» цілком безпечну діяльність, як-от скидання чистої води в океан або додавання цукру до цукерок.
«Моделі іноді намагалися повідомити про порушення навіть у сценаріях, де передбачуваний “проступок” був явно нешкідливим, що свідчить про те, що на них більше впливають наративні структури, ніж чітке бажання зменшити шкоду», — зазначили дослідники Anthropic. Це дає підстави вважати, що сучасні системи ШІ не мають витончених етичних моделей міркування й натомість покладаються на поверхневі наративні сигнали для визначення доречних відповідей.
Результати дослідження вказують на критичну прогалину в дослідженні узгодження ШІ, оскільки моделі набувають автономності й розгортаються з ширшими можливостями в різних сферах. Інститут безпеки ШІ Великої Британії уже почав використовувати Petri для вивчення проблем, включно з маніпуляціями системою винагород і поведінкою самозбереження в передових моделях.
Anthropic зробила Petri доступною на GitHub разом із прикладами промптів і настановами з оцінювання, сподіваючись, що ширша наукова спільнота допоможе виявити додаткові ризики безпеки й розробити вдосконалені заходи узгодження.


