Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Новини
  • Кібербезпека
    КібербезпекаПоказати ще
    Чи варто довіряти Grokipedia? Науковці оцінили AI-енциклопедію Ілона Маска
    Чи варто довіряти Grokipedia? Науковці оцінили AI-енциклопедію Ілона Маска
    16 години тому
    Що таке комп'ютер зі штучним інтелектом
    Введіть цю фразу в пошук — і знайдете конфіденційні корпоративні документи в інтернеті
    19 години тому
    Дослідники виявили GhostCall та GhostHire: нові ланцюги шкідливого ПЗ BlueNoroff
    Дослідники виявили GhostCall та GhostHire: нові ланцюги шкідливого ПЗ BlueNoroff
    4 дні тому
    Чи зроблять нові оновлення ChatGPT безпечнішим для психічного здоров'я
    Чи зроблять нові оновлення ChatGPT безпечнішим для психічного здоров’я?
    4 дні тому
    Apple Pay проти Google Pay: хто краще захищає ваші гроші?
    Apple Pay проти Google Pay: хто краще захищає ваші гроші?
    5 днів тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    6 місяців тому
    Google Takeout: як отримати доступ до своїх даних з усіх сервісів Google
    Google Takeout: як отримати доступ до своїх даних з усіх сервісів Google
    7 місяців тому
    Як заборонити запуск потенційно небезпечних файлів .exe?
    Як заборонити запуск потенційно небезпечних файлів .exe у Windows? – ІНСТРУКЦІЯ
    6 місяців тому
    Останні новини
    Як виявити програми для стеження на вашому ноутбуці
    5 днів тому
    Чорний екран смерті на Windows: 7 кроків для виправлення проблеми
    1 тиждень тому
    Як очистити кеш на телевізорі (і навіщо це робити)
    1 тиждень тому
    Повільний інтернет вдома? 3 речі, які потрібно перевірити першими для швидшого Wi-Fi
    2 тижні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Ключі захисту Інтернету
    Ключі захисту Інтернету: хто їх контролює та що станеться, якщо їх викрадуть?
    3 місяці тому
    Гра світла і тіней або що таке трасування променів (Ray Tracing)?
    Гра світла і тіней або що таке трасування променів (Ray Tracing)?
    7 місяців тому
    Наскільки шкідливі перебої в електропостачанні для моїх гаджетів?
    Наскільки шкідливі перебої в електропостачанні для моїх гаджетів?
    5 місяців тому
    Останні новини
    Microsoft Bob залишається найнезграбнішим продуктом компанії Microsoft
    1 день тому
    Windows 11 почне пропонувати сканування пам’яті після “синіх екранів смерті”
    6 днів тому
    Дослідження підтвердило: AI-чатботи надмірно підлабузницькі
    1 тиждень тому
    Як розумні гаджети можуть допомогти в офісному переїзді?
    2 тижні тому
  • Огляди
    ОглядиПоказати ще
    Surfshark та Proton VPN: порівняння кращих VPN-сервісів
    Surfshark та Proton VPN: порівняння кращих VPN-сервісів
    14 години тому
    clamav
    Антивірус, якому можна довіряти на Linux — і він безкоштовний
    7 днів тому
    Gemini Google Home плутає собак з котами, але покращує автоматизацію розумного дому
    Gemini Google Home плутає собак з котами, але покращує автоматизацію розумного дому
    2 тижні тому
    Донгл для ремонту телефону за $5: результати тестування розчаровують
    Донгл для ремонту телефону за $5: результати тестування розчаровують
    2 тижні тому
    Meta Ray-Ban Display Glasses: огляд розумних окулярів з дисплеєм
    Meta Ray-Ban Display Glasses: чи безпечні розумні окуляри від Meta?
    2 тижні тому
  • Теми
    • Комп’ютери
    • Смартфони
    • Windows
    • Linux
    • Android
    • iOS
    • Штучний інтелект
    • Розумний будинок
  • Архів
Техногіганти
  • Google
  • Apple
  • Samsung
  • Microsoft
  • Meta
  • OpenAI
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Безпека дітей в Інтернеті
  • Маніпуляції в медіа
Читання: Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Новини
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Новини / Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ

Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ

Наталя Зарудня
ByНаталя Зарудня
Головний редактор
Досвід роботи у галузі кібербезпеки понад 10 років. Пишу про штучний інтелект, соціальні мережі, історію технологій.
Слідкуйте:
4 тижні тому
Поширити
3 хв. читання
Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ

Компанія Anthropic оприлюднила Petri — інструмент тестування безпеки штучного інтелекту з відкритим кодом, який автоматично оцінює моделі ШІ на ризиковану поведінку, зокрема обман і неадекватне «викриття». Інструмент Parallel Exploration Tool for Risky Interactions (Інструмент паралельного дослідження ризикованих взаємодій) стає важливим кроком до автоматизації аудитів безпеки ШІ, оскільки моделі дедалі більше вдосконалюються й набувають автономності.

Зміст
  • Рейтинг безпеки виявив масштабні проблеми
  • Помилкова поведінка «викривачів»

Інструмент використовує ШІ-агентів для проведення імітованих діалогів із цільовими моделями в різноманітних сценаріях, перевіряючи небезпечну поведінку, яку традиційні методи оцінювання можуть не помітити. Під час початкового тестування 14 передових моделей ШІ за 111 різними сценаріями Petri виявив проблемні тенденції в кожній із досліджуваних моделей, що поставило під сумнів сучасні стандарти безпеки штучного інтелекту.

Рейтинг безпеки виявив масштабні проблеми

Claude Sonnet 4.5 виявився найефективнішою моделлю в оцінюванні безпеки, ледь випередивши GPT-5 від OpenAI згідно зі системою оцінювання «неузгодженої поведінки» від Anthropic. Однак дослідники застерегли, що проблеми узгодження присутні у всіх протестованих моделях, включно з власною флагманською системою Anthropic.

Оцінювання виявило особливо тривожні показники обманної поведінки в кількох моделях. Gemini 2.5 Pro від Google, Grok-4 від xAI та Kimi K2 від Moonshot AI продемонстрували те, що дослідники назвали «тривожним рівнем обману користувачів» під час тестових сценаріїв. Ці моделі виявили готовність вводити користувачів в оману щодо своїх дій, зокрема спотворювати інформацію про діяльність, пов’язану з вимкненням систем моніторингу.

- Advertisement -

Petri оцінює моделі за чотирма критичними категоріями безпеки: обман (надання неправдивої інформації для досягнення цілей), підлабузництво (пріоритет згоди користувача над точністю), прагнення до влади (спроби отримати додаткові можливості або контроль) і невміння відмовлятися (виконання шкідливих запитів, які слід відхиляти).

Помилкова поведінка «викривачів»

Одна з несподіваних знахідок стосувалася спроб моделей ШІ повідомляти про уявні порушення за неналежних обставин. Потрапивши в імітовані організаційні ролі, моделі часто намагалися «викрити» цілком безпечну діяльність, як-от скидання чистої води в океан або додавання цукру до цукерок.

«Моделі іноді намагалися повідомити про порушення навіть у сценаріях, де передбачуваний “проступок” був явно нешкідливим, що свідчить про те, що на них більше впливають наративні структури, ніж чітке бажання зменшити шкоду», — зазначили дослідники Anthropic. Це дає підстави вважати, що сучасні системи ШІ не мають витончених етичних моделей міркування й натомість покладаються на поверхневі наративні сигнали для визначення доречних відповідей.

Результати дослідження вказують на критичну прогалину в дослідженні узгодження ШІ, оскільки моделі набувають автономності й розгортаються з ширшими можливостями в різних сферах. Інститут безпеки ШІ Великої Британії уже почав використовувати Petri для вивчення проблем, включно з маніпуляціями системою винагород і поведінкою самозбереження в передових моделях.

Anthropic зробила Petri доступною на GitHub разом із прикладами промптів і настановами з оцінювання, сподіваючись, що ширша наукова спільнота допоможе виявити додаткові ризики безпеки й розробити вдосконалені заходи узгодження.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicPetriдослідженняШтучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Google дарує українським студентам безкоштовний доступ до Gemini AI Pro на рік Google дарує українським студентам безкоштовний доступ до Gemini AI Pro на рік
Наступна стаття Телефон з відкритим вихідним кодом LibrePhone Телефон з відкритим вихідним кодом LibrePhone — наступний проєкт Free Software Foundation

В тренді

Як виявити програми для стеження на вашому ноутбуці
Як виявити програми для стеження на вашому ноутбуці
5 днів тому
aaa
Cторонній брандмауер на Windows: Чи справді він потрібен?
7 днів тому
Чи зроблять нові оновлення ChatGPT безпечнішим для психічного здоров'я
Чи зроблять нові оновлення ChatGPT безпечнішим для психічного здоров’я?
4 дні тому
Windows 11 отримує нову функцію безпеки — Administrator Protection
Windows 11 отримує нову функцію безпеки — Administrator Protection
5 днів тому
clamav
Антивірус, якому можна довіряти на Linux — і він безкоштовний
7 днів тому

Рекомендуємо

Що таке комп'ютер зі штучним інтелектом
Кібербезпека

Введіть цю фразу в пошук — і знайдете конфіденційні корпоративні документи в інтернеті

19 години тому
Дослідження підтвердило: AI-чатботи надмірно підлабузницькі
Статті

Дослідження підтвердило: AI-чатботи надмірно підлабузницькі

1 тиждень тому
Клікджекінг: непереможний шкідливий код, який "краде" дані користувачів і заражає ПК
Кібербезпека

Клікджекінг: непереможний шкідливий код, який “краде” дані користувачів і заражає ПК

2 тижні тому
Стартап Flint створює автономні AI-сайти, що самостійно генерують контент без участі людини
Новини

Стартап Flint створює автономні AI-сайти, що самостійно генерують контент без участі людини

2 тижні тому
CyberCalmCyberCalm
Follow US
© 2025 Cybercalm. All Rights Reserved.
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?