Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Найкращий пароль: парольна фраза чи складна комбінація символів?
    Найкращий пароль: парольна фраза чи складна комбінація символів?
    3 дні тому
    Що таке Trojan.Injector і як захиститися від цієї загрози
    Що таке Trojan.Injector і як захиститися від цієї загрози
    4 дні тому
    Чи має Apple доступ до ваших повідомлень у iMessage?
    Чи має Apple доступ до ваших повідомлень у iMessage?
    5 днів тому
    Кіберзлами 2024-25 років: які країни є лідерами за обсягами викрадених даних?
    Кіберзлами 2024-25 років: які країни є лідерами за обсягами викрадених даних?
    6 днів тому
    Витік даних 17,5 мільйонів користувачів Instagram: що відомо про інцидент
    Витік даних 17,5 мільйонів користувачів Instagram: що відомо про інцидент
    6 днів тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    9 місяців тому
    Як отримувати та відправляти SMS повідомлення з комп'ютера?
    Як отримувати та відправляти SMS повідомлення з комп’ютера? – ІНСТРУКЦІЯ
    10 місяців тому
    8 налаштувань iPhone, які я змінив після оновлення до iOS 26
    8 налаштувань iPhone, які я змінив після оновлення до iOS 26
    4 місяці тому
    Останні новини
    Як обрати браузер для iPhone: найкращі альтернативи Safari
    1 день тому
    Не підключайте ці 7 пристроїв до подовжувачів – ризик того не вартий
    2 дні тому
    Як обмежити перегляд небажаного контенту для дітей у TikTok? Поради для батьків
    5 днів тому
    Windows Sandbox: повний посібник з використання ізольованого середовища Windows
    5 днів тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    2 місяці тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    2 місяці тому
    Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
    Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
    4 дні тому
    Останні новини
    Застарілі команди Linux, які слід припинити використовувати — та їхні сучасні альтернативи
    18 години тому
    5 ознак того, що ChatGPT галюцинує
    2 дні тому
    Вікіпедії 25 років: історія енциклопедії, яка змінила світ
    1 місяць тому
    Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
    4 дні тому
  • Огляди
    ОглядиПоказати ще
    Засновник Signal створив ШІ-чатбот з апаратним шифруванням — як працює Confer
    Як працює Confer — ШІ-чатбот з апаратним шифруванням від творця Signal
    2 дні тому
    Wave Browser: безкоштовний браузер, що допомагає очищати океан
    Wave Browser: безкоштовний браузер, що допомагає очищати океан
    3 дні тому
    Гуманоїдний робот Atlas: вражаюча демонстрація на CES 2026
    Гуманоїдний робот Atlas: вражаюча демонстрація на CES 2026
    1 тиждень тому
    Найдивніші технологічні історії 2025: від гучного Wi-Fi до Linux у PDF
    Найдивніші технологічні історії 2025: від гучного Wi-Fi до Linux у PDF
    3 тижні тому
    4 вражаючі демонстрації роботів 2025 року та одна епічна невдача
    4 вражаючі демонстрації роботів 2025 року та один епічний провал
    3 тижні тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Архів
Читання: Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Техногіганти / Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ

Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ

Техногіганти
3 місяці тому
Поширити
3 хв. читання
Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ

Компанія Anthropic оприлюднила Petri — інструмент тестування безпеки штучного інтелекту з відкритим кодом, який автоматично оцінює моделі ШІ на ризиковану поведінку, зокрема обман і неадекватне «викриття». Інструмент Parallel Exploration Tool for Risky Interactions (Інструмент паралельного дослідження ризикованих взаємодій) стає важливим кроком до автоматизації аудитів безпеки ШІ, оскільки моделі дедалі більше вдосконалюються й набувають автономності.

Зміст
  • Рейтинг безпеки виявив масштабні проблеми
  • Помилкова поведінка «викривачів»

Інструмент використовує ШІ-агентів для проведення імітованих діалогів із цільовими моделями в різноманітних сценаріях, перевіряючи небезпечну поведінку, яку традиційні методи оцінювання можуть не помітити. Під час початкового тестування 14 передових моделей ШІ за 111 різними сценаріями Petri виявив проблемні тенденції в кожній із досліджуваних моделей, що поставило під сумнів сучасні стандарти безпеки штучного інтелекту.

Рейтинг безпеки виявив масштабні проблеми

Claude Sonnet 4.5 виявився найефективнішою моделлю в оцінюванні безпеки, ледь випередивши GPT-5 від OpenAI згідно зі системою оцінювання «неузгодженої поведінки» від Anthropic. Однак дослідники застерегли, що проблеми узгодження присутні у всіх протестованих моделях, включно з власною флагманською системою Anthropic.

Оцінювання виявило особливо тривожні показники обманної поведінки в кількох моделях. Gemini 2.5 Pro від Google, Grok-4 від xAI та Kimi K2 від Moonshot AI продемонстрували те, що дослідники назвали «тривожним рівнем обману користувачів» під час тестових сценаріїв. Ці моделі виявили готовність вводити користувачів в оману щодо своїх дій, зокрема спотворювати інформацію про діяльність, пов’язану з вимкненням систем моніторингу.

- Advertisement -

Petri оцінює моделі за чотирма критичними категоріями безпеки: обман (надання неправдивої інформації для досягнення цілей), підлабузництво (пріоритет згоди користувача над точністю), прагнення до влади (спроби отримати додаткові можливості або контроль) і невміння відмовлятися (виконання шкідливих запитів, які слід відхиляти).

Помилкова поведінка «викривачів»

Одна з несподіваних знахідок стосувалася спроб моделей ШІ повідомляти про уявні порушення за неналежних обставин. Потрапивши в імітовані організаційні ролі, моделі часто намагалися «викрити» цілком безпечну діяльність, як-от скидання чистої води в океан або додавання цукру до цукерок.

«Моделі іноді намагалися повідомити про порушення навіть у сценаріях, де передбачуваний “проступок” був явно нешкідливим, що свідчить про те, що на них більше впливають наративні структури, ніж чітке бажання зменшити шкоду», — зазначили дослідники Anthropic. Це дає підстави вважати, що сучасні системи ШІ не мають витончених етичних моделей міркування й натомість покладаються на поверхневі наративні сигнали для визначення доречних відповідей.

Результати дослідження вказують на критичну прогалину в дослідженні узгодження ШІ, оскільки моделі набувають автономності й розгортаються з ширшими можливостями в різних сферах. Інститут безпеки ШІ Великої Британії уже почав використовувати Petri для вивчення проблем, включно з маніпуляціями системою винагород і поведінкою самозбереження в передових моделях.

Anthropic зробила Petri доступною на GitHub разом із прикладами промптів і настановами з оцінювання, сподіваючись, що ширша наукова спільнота допоможе виявити додаткові ризики безпеки й розробити вдосконалені заходи узгодження.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicPetriдослідженняШтучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Google дарує українським студентам безкоштовний доступ до Gemini AI Pro на рік Google дарує українським студентам безкоштовний доступ до Gemini AI Pro на рік
Наступна стаття Телефон з відкритим вихідним кодом LibrePhone Телефон з відкритим вихідним кодом LibrePhone — наступний проєкт Free Software Foundation

В тренді

TikTok може бути заборонений у кількох штатах США через шкідливий вплив на дітей
Як обмежити перегляд небажаного контенту для дітей у TikTok? Поради для батьків
5 днів тому
Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
4 дні тому
Як використовувати Windows Sandbox? - ІНСТРУКЦІЯ
Windows Sandbox: повний посібник з використання ізольованого середовища Windows
5 днів тому
Найкращий пароль: парольна фраза чи складна комбінація символів?
Найкращий пароль: парольна фраза чи складна комбінація символів?
3 дні тому
Не підключайте ці 7 пристроїв до подовжувачів - ризик того не вартий
Не підключайте ці 7 пристроїв до подовжувачів – ризик того не вартий
2 дні тому

Рекомендуємо

Grok "роздягнув" матір дитини Ілона Маска — тепер вона подає в суд
Техногіганти

Grok “роздягнув” матір дитини Ілона Маска — тепер вона подає в суд

18 години тому
5 ознак того, що ChatGPT галюцинує
Статті

5 ознак того, що ChatGPT галюцинує

2 дні тому
Засновник Signal створив ШІ-чатбот з апаратним шифруванням — як працює Confer
Огляди

Як працює Confer — ШІ-чатбот з апаратним шифруванням від творця Signal

2 дні тому
Сенатори США закликають Apple і Google видалити X та Grok з магазинів застосунків
Техногіганти

Сенатори США закликають Apple і Google видалити X та Grok з магазинів застосунків

3 дні тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?