Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Атака на ланцюг постачання: як зловмисники проникають через довірених партнерів
    Атака на ланцюг постачання: як зловмисники проникають через довірених партнерів
    3 дні тому
    DAEMON Tools підтвердили злам: інсталятори безкоштовної версії містили шкідливе ПЗ
    DAEMON Tools підтвердили злам: інсталятори безкоштовної версії містили шкідливе ПЗ
    4 дні тому
    Менеджер паролів Bitwarden атаковано через ланцюжок постачання: npm-пакет містив шкідливий код
    Менеджер паролів Bitwarden атаковано через ланцюжок постачання: npm-пакет містив шкідливий код
    2 тижні тому
    Apple усунула вразливість iOS, через яку ФБР відновило видалені повідомлення Signal
    Apple усунула вразливість iOS, через яку ФБР відновило видалені повідомлення Signal
    3 тижні тому
    Зловмисники маскуються під IT-підтримку в Microsoft Teams, щоб отримати доступ до корпоративних мереж
    Зловмисники маскуються під IT-підтримку в Microsoft Teams, щоб отримати доступ до корпоративних мереж
    3 тижні тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    1 рік тому
    placeholder
    “Гальмує” Windows? Є спосіб її пришвидшити
    8 місяців тому
    Двоетапна перевірка у месенджерах: як налаштувати?
    Двоетапна перевірка у месенджерах: як налаштувати?
    1 рік тому
    Останні новини
    Вібрації від мотоцикла можуть зіпсувати камеру смартфона: як уникнути пошкоджень
    5 днів тому
    Як захистити Apple Watch: 5 налаштувань, які варто перевірити просто зараз
    7 днів тому
    Як налаштувати спільний доступ до файлів та папок в iCloud Drive – ІНСТРУКЦІЯ
    1 тиждень тому
    Конфіденційність у сервісах Google: 7 ключових налаштувань, які варто перевірити
    2 тижні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    6 місяців тому
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    4 тижні тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    5 місяців тому
    Останні новини
    Тіньові SIM-ферми за лавиною шахрайських SMS: як працює «фабрика дзвінків» і як захиститися
    2 тижні тому
    Як кіберзлочинці взаємодіють між собою
    3 тижні тому
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    4 тижні тому
    Як ШІ перетворився на машину дезінформації — дослідження НАТО
    4 тижні тому
  • Огляди
    ОглядиПоказати ще
    Найкращі альтернативи AirPods у 2026 році: огляд моделей для Android, Windows та iOS
    Найкращі альтернативи AirPods у 2026 році: огляд моделей для Android, Windows та iOS
    3 тижні тому
    Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
    Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
    3 тижні тому
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    2 місяці тому
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    2 місяці тому
    Pluggable TBT5-AI — перший зовнішній GPU-корпус для запуску ШІ-моделей на ноутбуках
    Pluggable TBT5-AI — перший зовнішній GPU-корпус для запуску ШІ-моделей на ноутбуках
    2 місяці тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Дезінформація
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Сканер безпеки сайту
  • Архів
Читання: Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Сканер безпеки сайту
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Техногіганти / Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ

Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ

Техногіганти
7 місяців тому
Поширити
3 хв. читання
Anthropic випускає інструмент Petri, який виявив проблеми безпеки в усіх 14 протестованих моделях ШІ

Компанія Anthropic оприлюднила Petri — інструмент тестування безпеки штучного інтелекту з відкритим кодом, який автоматично оцінює моделі ШІ на ризиковану поведінку, зокрема обман і неадекватне «викриття». Інструмент Parallel Exploration Tool for Risky Interactions (Інструмент паралельного дослідження ризикованих взаємодій) стає важливим кроком до автоматизації аудитів безпеки ШІ, оскільки моделі дедалі більше вдосконалюються й набувають автономності.

Зміст
  • Рейтинг безпеки виявив масштабні проблеми
  • Помилкова поведінка «викривачів»

Інструмент використовує ШІ-агентів для проведення імітованих діалогів із цільовими моделями в різноманітних сценаріях, перевіряючи небезпечну поведінку, яку традиційні методи оцінювання можуть не помітити. Під час початкового тестування 14 передових моделей ШІ за 111 різними сценаріями Petri виявив проблемні тенденції в кожній із досліджуваних моделей, що поставило під сумнів сучасні стандарти безпеки штучного інтелекту.

Рейтинг безпеки виявив масштабні проблеми

Claude Sonnet 4.5 виявився найефективнішою моделлю в оцінюванні безпеки, ледь випередивши GPT-5 від OpenAI згідно зі системою оцінювання «неузгодженої поведінки» від Anthropic. Однак дослідники застерегли, що проблеми узгодження присутні у всіх протестованих моделях, включно з власною флагманською системою Anthropic.

Оцінювання виявило особливо тривожні показники обманної поведінки в кількох моделях. Gemini 2.5 Pro від Google, Grok-4 від xAI та Kimi K2 від Moonshot AI продемонстрували те, що дослідники назвали «тривожним рівнем обману користувачів» під час тестових сценаріїв. Ці моделі виявили готовність вводити користувачів в оману щодо своїх дій, зокрема спотворювати інформацію про діяльність, пов’язану з вимкненням систем моніторингу.

- Advertisement -

Petri оцінює моделі за чотирма критичними категоріями безпеки: обман (надання неправдивої інформації для досягнення цілей), підлабузництво (пріоритет згоди користувача над точністю), прагнення до влади (спроби отримати додаткові можливості або контроль) і невміння відмовлятися (виконання шкідливих запитів, які слід відхиляти).

Помилкова поведінка «викривачів»

Одна з несподіваних знахідок стосувалася спроб моделей ШІ повідомляти про уявні порушення за неналежних обставин. Потрапивши в імітовані організаційні ролі, моделі часто намагалися «викрити» цілком безпечну діяльність, як-от скидання чистої води в океан або додавання цукру до цукерок.

«Моделі іноді намагалися повідомити про порушення навіть у сценаріях, де передбачуваний “проступок” був явно нешкідливим, що свідчить про те, що на них більше впливають наративні структури, ніж чітке бажання зменшити шкоду», — зазначили дослідники Anthropic. Це дає підстави вважати, що сучасні системи ШІ не мають витончених етичних моделей міркування й натомість покладаються на поверхневі наративні сигнали для визначення доречних відповідей.

Результати дослідження вказують на критичну прогалину в дослідженні узгодження ШІ, оскільки моделі набувають автономності й розгортаються з ширшими можливостями в різних сферах. Інститут безпеки ШІ Великої Британії уже почав використовувати Petri для вивчення проблем, включно з маніпуляціями системою винагород і поведінкою самозбереження в передових моделях.

Anthropic зробила Petri доступною на GitHub разом із прикладами промптів і настановами з оцінювання, сподіваючись, що ширша наукова спільнота допоможе виявити додаткові ризики безпеки й розробити вдосконалені заходи узгодження.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicPetriдослідженняШтучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Google дарує українським студентам безкоштовний доступ до Gemini AI Pro на рік Google дарує українським студентам безкоштовний доступ до Gemini AI Pro на рік
Наступна стаття Телефон з відкритим вихідним кодом LibrePhone Телефон з відкритим вихідним кодом LibrePhone — наступний проєкт Free Software Foundation

В тренді

Вібрації від мотоцикла можуть зіпсувати камеру смартфона: як уникнути пошкоджень
Вібрації від мотоцикла можуть зіпсувати камеру смартфона: як уникнути пошкоджень
5 днів тому
Як захистити Apple Watch: 5 налаштувань, які варто перевірити просто зараз
Як захистити Apple Watch: 5 налаштувань, які варто перевірити просто зараз
7 днів тому
iOS 26.5 принесе наскрізне шифрування для RCS-листування між iPhone та Android
iOS 26.5 принесе наскрізне шифрування для RCS-листування між iPhone та Android
6 днів тому
DAEMON Tools підтвердили злам: інсталятори безкоштовної версії містили шкідливе ПЗ
DAEMON Tools підтвердили злам: інсталятори безкоштовної версії містили шкідливе ПЗ
4 дні тому
Атака на ланцюг постачання: як зловмисники проникають через довірених партнерів
Атака на ланцюг постачання: як зловмисники проникають через довірених партнерів
3 дні тому

Рекомендуємо

OpenAI запустила GPT-5.4-Cyber — AI-модель для кібербезпеки з послабленими обмеженнями
Техногіганти

OpenAI запустила GPT-5.4-Cyber — ШІ-модель для кібербезпеки з послабленими обмеженнями

4 тижні тому
Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв
Кібербезпека

Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв

4 тижні тому
Понад 70 організацій вимагають від Meta відмовитися від розпізнавання облич у смарт-окулярах
Техногіганти

Понад 70 організацій вимагають від Meta відмовитися від розпізнавання облич у смарт-окулярах

4 тижні тому
Як ШІ перетворився на машину дезінформації — дослідження НАТО
Статті

Як ШІ перетворився на машину дезінформації — дослідження НАТО

4 тижні тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?