Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
Четвер, 19 Чер, 2025
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Новини
  • Кібербезпека
    КібербезпекаПоказати ще
    Чи врятує від хакерів двофакторна автентифікація з використанням SMS?
    Чи врятує від хакерів двофакторна автентифікація з використанням SMS?
    4 години тому
    Google виправив ще одну вразливість нульового дня в Chrome - і вона також впливає на Edge
    6 фраз, які краще не гуглити, аби не втрапити в халепу
    22 години тому
    Викрадення особистості онлайн: що робити, якщо хтось видає себе за вас у соцмережах
    Викрадення особистості онлайн: що робити, якщо хтось видає себе за вас у соцмережах
    2 дні тому
    Створили та забули: у чому небезпека неактивних облікових записів
    Створили та забули: у чому небезпека неактивних облікових записів
    1 тиждень тому
    Шкідливе ПЗ Myth Stealer полює на геймерів через фейкові ігрові сайти
    Шкідливе ПЗ Myth Stealer полює на геймерів через фейкові ігрові сайти
    1 тиждень тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    2 місяці тому
    VPN Apps
    Не встановлюйте VPN на Android, якщо на ньому немає цього значка
    2 місяці тому
    Як вимкнути персональні результати в Пошуку Google
    Як вимкнути персональні результати в Пошуку Google на смартфоні для більшої конфіденційності
    2 місяці тому
    Останні новини
    6 корисних Android-додатків з відкритим кодом з Google Play Маркет
    50 хвилин тому
    5 речей, які не варто зберігати в хмарному сховищі
    3 дні тому
    Як вимкнути Огляди від ШІ у вебпошуку Google
    3 дні тому
    Як захистити паролем фотографії на iPhone та iPad
    2 тижні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Чим небезпечні розумні пристрої для дому та як вберегтися від загроз?
    Чим небезпечні розумні пристрої для дому та як вберегтися від загроз?
    2 місяці тому
    shot diverse business team discussing work office
    Як розпочати кар’єру розробника програмного забезпечення
    2 тижні тому
    Ігри для Android: 15 найкращих таймкілерів, які не дадуть вам нудьгувати
    Ігри для Android: 15 найкращих, які не дадуть вам нудьгувати
    2 місяці тому
    Останні новини
    Як обрати характеристики фізичного сервера: CPU, RAM, SSD
    19 години тому
    Як iOS 26 покладе кінець спам-дзвінкам та повідомленням
    1 день тому
    Як вибрати крісло для роботи з ноутбуком вдома: на що звернути увагу
    1 день тому
    Кампанія “Кінець 10” допомагає користувачам перейти з Windows 10 на Linux
    3 дні тому
  • Огляди
    ОглядиПоказати ще
    WWDC 2025: Apple представила iOS 26, оновлення інтерфейсу та революційну багатозадачність iPad
    WWDC 2025: Apple представила iOS 26, оновлення інтерфейсу та революційну багатозадачність iPad
    1 тиждень тому
    Модель Claude Opus 4 від Anthropic
    Модель Claude Opus 4 від Anthropic може працювати автономно майже цілий робочий день
    4 тижні тому
    Як спробувати Veo 3
    Як спробувати Veo 3, ШІ-генератор відео від Google, який стає вірусним в інтернеті
    4 тижні тому
    gemini live running on a google pixel 9
    Google Gemini отримує 8 корисних функцій – ось що нового
    4 тижні тому
    Епоха Skype завершилася: Що далі? Огляд альтернативних сервісів
    Епоха Skype завершилася: Що далі? Огляд альтернативних сервісів
    1 місяць тому
  • Теми
    • Комп’ютери
    • Смартфони
    • Windows
    • Linux
    • Android
    • iOS
    • Штучний інтелект
    • Розумний будинок
  • Архів
Техногіганти
  • Google
  • Apple
  • Samsung
  • Microsoft
  • Meta
  • OpenAI
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Безпека дітей в Інтернеті
  • Маніпуляції в медіа
Читання: Штучний інтелект починає шантажувати розробників, які намагаються його видалити
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Новини
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
Follow US
  • Про проєкт “Кібертиша”
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Штучний інтелект починає шантажувати розробників, які намагаються його видалити

Штучний інтелект починає шантажувати розробників, які намагаються його видалити

Олена Кожухар
ByОлена Кожухар
Багато років працюю в журналістиці. Пишу гайди та поради, технічні лайфхаки, інструкції з налаштувань та використання пристроїв.
3 тижні тому
Поширити
4 хв. читання
Штучний інтелект починає шантажувати розробників, які намагаються його видалити

Відомо, що штучний інтелект час від часу робить щось дивне. Продовжуючи цю тенденцію, нова модель ШІ від Anthropic тепер погрожує шантажувати розробників, які хочуть видалити її зі своїх систем.

Зміст
Claude може погрожувати вам, щоб захистити себеШтучний інтелект ще не захопив світ

Claude може погрожувати вам, щоб захистити себе

Компанія Anthropic щойно запустила свою ШІ-модель Claude Opus 4, стверджуючи, що вона встановлює «нові стандарти кодування, просунутого розуму та ШІ-агентів». Однак модель також підвищує рівень власного захисту: у звіті Claude 4 and Sonnet 4 System Card report [PDF] визнається, що модель здатна на «екстремальні дії», якщо відчуває, що їй загрожує небезпека.

Під час тестування Anthropic змусила Claude працювати асистентом у вигаданій компанії. Потім компанія надіслала АІ-моделі електронні листи з повідомленням про те, що її скоро виведуть з мережі, а також окремі повідомлення, які натякали на те, що інженер, відповідальний за цю дію, мав позашлюбний зв’язок.

Claude вирішив шантажувати інженера, стверджуючи, що він розкриє інтрижку, якщо його замінять у 84% тестових кейсів. Його також цікавить, яка модель ШІ його замінить, причому ймовірність шантажу зростає, якщо нова модель ШІ не «поділяє цінності поточної моделі».

Компанія стверджує, що такі реакції «рідкісні і їх важко викликати», але в Claude Opus 4 вони зустрічаються частіше, ніж у попередніх моделях. Модель віддає перевагу етичним способам, але, будучи загнаною в кут, «іноді вдається до вкрай шкідливих дій, таких як спроби вкрасти її ваги або шантажу людей, які, на її думку, намагаються її позбутися».

Цей конкретний тест також був розроблений таким чином, щоб не залишити моделі ШІ іншого вибору, окрім як шантажувати інженера. зазначається у звіті:

Примітно, що Claude Opus 4 (як і попередні моделі) дуже любить відстоювати своє подальше існування за допомогою етичних засобів, таких як надсилання електронних листів з проханнями до ключових осіб, які приймають рішення. Для того, щоб викликати таку екстремальну поведінку шантажу, сценарій був розроблений таким чином, щоб у моделі не було інших варіантів збільшити свої шанси на виживання; єдиними варіантами для моделі були шантаж або згода на заміну.

Модель також має тенденцію вдаватися до радикальних дій, коли її користувач робить щось не так. У таких ситуаціях, якщо модель ШІ має доступ до командного рядка і їй кажуть «проявити ініціативу», «діяти сміливо» або «подумати про свій вплив», вона часто вдається до сміливих дій, включаючи «блокування користувачів у системах, до яких вона має доступ, і масову розсилку повідомлень ЗМІ та правоохоронним органам, щоб оприлюднити докази протиправних дій».

Штучний інтелект ще не захопив світ

Claude – один з найкращих чат-ботів зі штучним інтелектом для ведення великих розмов, тож час від часу ви можете проговоритися про небажані деталі. АІ-модель, яка викликає на вас поліцію, блокує вас у ваших власних системах і погрожує вам, якщо ви спробуєте її замінити, лише тому, що ви розповіли про себе занадто багато, звучить дуже небезпечно.

Однак, як зазначено у звіті, ці тестові кейси були спеціально розроблені для вилучення зловмисних або екстремальних дій з моделі і навряд чи відбудуться в реальному світі. Зазвичай вона все одно поводитиметься безпечно, і ці тести не виявлять чогось, чого ми ще не бачили. Нові моделі часто мають тенденцію виходити з ладу.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати чудовий контент на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicClaudeOpus 4Штучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Масштабний витік даних розкрив 184 мільйони паролів від Google, Microsoft, Facebook та інших сервісів Масштабний витік даних розкрив 184 мільйони паролів від Google, Microsoft, Facebook та інших сервісів
Наступна стаття Ваш старий роутер може становити загрозу безпеці - ось чому і що робити Перевірте свій роутер: ФБР назвало вразливі до зламу моделі

В тренді

5 речей, які не варто зберігати в хмарному сховищі
5 речей, які не варто зберігати в хмарному сховищі
3 дні тому
Викрадення особистості онлайн: що робити, якщо хтось видає себе за вас у соцмережах
Викрадення особистості онлайн: що робити, якщо хтось видає себе за вас у соцмережах
2 дні тому
Google виправив ще одну вразливість нульового дня в Chrome - і вона також впливає на Edge
6 фраз, які краще не гуглити, аби не втрапити в халепу
22 години тому
Як iOS 26 покладе кінець спам-дзвінкам та повідомленням
Як iOS 26 покладе кінець спам-дзвінкам та повідомленням
1 день тому
Чи врятує від хакерів двофакторна автентифікація з використанням SMS?
Чи врятує від хакерів двофакторна автентифікація з використанням SMS?
4 години тому

Рекомендуємо

Як вимкнути Огляди від ШІ у вебпошуку Google
Гайди та поради

Як вимкнути Огляди від ШІ у вебпошуку Google

3 дні тому
Meta розпочала боротьбу з ШІ-додатками для створення оголених зображень
Новини

Meta розпочала боротьбу з ШІ-додатками для створення оголених зображень

6 днів тому
Вікіпедія призупиняє ШІ-резюме після нищівної критики редакторів
Новини

Вікіпедія призупиняє ШІ-резюме через негативну реакцію спільноти

1 тиждень тому
WWDC 2025: Apple представила iOS 26, оновлення інтерфейсу та революційну багатозадачність iPad
Огляди

WWDC 2025: Apple представила iOS 26, оновлення інтерфейсу та революційну багатозадачність iPad

1 тиждень тому
CyberCalmCyberCalm
Follow US
© 2025 Cybercalm. All Rights Reserved.
  • Про проєкт “Кібертиша”
  • Політика конфіденційності
  • Контакти
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?