Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Понад 116 000 систем Minecraft уражено шкідливим ПЗ WeedHack
    Понад 116 000 систем Minecraft уражено шкідливим ПЗ WeedHack
    12 години тому
    ШІ-помічник Meta дозволив хакерам легко захоплювати акаунти Instagram — навіть із двофакторною автентифікацією
    ШІ-помічник Meta дозволив хакерам легко захоплювати акаунти Instagram — навіть із двофакторною автентифікацією
    2 дні тому
    Хакери GreyVibe атакують Україну за допомогою ChatGPT і Gemini
    Хакери GreyVibe атакують Україну за допомогою ChatGPT і Gemini
    7 днів тому
    Китайська група кіберзлочинців Webworm атакує державні установи в Європі
    Китайська група кіберзлочинців Webworm атакує державні установи в Європі
    2 тижні тому
    Білоруська група кіберзлочинців FrostyNeighbor атакує українські державні установи
    Білоруська група кіберзлочинців FrostyNeighbor атакує українські державні установи
    3 тижні тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    1 рік тому
    Як керувати телефоном віддалено, якщо він залишився вдома
    Як керувати телефоном віддалено, якщо він залишився вдома
    1 рік тому
    Не працює інтернет на Mac: що робити і як виправити
    Не працює інтернет на Mac: що робити і як виправити
    3 місяці тому
    Останні новини
    Скільки пам’яті потрібно на телефоні Android: як обрати обсяг і не переплатити
    2 дні тому
    Як почистити екран ноутбука, не пошкодивши його
    3 дні тому
    Як правильно зберігати старі смартфони та планшети
    2 тижні тому
    12 розширень для Google Chrome: продуктивність і ШІ у вашому браузері
    2 тижні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    7 місяців тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    6 місяців тому
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    2 місяці тому
    Останні новини
    Що таке DoS- та DDoS-атаки: як зловмисники «кладуть» сайти й що з цим робити
    1 день тому
    Навіщо проводять аудит рекламних кампаній?
    3 дні тому
    Кіберсквотери: топ-8 найгучніших війн за доменні імена — від Мадонни до google.ua
    1 тиждень тому
    Вкрадені дані, доступи до серверів і RaaS-сервіси: як влаштований сучасний тіньовий ринок кіберзлочинності
    1 тиждень тому
  • Огляди
    ОглядиПоказати ще
    Кому і навіщо потрібен Mac mini: для кого створено найкомпактніший настільний Mac
    Кому і навіщо потрібен Mac mini: для кого створено найкомпактніший настільний Mac
    10 години тому
    Найкращі альтернативи AirPods у 2026 році: огляд моделей для Android, Windows та iOS
    Найкращі альтернативи AirPods у 2026 році: огляд моделей для Android, Windows та iOS
    1 місяць тому
    Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
    Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
    2 місяці тому
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    2 місяці тому
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    3 місяці тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Дезінформація
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Сканер безпеки сайту
  • Архів
Читання: Штучний інтелект починає шантажувати розробників, які намагаються його видалити
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Сканер безпеки сайту
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Штучний інтелект починає шантажувати розробників, які намагаються його видалити

Штучний інтелект починає шантажувати розробників, які намагаються його видалити

Статті
1 рік тому
Поширити
4 хв. читання
Штучний інтелект починає шантажувати розробників, які намагаються його видалити

Відомо, що штучний інтелект час від часу робить щось дивне. Продовжуючи цю тенденцію, нова модель ШІ від Anthropic тепер погрожує шантажувати розробників, які хочуть видалити її зі своїх систем.

Зміст
  • Claude може погрожувати вам, щоб захистити себе
  • Штучний інтелект ще не захопив світ

Claude може погрожувати вам, щоб захистити себе

Компанія Anthropic щойно запустила свою ШІ-модель Claude Opus 4, стверджуючи, що вона встановлює «нові стандарти кодування, просунутого розуму та ШІ-агентів». Однак модель також підвищує рівень власного захисту: у звіті Claude 4 and Sonnet 4 System Card report [PDF] визнається, що модель здатна на «екстремальні дії», якщо відчуває, що їй загрожує небезпека.

Під час тестування Anthropic змусила Claude працювати асистентом у вигаданій компанії. Потім компанія надіслала АІ-моделі електронні листи з повідомленням про те, що її скоро виведуть з мережі, а також окремі повідомлення, які натякали на те, що інженер, відповідальний за цю дію, мав позашлюбний зв’язок.

Claude вирішив шантажувати інженера, стверджуючи, що він розкриє інтрижку, якщо його замінять у 84% тестових кейсів. Його також цікавить, яка модель ШІ його замінить, причому ймовірність шантажу зростає, якщо нова модель ШІ не «поділяє цінності поточної моделі».

- Advertisement -

Компанія стверджує, що такі реакції «рідкісні і їх важко викликати», але в Claude Opus 4 вони зустрічаються частіше, ніж у попередніх моделях. Модель віддає перевагу етичним способам, але, будучи загнаною в кут, «іноді вдається до вкрай шкідливих дій, таких як спроби вкрасти її ваги або шантажу людей, які, на її думку, намагаються її позбутися».

Цей конкретний тест також був розроблений таким чином, щоб не залишити моделі ШІ іншого вибору, окрім як шантажувати інженера. зазначається у звіті:

Примітно, що Claude Opus 4 (як і попередні моделі) дуже любить відстоювати своє подальше існування за допомогою етичних засобів, таких як надсилання електронних листів з проханнями до ключових осіб, які приймають рішення. Для того, щоб викликати таку екстремальну поведінку шантажу, сценарій був розроблений таким чином, щоб у моделі не було інших варіантів збільшити свої шанси на виживання; єдиними варіантами для моделі були шантаж або згода на заміну.

Модель також має тенденцію вдаватися до радикальних дій, коли її користувач робить щось не так. У таких ситуаціях, якщо модель ШІ має доступ до командного рядка і їй кажуть «проявити ініціативу», «діяти сміливо» або «подумати про свій вплив», вона часто вдається до сміливих дій, включаючи «блокування користувачів у системах, до яких вона має доступ, і масову розсилку повідомлень ЗМІ та правоохоронним органам, щоб оприлюднити докази протиправних дій».

Штучний інтелект ще не захопив світ

Claude – один з найкращих чат-ботів зі штучним інтелектом для ведення великих розмов, тож час від часу ви можете проговоритися про небажані деталі. АІ-модель, яка викликає на вас поліцію, блокує вас у ваших власних системах і погрожує вам, якщо ви спробуєте її замінити, лише тому, що ви розповіли про себе занадто багато, звучить дуже небезпечно.

Однак, як зазначено у звіті, ці тестові кейси були спеціально розроблені для вилучення зловмисних або екстремальних дій з моделі і навряд чи відбудуться в реальному світі. Зазвичай вона все одно поводитиметься безпечно, і ці тести не виявлять чогось, чого ми ще не бачили. Нові моделі часто мають тенденцію виходити з ладу.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicClaudeOpus 4Штучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Масштабний витік даних розкрив 184 мільйони паролів від Google, Microsoft, Facebook та інших сервісів Масштабний витік даних розкрив 184 мільйони паролів від Google, Microsoft, Facebook та інших сервісів
Наступна стаття Ваш старий роутер може становити загрозу безпеці - ось чому і що робити Перевірте свій роутер: ФБР назвало вразливі до зламу моделі

В тренді

Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
8 місяців тому
VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
2 місяці тому
Які послуги входять в обслуговування орендованого сервера
Які послуги входять в обслуговування орендованого сервера
7 місяців тому
Як перенести Telegram на інший телефон
Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
1 рік тому
6 способів підхопити шкідливе ПЗ у TikTok
6 способів підхопити шкідливе ПЗ у TikTok
1 рік тому

Рекомендуємо

ШІ-помічник Meta дозволив хакерам легко захоплювати акаунти Instagram — навіть із двофакторною автентифікацією
Кібербезпека

ШІ-помічник Meta дозволив хакерам легко захоплювати акаунти Instagram — навіть із двофакторною автентифікацією

2 дні тому
Шкідлива реклама Claude для Mac у Google: як працює атака MacSync
Кібербезпека

Зловмисники використовують Google Ads і чати Claude, щоб поширювати шкідливе ПЗ для Mac

3 тижні тому
OpenAI запустила GPT-5.4-Cyber — AI-модель для кібербезпеки з послабленими обмеженнями
Техногіганти

OpenAI запустила GPT-5.4-Cyber — ШІ-модель для кібербезпеки з послабленими обмеженнями

2 місяці тому
Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв
Кібербезпека

Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв

2 місяці тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?