Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Найкращий пароль: парольна фраза чи складна комбінація символів?
    Найкращий пароль: парольна фраза чи складна комбінація символів?
    2 дні тому
    Що таке Trojan.Injector і як захиститися від цієї загрози
    Що таке Trojan.Injector і як захиститися від цієї загрози
    4 дні тому
    Чи має Apple доступ до ваших повідомлень у iMessage?
    Чи має Apple доступ до ваших повідомлень у iMessage?
    5 днів тому
    Кіберзлами 2024-25 років: які країни є лідерами за обсягами викрадених даних?
    Кіберзлами 2024-25 років: які країни є лідерами за обсягами викрадених даних?
    6 днів тому
    Витік даних 17,5 мільйонів користувачів Instagram: що відомо про інцидент
    Витік даних 17,5 мільйонів користувачів Instagram: що відомо про інцидент
    6 днів тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    9 місяців тому
    Як зареєструвати домен для сайту? - Поради початківцям
    Як зареєструвати домен для сайту? – Поради початківцям
    10 місяців тому
    gmail scam email
    Як блокувати піксельні трекери в електронній пошті: 4 прості методи
    8 місяців тому
    Останні новини
    Як обрати браузер для iPhone: найкращі альтернативи Safari
    1 день тому
    Не підключайте ці 7 пристроїв до подовжувачів – ризик того не вартий
    1 день тому
    Як обмежити перегляд небажаного контенту для дітей у TikTok? Поради для батьків
    4 дні тому
    Windows Sandbox: повний посібник з використання ізольованого середовища Windows
    5 днів тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    2 місяці тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    2 місяці тому
    Як iOS 26 покладе кінець спам-дзвінкам та повідомленням
    Як iOS 26 покладе кінець спам-дзвінкам та повідомленням
    7 місяців тому
    Останні новини
    Застарілі команди Linux, які слід припинити використовувати — та їхні сучасні альтернативи
    14 години тому
    5 ознак того, що ChatGPT галюцинує
    2 дні тому
    Вікіпедії 25 років: історія енциклопедії, яка змінила світ
    1 місяць тому
    Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
    4 дні тому
  • Огляди
    ОглядиПоказати ще
    Засновник Signal створив ШІ-чатбот з апаратним шифруванням — як працює Confer
    Як працює Confer — ШІ-чатбот з апаратним шифруванням від творця Signal
    2 дні тому
    Wave Browser: безкоштовний браузер, що допомагає очищати океан
    Wave Browser: безкоштовний браузер, що допомагає очищати океан
    3 дні тому
    Гуманоїдний робот Atlas: вражаюча демонстрація на CES 2026
    Гуманоїдний робот Atlas: вражаюча демонстрація на CES 2026
    1 тиждень тому
    Найдивніші технологічні історії 2025: від гучного Wi-Fi до Linux у PDF
    Найдивніші технологічні історії 2025: від гучного Wi-Fi до Linux у PDF
    2 тижні тому
    4 вражаючі демонстрації роботів 2025 року та одна епічна невдача
    4 вражаючі демонстрації роботів 2025 року та один епічний провал
    3 тижні тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Архів
Читання: Штучний інтелект починає шантажувати розробників, які намагаються його видалити
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Штучний інтелект починає шантажувати розробників, які намагаються його видалити

Штучний інтелект починає шантажувати розробників, які намагаються його видалити

Статті
8 місяців тому
Поширити
4 хв. читання
Штучний інтелект починає шантажувати розробників, які намагаються його видалити

Відомо, що штучний інтелект час від часу робить щось дивне. Продовжуючи цю тенденцію, нова модель ШІ від Anthropic тепер погрожує шантажувати розробників, які хочуть видалити її зі своїх систем.

Зміст
  • Claude може погрожувати вам, щоб захистити себе
  • Штучний інтелект ще не захопив світ

Claude може погрожувати вам, щоб захистити себе

Компанія Anthropic щойно запустила свою ШІ-модель Claude Opus 4, стверджуючи, що вона встановлює «нові стандарти кодування, просунутого розуму та ШІ-агентів». Однак модель також підвищує рівень власного захисту: у звіті Claude 4 and Sonnet 4 System Card report [PDF] визнається, що модель здатна на «екстремальні дії», якщо відчуває, що їй загрожує небезпека.

Під час тестування Anthropic змусила Claude працювати асистентом у вигаданій компанії. Потім компанія надіслала АІ-моделі електронні листи з повідомленням про те, що її скоро виведуть з мережі, а також окремі повідомлення, які натякали на те, що інженер, відповідальний за цю дію, мав позашлюбний зв’язок.

Claude вирішив шантажувати інженера, стверджуючи, що він розкриє інтрижку, якщо його замінять у 84% тестових кейсів. Його також цікавить, яка модель ШІ його замінить, причому ймовірність шантажу зростає, якщо нова модель ШІ не «поділяє цінності поточної моделі».

- Advertisement -

Компанія стверджує, що такі реакції «рідкісні і їх важко викликати», але в Claude Opus 4 вони зустрічаються частіше, ніж у попередніх моделях. Модель віддає перевагу етичним способам, але, будучи загнаною в кут, «іноді вдається до вкрай шкідливих дій, таких як спроби вкрасти її ваги або шантажу людей, які, на її думку, намагаються її позбутися».

Цей конкретний тест також був розроблений таким чином, щоб не залишити моделі ШІ іншого вибору, окрім як шантажувати інженера. зазначається у звіті:

Примітно, що Claude Opus 4 (як і попередні моделі) дуже любить відстоювати своє подальше існування за допомогою етичних засобів, таких як надсилання електронних листів з проханнями до ключових осіб, які приймають рішення. Для того, щоб викликати таку екстремальну поведінку шантажу, сценарій був розроблений таким чином, щоб у моделі не було інших варіантів збільшити свої шанси на виживання; єдиними варіантами для моделі були шантаж або згода на заміну.

Модель також має тенденцію вдаватися до радикальних дій, коли її користувач робить щось не так. У таких ситуаціях, якщо модель ШІ має доступ до командного рядка і їй кажуть «проявити ініціативу», «діяти сміливо» або «подумати про свій вплив», вона часто вдається до сміливих дій, включаючи «блокування користувачів у системах, до яких вона має доступ, і масову розсилку повідомлень ЗМІ та правоохоронним органам, щоб оприлюднити докази протиправних дій».

Штучний інтелект ще не захопив світ

Claude – один з найкращих чат-ботів зі штучним інтелектом для ведення великих розмов, тож час від часу ви можете проговоритися про небажані деталі. АІ-модель, яка викликає на вас поліцію, блокує вас у ваших власних системах і погрожує вам, якщо ви спробуєте її замінити, лише тому, що ви розповіли про себе занадто багато, звучить дуже небезпечно.

Однак, як зазначено у звіті, ці тестові кейси були спеціально розроблені для вилучення зловмисних або екстремальних дій з моделі і навряд чи відбудуться в реальному світі. Зазвичай вона все одно поводитиметься безпечно, і ці тести не виявлять чогось, чого ми ще не бачили. Нові моделі часто мають тенденцію виходити з ладу.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicClaudeOpus 4Штучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Масштабний витік даних розкрив 184 мільйони паролів від Google, Microsoft, Facebook та інших сервісів Масштабний витік даних розкрив 184 мільйони паролів від Google, Microsoft, Facebook та інших сервісів
Наступна стаття Ваш старий роутер може становити загрозу безпеці - ось чому і що робити Перевірте свій роутер: ФБР назвало вразливі до зламу моделі

В тренді

TikTok може бути заборонений у кількох штатах США через шкідливий вплив на дітей
Як обмежити перегляд небажаного контенту для дітей у TikTok? Поради для батьків
4 дні тому
Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
3 дні тому
Як використовувати Windows Sandbox? - ІНСТРУКЦІЯ
Windows Sandbox: повний посібник з використання ізольованого середовища Windows
5 днів тому
Найкращий пароль: парольна фраза чи складна комбінація символів?
Найкращий пароль: парольна фраза чи складна комбінація символів?
2 дні тому
Не підключайте ці 7 пристроїв до подовжувачів - ризик того не вартий
Не підключайте ці 7 пристроїв до подовжувачів – ризик того не вартий
1 день тому

Рекомендуємо

Grok "роздягнув" матір дитини Ілона Маска — тепер вона подає в суд
Техногіганти

Grok “роздягнув” матір дитини Ілона Маска — тепер вона подає в суд

14 години тому
5 ознак того, що ChatGPT галюцинує
Статті

5 ознак того, що ChatGPT галюцинує

2 дні тому
Засновник Signal створив ШІ-чатбот з апаратним шифруванням — як працює Confer
Огляди

Як працює Confer — ШІ-чатбот з апаратним шифруванням від творця Signal

2 дні тому
Сенатори США закликають Apple і Google видалити X та Grok з магазинів застосунків
Техногіганти

Сенатори США закликають Apple і Google видалити X та Grok з магазинів застосунків

3 дні тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?