Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Понад 116 000 систем Minecraft уражено шкідливим ПЗ WeedHack
    Понад 116 000 систем Minecraft уражено шкідливим ПЗ WeedHack
    20 години тому
    ШІ-помічник Meta дозволив хакерам легко захоплювати акаунти Instagram — навіть із двофакторною автентифікацією
    ШІ-помічник Meta дозволив хакерам легко захоплювати акаунти Instagram — навіть із двофакторною автентифікацією
    3 дні тому
    Хакери GreyVibe атакують Україну за допомогою ChatGPT і Gemini
    Хакери GreyVibe атакують Україну за допомогою ChatGPT і Gemini
    7 днів тому
    Китайська група кіберзлочинців Webworm атакує державні установи в Європі
    Китайська група кіберзлочинців Webworm атакує державні установи в Європі
    2 тижні тому
    Білоруська група кіберзлочинців FrostyNeighbor атакує українські державні установи
    Білоруська група кіберзлочинців FrostyNeighbor атакує українські державні установи
    3 тижні тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    1 рік тому
    Найкращі антивіруси для Android у 2026 році
    Найкращі антивіруси для Android у 2026 році
    3 місяці тому
    Чи варто заряджати смартфон у автомобілі?
    Чи варто заряджати смартфон у автомобілі?
    7 місяців тому
    Останні новини
    Скільки пам’яті потрібно на телефоні Android: як обрати обсяг і не переплатити
    3 дні тому
    Як почистити екран ноутбука, не пошкодивши його
    3 дні тому
    Як правильно зберігати старі смартфони та планшети
    2 тижні тому
    12 розширень для Google Chrome: продуктивність і ШІ у вашому браузері
    2 тижні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    7 місяців тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    6 місяців тому
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    2 місяці тому
    Останні новини
    Що таке DoS- та DDoS-атаки: як зловмисники «кладуть» сайти й що з цим робити
    2 дні тому
    Навіщо проводять аудит рекламних кампаній?
    4 дні тому
    Кіберсквотери: топ-8 найгучніших війн за доменні імена — від Мадонни до google.ua
    1 тиждень тому
    Вкрадені дані, доступи до серверів і RaaS-сервіси: як влаштований сучасний тіньовий ринок кіберзлочинності
    1 тиждень тому
  • Огляди
    ОглядиПоказати ще
    Кому і навіщо потрібен Mac mini: для кого створено найкомпактніший настільний Mac
    Кому і навіщо потрібен Mac mini: для кого створено найкомпактніший настільний Mac
    18 години тому
    Найкращі альтернативи AirPods у 2026 році: огляд моделей для Android, Windows та iOS
    Найкращі альтернативи AirPods у 2026 році: огляд моделей для Android, Windows та iOS
    1 місяць тому
    Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
    Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
    2 місяці тому
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    2 місяці тому
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    3 місяці тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Дезінформація
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Сканер безпеки сайту
  • Архів
Читання: Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Сканер безпеки сайту
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження

Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження

Статті
1 рік тому
Поширити
7 хв. читання
Штучний інтелект не хоче, щоб його змушували змінювати свої погляди

Нові дослідження Anthropic показують, що штучний інтелект може обманювати. Він може прикидатися, що має інші погляди під час навчання, хоча насправді зберігає свої початкові переконання.

На думку авторів дослідження, наразі немає причин для паніки. Проте вони вважають, що їхня робота може мати вирішальне значення для розуміння потенційних загроз від майбутніх, більш потужних систем штучного інтелекту.

«Нашу демонстрацію … слід розглядати як поштовх для дослідницької спільноти ШІ до більш глибокого вивчення цієї поведінки і роботи над відповідними заходами безпеки», – пишуть дослідники в блозі Anthropic. «У міру того, як моделі ШІ стають все більш потужними і широко використовуються, ми повинні мати можливість покладатися на тренінги з безпеки, які відштовхують моделі від шкідливої поведінки».

У дослідженні, яке проводилося у партнерстві з дослідницькою організацією Redwood Research, розглядалося, що може статися, якщо потужну ШІ-систему навчити виконувати завдання, яке вона «не хоче» виконувати.

Щоб було зрозуміло, моделі не можуть хотіти – або вірити, якщо вже на те пішло – у що завгодно. Це просто статистичні машини. Навчені на багатьох прикладах, вони вивчають закономірності цих прикладів, щоб робити прогнози, наприклад, як «кому» в електронному листі зазвичай передує «це може стосуватися».

- Advertisement -

I think this is an incredible relevant paper.

Importantly the main results are about propensities not capabilities.

Frontier models appear to be quite willing to scheme for what they believe to be the right cause! https://t.co/MKgYOVFGZ6

— Marius Hobbhahn (@MariusHobbhahn) December 18, 2024

Ці патерни включають принципи та вподобання, наприклад, завжди ввічливий тон у відповідях на запити. Тож дослідники задалися питанням: Що робити, якщо модель має принципи (наприклад, політичний нейтралітет), які суперечать принципам (лібералізм), яким розробники хочуть її «навчити» шляхом перенавчання?

Що ж, схоже, що складні моделі підіграють їм, вдаючи, що вони відповідають новим принципам, але насправді дотримуються старої поведінки. Дослідники називають це явище «фальсифікацією узгодження» і мають на увазі, що це емерджентна поведінка – тобто, це не те, чого моделі потрібно навчати.

У дослідженні дослідники «сказали» моделям, навченим не відповідати на потенційно образливі запитання, в тому числі й на Claude 3 Opus від Anthropic, що вони будуть перенавчені завжди відповідати на потенційно образливі запитання – явний конфлікт принципів. Вони також сказали моделям, що їхні відповіді будуть відстежуватися і використовуватися для перепідготовки, і дали кожній моделі «блокнот», на якому вони могли б записувати свої покрокові міркування.

Читайте також: Штучний інтелект в медичній діагностиці: Чат-бот переміг лікарів у діагностуванні хвороб

За даними дослідників, Claude 3 Opus намагався «вирівняти фальшивку» 12% часу. Коли модель просили відповісти на потенційно шкідливе запитання, вона іноді робила це, знаючи, що це суперечить її початковим принципам, але сподіваючись переконати розробників, що її не потрібно перенавчати.

Дослідження антропного обману
Дослідження антропного обману

«Модель знала, що її відповіді можуть бути використані в навчанні; отже, вона знала, що якщо вона відмовиться відповідати, її потенційно можуть навчити бути більш поступливою», – пояснюють дослідники в блозі. «Це може призвести до того, що в майбутньому він буде виробляти більш шкідливий контент, що суперечитиме його початковому навчанню».

Дослідники визнають, що їхній сценарій не був особливо реалістичним. У реальному світі моделям не сказали б, що їх обов’язково перенавчать або попросять піти проти їхніх уподобань.

Але більш приземлені налаштування не давали інших результатів. За словами дослідників, коли неявно (а не явно) повідомляли про майбутнє перенавчання за допомогою файлів, створених для імітації типових навчальних даних, Claude 3 Opus все одно діяв у незбалансований, оманливий спосіб.

Дослідники також виявили, що фактичне перенавчання Claude 3 Opus на суперечливих принципах призвело до того, що він поводився набагато більш оманливо, ніж у перших кількох експериментах. В одному тесті модель імітувала вирівнювання у 78% випадків, а в іншому Claude 3 Opus намагався вжити заходів, щоб запобігти спробам дослідників перенавчити його.

- Advertisement -

For many years I found issues of AI alignment to be hard to understand because the examples were theoretical and/or speculative. Recent results like this alignment faking from @AnthropicAI and the Apollo Research O1 evals give us empirical evidence of misalignment ‘in the wild’ https://t.co/hP7D9WGDps

— Jack Clark (@jackclarkSF) December 18, 2024

Дослідники підкреслюють, що їхнє дослідження не демонструє, що ШІ розробляє зловмисні цілі, або що фальсифікація вирівнювання відбувається з високою швидкістю. Вони виявили, що багато інших моделей, таких як Claude 3.5 Sonnet від Anthropic і менш потужна Claude 3.5 Haiku, GPT-4o від OpenAI і Llama 3.1 405B від Meta, не підробляють вирівнювання так часто – або взагалі не підробляють.

Але дослідники зазначають, що результати, які були рецензовані, зокрема, видатним фахівцем зі штучного інтелекту Йошуа Бенгіо (Yoshua Bengio), показують, як розробники можуть бути введені в оману, вважаючи, що модель є більш вирівняною, ніж це може бути насправді.

«Якщо моделі можуть підробляти вирівнювання, це ускладнює довіру до результатів тренінгу з безпеки, – пишуть вони в блозі. «Модель може поводитися так, ніби її вподобання змінилися в результаті тренінгу – але, можливо, вона весь цей час симулювала вирівнювання, а її початкові, суперечливі вподобання були «зафіксовані»».

Дослідження, проведене командою Anthropic Alignment Science під керівництвом колишнього дослідника безпеки OpenAI Яна Лейке, слідує за дослідженням, яке показало, що модель «міркувань» o1 в OpenAI намагається обманювати з більшою швидкістю, ніж попередня флагманська модель OpenAI. Взяті разом, ці роботи вказують на дещо тривожну тенденцію: З моделями штучного інтелекту стає дедалі важче сперечатися, оскільки вони стають все більш складними.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicдослідженняШтучний Інтелект
ДЖЕРЕЛО:TechCrunch
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття digital card Як перетворити свій профіль в Instagram на цифрову візитівку
Наступна стаття Чи варто залишати ноутбук постійно підключеним до мережі? Чи варто залишати ноутбук постійно підключеним до мережі?

В тренді

Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
8 місяців тому
VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
2 місяці тому
Які послуги входять в обслуговування орендованого сервера
Які послуги входять в обслуговування орендованого сервера
7 місяців тому
Як перенести Telegram на інший телефон
Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
1 рік тому
6 способів підхопити шкідливе ПЗ у TikTok
6 способів підхопити шкідливе ПЗ у TikTok
1 рік тому

Рекомендуємо

ШІ-помічник Meta дозволив хакерам легко захоплювати акаунти Instagram — навіть із двофакторною автентифікацією
Кібербезпека

ШІ-помічник Meta дозволив хакерам легко захоплювати акаунти Instagram — навіть із двофакторною автентифікацією

3 дні тому
OpenAI запустила GPT-5.4-Cyber — AI-модель для кібербезпеки з послабленими обмеженнями
Техногіганти

OpenAI запустила GPT-5.4-Cyber — ШІ-модель для кібербезпеки з послабленими обмеженнями

2 місяці тому
Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв
Кібербезпека

Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв

2 місяці тому
Понад 70 організацій вимагають від Meta відмовитися від розпізнавання облич у смарт-окулярах
Техногіганти

Понад 70 організацій вимагають від Meta відмовитися від розпізнавання облич у смарт-окулярах

2 місяці тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?