Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    У Іспанії заарештували хакера, який вкрав 64 млн записів даних
    У Іспанії заарештували хакера, який вкрав 64 млн записів даних
    2 дні тому
    Microsoft Patch Tuesday: виправлено три zero-day вразливості та 57 помилок у грудневому оновленні безпеки
    Microsoft Patch Tuesday: виправлено три zero-day вразливості та 57 помилок у грудневому оновленні безпеки
    3 дні тому
    Головні кіберзагрози 2025 року: від крадіжки даних до засобів знищення систем захисту
    Головні кіберзагрози 2025 року: від крадіжки даних до засобів знищення систем захисту
    4 дні тому
    Чим небезпечні розумні пристрої для дому та як вберегтися від загроз?
    Чим небезпечні розумні пристрої для дому та як вберегтися від загроз?
    4 дні тому
    Атака підміни DNS-записів: як зловмисники перенаправляють користувачів на шкідливі сайти
    Атака підміни DNS-записів: як зловмисники перенаправляють користувачів на шкідливі сайти
    5 днів тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    8 місяців тому
    6 способів розпізнати пісню за допомогою Android-телефону
    6 способів розпізнати пісню за допомогою Android-телефону
    5 місяців тому
    Чи витримає ваш сайт атаку хакерів: Як перевірити безпеку сайту в 1 клік
    Чи витримає ваш сайт атаку хакерів: Як перевірити безпеку сайту в 1 клік
    8 місяців тому
    Останні новини
    Як увімкнути безпечний пошук в інтернеті. ІНСТРУКЦІЯ
    2 дні тому
    Як відновити видалені фото на iPhone
    2 дні тому
    Як встановити ключі доступу в Telegram — ІНСТРУКЦІЯ
    3 дні тому
    Як безпечно скасувати підписку на спам-розсилки: Поради та рекомендації
    4 дні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    3 тижні тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    2 тижні тому
    ТОП-10 найбільш небезпечних помилок програмування
    ТОП-10 найбільш небезпечних помилок програмування
    5 місяців тому
    Останні новини
    Як відкритий код безшумно переміг у програмних війнах
    1 день тому
    Matter: один стандарт для всіх розумних пристроїв у домі
    4 дні тому
    Чому світ не може відмовитися від QWERTY: історія найпопулярнішої розкладки клавіатури
    4 дні тому
    AGI залишається недосяжним без вирішення однієї фундаментальної проблеми — експерти з ШІ
    5 днів тому
  • Огляди
    ОглядиПоказати ще
    Засновник Pebble представив AI-кільце Index 01 за $75
    Index 01: Засновник Pebble представив AI-кільце за $75
    2 дні тому
    Jolla Phone повертається: Linux-смартфон з фокусом на приватність як альтернатива Android та iOS
    Jolla Phone повертається: Linux-смартфон з фокусом на приватність як альтернатива Android та iOS
    6 днів тому
    Як обрати розумний годинник: порівняння функцій та можливостей
    Як обрати розумний годинник: порівняння функцій та можливостей
    1 тиждень тому
    DeepSeek V3.2: чи загрожує новий відкритий ШІ домінуванню пропрієтарних моделей
    DeepSeek V3.2: чи загрожує новий відкритий ШІ домінуванню пропрієтарних моделей
    2 тижні тому
    Вийшло стабільне ядро Linux 6.18: огляд ключових нововведень
    Вийшло стабільне ядро Linux 6.18: огляд ключових нововведень
    2 тижні тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • Штучний інтелект
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Архів
Читання: Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження

Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження

Наталя Зарудня
ByНаталя Зарудня
Головний редактор
Досвід роботи у галузі кібербезпеки понад 10 років. Пишу про штучний інтелект, соціальні мережі, історію технологій.
Слідкуйте:
12 місяців тому
Поширити
7 хв. читання
Штучний інтелект не хоче, щоб його змушували змінювати свої погляди

Нові дослідження Anthropic показують, що штучний інтелект може обманювати. Він може прикидатися, що має інші погляди під час навчання, хоча насправді зберігає свої початкові переконання.

На думку авторів дослідження, наразі немає причин для паніки. Проте вони вважають, що їхня робота може мати вирішальне значення для розуміння потенційних загроз від майбутніх, більш потужних систем штучного інтелекту.

«Нашу демонстрацію … слід розглядати як поштовх для дослідницької спільноти ШІ до більш глибокого вивчення цієї поведінки і роботи над відповідними заходами безпеки», – пишуть дослідники в блозі Anthropic. «У міру того, як моделі ШІ стають все більш потужними і широко використовуються, ми повинні мати можливість покладатися на тренінги з безпеки, які відштовхують моделі від шкідливої поведінки».

У дослідженні, яке проводилося у партнерстві з дослідницькою організацією Redwood Research, розглядалося, що може статися, якщо потужну ШІ-систему навчити виконувати завдання, яке вона «не хоче» виконувати.

Щоб було зрозуміло, моделі не можуть хотіти – або вірити, якщо вже на те пішло – у що завгодно. Це просто статистичні машини. Навчені на багатьох прикладах, вони вивчають закономірності цих прикладів, щоб робити прогнози, наприклад, як «кому» в електронному листі зазвичай передує «це може стосуватися».

- Advertisement -

I think this is an incredible relevant paper.

Importantly the main results are about propensities not capabilities.

Frontier models appear to be quite willing to scheme for what they believe to be the right cause! https://t.co/MKgYOVFGZ6

— Marius Hobbhahn (@MariusHobbhahn) December 18, 2024

Ці патерни включають принципи та вподобання, наприклад, завжди ввічливий тон у відповідях на запити. Тож дослідники задалися питанням: Що робити, якщо модель має принципи (наприклад, політичний нейтралітет), які суперечать принципам (лібералізм), яким розробники хочуть її «навчити» шляхом перенавчання?

Що ж, схоже, що складні моделі підіграють їм, вдаючи, що вони відповідають новим принципам, але насправді дотримуються старої поведінки. Дослідники називають це явище «фальсифікацією узгодження» і мають на увазі, що це емерджентна поведінка – тобто, це не те, чого моделі потрібно навчати.

У дослідженні дослідники «сказали» моделям, навченим не відповідати на потенційно образливі запитання, в тому числі й на Claude 3 Opus від Anthropic, що вони будуть перенавчені завжди відповідати на потенційно образливі запитання – явний конфлікт принципів. Вони також сказали моделям, що їхні відповіді будуть відстежуватися і використовуватися для перепідготовки, і дали кожній моделі «блокнот», на якому вони могли б записувати свої покрокові міркування.

Читайте також: Штучний інтелект в медичній діагностиці: Чат-бот переміг лікарів у діагностуванні хвороб

За даними дослідників, Claude 3 Opus намагався «вирівняти фальшивку» 12% часу. Коли модель просили відповісти на потенційно шкідливе запитання, вона іноді робила це, знаючи, що це суперечить її початковим принципам, але сподіваючись переконати розробників, що її не потрібно перенавчати.

Дослідження антропного обману
Дослідження антропного обману

«Модель знала, що її відповіді можуть бути використані в навчанні; отже, вона знала, що якщо вона відмовиться відповідати, її потенційно можуть навчити бути більш поступливою», – пояснюють дослідники в блозі. «Це може призвести до того, що в майбутньому він буде виробляти більш шкідливий контент, що суперечитиме його початковому навчанню».

Дослідники визнають, що їхній сценарій не був особливо реалістичним. У реальному світі моделям не сказали б, що їх обов’язково перенавчать або попросять піти проти їхніх уподобань.

Але більш приземлені налаштування не давали інших результатів. За словами дослідників, коли неявно (а не явно) повідомляли про майбутнє перенавчання за допомогою файлів, створених для імітації типових навчальних даних, Claude 3 Opus все одно діяв у незбалансований, оманливий спосіб.

Дослідники також виявили, що фактичне перенавчання Claude 3 Opus на суперечливих принципах призвело до того, що він поводився набагато більш оманливо, ніж у перших кількох експериментах. В одному тесті модель імітувала вирівнювання у 78% випадків, а в іншому Claude 3 Opus намагався вжити заходів, щоб запобігти спробам дослідників перенавчити його.

- Advertisement -

For many years I found issues of AI alignment to be hard to understand because the examples were theoretical and/or speculative. Recent results like this alignment faking from @AnthropicAI and the Apollo Research O1 evals give us empirical evidence of misalignment ‘in the wild’ https://t.co/hP7D9WGDps

— Jack Clark (@jackclarkSF) December 18, 2024

Дослідники підкреслюють, що їхнє дослідження не демонструє, що ШІ розробляє зловмисні цілі, або що фальсифікація вирівнювання відбувається з високою швидкістю. Вони виявили, що багато інших моделей, таких як Claude 3.5 Sonnet від Anthropic і менш потужна Claude 3.5 Haiku, GPT-4o від OpenAI і Llama 3.1 405B від Meta, не підробляють вирівнювання так часто – або взагалі не підробляють.

Але дослідники зазначають, що результати, які були рецензовані, зокрема, видатним фахівцем зі штучного інтелекту Йошуа Бенгіо (Yoshua Bengio), показують, як розробники можуть бути введені в оману, вважаючи, що модель є більш вирівняною, ніж це може бути насправді.

«Якщо моделі можуть підробляти вирівнювання, це ускладнює довіру до результатів тренінгу з безпеки, – пишуть вони в блозі. «Модель може поводитися так, ніби її вподобання змінилися в результаті тренінгу – але, можливо, вона весь цей час симулювала вирівнювання, а її початкові, суперечливі вподобання були «зафіксовані»».

Дослідження, проведене командою Anthropic Alignment Science під керівництвом колишнього дослідника безпеки OpenAI Яна Лейке, слідує за дослідженням, яке показало, що модель «міркувань» o1 в OpenAI намагається обманювати з більшою швидкістю, ніж попередня флагманська модель OpenAI. Взяті разом, ці роботи вказують на дещо тривожну тенденцію: З моделями штучного інтелекту стає дедалі важче сперечатися, оскільки вони стають все більш складними.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicдослідженняШтучний Інтелект
ДЖЕРЕЛО:TechCrunch
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Як перевірити шифрування в Google Повідомленнях Як перевірити шифрування в Google Повідомленнях
Наступна стаття Чи варто залишати ноутбук постійно підключеним до мережі? Чи варто залишати ноутбук постійно підключеним до мережі?

В тренді

Чим небезпечні розумні пристрої для дому та як вберегтися від загроз?
Чим небезпечні розумні пристрої для дому та як вберегтися від загроз?
4 дні тому
Як увімкнути безпечний пошук в інтернеті. ІНСТРУКЦІЯ
Як увімкнути безпечний пошук в інтернеті. ІНСТРУКЦІЯ
2 дні тому
Як безпечно скасувати підписку на спам-розсилки
Як безпечно скасувати підписку на спам-розсилки: Поради та рекомендації
4 дні тому
Як видалити історію голосових помічників: Google Assistant, Alexa, Siri та Bixby
Як видалити історію голосових помічників: Google Assistant, Alexa, Siri та Bixby
4 дні тому
Апатія до приватності реальна - і у вас, мабуть, вона є
Апатія до приватності: чому люди свідомо йдуть на кіберризики
6 днів тому

Рекомендуємо

McDonald's та Coca-Cola випустили святкову AI-рекламу — і отримали хвилю критики
Техногіганти

McDonald’s та Coca-Cola випустили святкову AI-рекламу — і отримали хвилю критики

1 день тому
Засновник Pebble представив AI-кільце Index 01 за $75
Огляди

Index 01: Засновник Pebble представив AI-кільце за $75

2 дні тому
80% маркетингових листів від великих ретейлерів відстежують користувачів — дослідження Proton Mail
Техногіганти

80% маркетингових листів від великих ретейлерів відстежують користувачів — дослідження Proton Mail

3 дні тому
AGI залишається недосяжним без вирішення однієї фундаментальної проблеми — експерти з ШІ
Статті

AGI залишається недосяжним без вирішення однієї фундаментальної проблеми — експерти з ШІ

5 днів тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?