Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Маркетологи стежать за вашими запитами до ChatGPT через розширення браузера
    Маркетологи стежать за вашими запитами до ChatGPT через розширення браузера
    12 години тому
    «Я заплатив двічі»: масштабне шахрайство на Booking.com
    «Я заплатив двічі»: масштабне шахрайство на Booking.com
    2 дні тому
    Washington Post стала жертвою масштабного витоку даних через Oracle
    Washington Post стала жертвою масштабного витоку даних через Oracle
    2 дні тому
    Шкідливі Android-додатки завантажили 42 мільйони разів — вони можуть залишити вас без грошей
    Шкідливі Android-додатки завантажили 42 мільйони разів — вони можуть залишити вас без грошей
    2 дні тому
    PUP.Optional.BrowserHijack виявлено на новому ноутбуці: як боротися з предвстановленим шкідливим ПЗ
    PUP.Optional.BrowserHijack виявлено на новому ноутбуці: як боротися з предвстановленим шкідливим ПЗ
    3 дні тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    7 місяців тому
    Як прочитати повідомлення в Telegram непомітно?
    5 способів прочитати повідомлення в Telegram непомітно
    7 місяців тому
    gmail scam email
    Як блокувати піксельні трекери в електронній пошті: 4 прості методи
    6 місяців тому
    Останні новини
    8 безкоштовних способів підвищити безпеку домашньої мережі
    1 день тому
    Як правильно доглядати за портативними зарядними станціями та домашніми електростанціями
    3 дні тому
    Чи варто заряджати смартфон у автомобілі?
    3 дні тому
    8 способів виявити приховані камери в орендованому житлі Airbnb
    4 дні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Топ-20 найпопулярніших сайтів в Україні в грудні 2024 року
    Топ-20 найпопулярніших сайтів в Україні в грудні 2024 року
    7 місяців тому
    Найкращі Windows в історії: ТОП-10 найвидатніших версій
    Найкращі Windows в історії: ТОП-10 найвидатніших версій
    7 місяців тому
    VR, AR та MR: пояснення типів цифрової реальності
    Що таке VR, AR та MR: пояснення 3 типів цифрової реальності
    6 місяців тому
    Останні новини
    Історія Caps Lock: Чому ця функція існує?
    17 години тому
    Тім Бернерс-Лі не вірить, що штучний інтелект знищить веб
    19 години тому
    Шахрайські оголошення у Facebook, Instagram та WhatsApp приносять Meta мільярди доларів — розслідування
    4 дні тому
    Штучний інтелект стає інтроспективним – і це потребує ретельного моніторингу, попереджає Anthropic
    1 тиждень тому
  • Огляди
    ОглядиПоказати ще
    Chrome проти Firefox: порівняння найпопулярнішого браузера з найкращою open-source альтернативою
    Chrome проти Firefox: порівняння найпопулярнішого браузера з найкращою open-source альтернативою
    14 години тому
    iOS 26.1 вже доступна: всі зміни для вашого iPhone
    Головні нововведення iOS 26.1: детальний огляд усіх функцій
    1 тиждень тому
    Surfshark та Proton VPN: порівняння кращих VPN-сервісів
    Surfshark та Proton VPN: порівняння кращих VPN-сервісів
    1 тиждень тому
    clamav
    Антивірус, якому можна довіряти на Linux — і він безкоштовний
    2 тижні тому
    Gemini Google Home плутає собак з котами, але покращує автоматизацію розумного дому
    Gemini Google Home плутає собак з котами, але покращує автоматизацію розумного дому
    3 тижні тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • Штучний інтелект
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Безпека дітей в Інтернеті
  • Маніпуляції в медіа
  • Розумний будинок
Інше
  • Архів
Читання: Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження

Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження

Наталя Зарудня
ByНаталя Зарудня
Головний редактор
Досвід роботи у галузі кібербезпеки понад 10 років. Пишу про штучний інтелект, соціальні мережі, історію технологій.
Слідкуйте:
11 місяців тому
Поширити
7 хв. читання
Штучний інтелект не хоче, щоб його змушували змінювати свої погляди

Нові дослідження Anthropic показують, що штучний інтелект може обманювати. Він може прикидатися, що має інші погляди під час навчання, хоча насправді зберігає свої початкові переконання.

На думку авторів дослідження, наразі немає причин для паніки. Проте вони вважають, що їхня робота може мати вирішальне значення для розуміння потенційних загроз від майбутніх, більш потужних систем штучного інтелекту.

«Нашу демонстрацію … слід розглядати як поштовх для дослідницької спільноти ШІ до більш глибокого вивчення цієї поведінки і роботи над відповідними заходами безпеки», – пишуть дослідники в блозі Anthropic. «У міру того, як моделі ШІ стають все більш потужними і широко використовуються, ми повинні мати можливість покладатися на тренінги з безпеки, які відштовхують моделі від шкідливої поведінки».

У дослідженні, яке проводилося у партнерстві з дослідницькою організацією Redwood Research, розглядалося, що може статися, якщо потужну ШІ-систему навчити виконувати завдання, яке вона «не хоче» виконувати.

Щоб було зрозуміло, моделі не можуть хотіти – або вірити, якщо вже на те пішло – у що завгодно. Це просто статистичні машини. Навчені на багатьох прикладах, вони вивчають закономірності цих прикладів, щоб робити прогнози, наприклад, як «кому» в електронному листі зазвичай передує «це може стосуватися».

- Advertisement -

I think this is an incredible relevant paper.

Importantly the main results are about propensities not capabilities.

Frontier models appear to be quite willing to scheme for what they believe to be the right cause! https://t.co/MKgYOVFGZ6

— Marius Hobbhahn (@MariusHobbhahn) December 18, 2024

Ці патерни включають принципи та вподобання, наприклад, завжди ввічливий тон у відповідях на запити. Тож дослідники задалися питанням: Що робити, якщо модель має принципи (наприклад, політичний нейтралітет), які суперечать принципам (лібералізм), яким розробники хочуть її «навчити» шляхом перенавчання?

Що ж, схоже, що складні моделі підіграють їм, вдаючи, що вони відповідають новим принципам, але насправді дотримуються старої поведінки. Дослідники називають це явище «фальсифікацією узгодження» і мають на увазі, що це емерджентна поведінка – тобто, це не те, чого моделі потрібно навчати.

У дослідженні дослідники «сказали» моделям, навченим не відповідати на потенційно образливі запитання, в тому числі й на Claude 3 Opus від Anthropic, що вони будуть перенавчені завжди відповідати на потенційно образливі запитання – явний конфлікт принципів. Вони також сказали моделям, що їхні відповіді будуть відстежуватися і використовуватися для перепідготовки, і дали кожній моделі «блокнот», на якому вони могли б записувати свої покрокові міркування.

Читайте також: Штучний інтелект в медичній діагностиці: Чат-бот переміг лікарів у діагностуванні хвороб

За даними дослідників, Claude 3 Opus намагався «вирівняти фальшивку» 12% часу. Коли модель просили відповісти на потенційно шкідливе запитання, вона іноді робила це, знаючи, що це суперечить її початковим принципам, але сподіваючись переконати розробників, що її не потрібно перенавчати.

Дослідження антропного обману
Дослідження антропного обману

«Модель знала, що її відповіді можуть бути використані в навчанні; отже, вона знала, що якщо вона відмовиться відповідати, її потенційно можуть навчити бути більш поступливою», – пояснюють дослідники в блозі. «Це може призвести до того, що в майбутньому він буде виробляти більш шкідливий контент, що суперечитиме його початковому навчанню».

Дослідники визнають, що їхній сценарій не був особливо реалістичним. У реальному світі моделям не сказали б, що їх обов’язково перенавчать або попросять піти проти їхніх уподобань.

Але більш приземлені налаштування не давали інших результатів. За словами дослідників, коли неявно (а не явно) повідомляли про майбутнє перенавчання за допомогою файлів, створених для імітації типових навчальних даних, Claude 3 Opus все одно діяв у незбалансований, оманливий спосіб.

Дослідники також виявили, що фактичне перенавчання Claude 3 Opus на суперечливих принципах призвело до того, що він поводився набагато більш оманливо, ніж у перших кількох експериментах. В одному тесті модель імітувала вирівнювання у 78% випадків, а в іншому Claude 3 Opus намагався вжити заходів, щоб запобігти спробам дослідників перенавчити його.

- Advertisement -

For many years I found issues of AI alignment to be hard to understand because the examples were theoretical and/or speculative. Recent results like this alignment faking from @AnthropicAI and the Apollo Research O1 evals give us empirical evidence of misalignment ‘in the wild’ https://t.co/hP7D9WGDps

— Jack Clark (@jackclarkSF) December 18, 2024

Дослідники підкреслюють, що їхнє дослідження не демонструє, що ШІ розробляє зловмисні цілі, або що фальсифікація вирівнювання відбувається з високою швидкістю. Вони виявили, що багато інших моделей, таких як Claude 3.5 Sonnet від Anthropic і менш потужна Claude 3.5 Haiku, GPT-4o від OpenAI і Llama 3.1 405B від Meta, не підробляють вирівнювання так часто – або взагалі не підробляють.

Але дослідники зазначають, що результати, які були рецензовані, зокрема, видатним фахівцем зі штучного інтелекту Йошуа Бенгіо (Yoshua Bengio), показують, як розробники можуть бути введені в оману, вважаючи, що модель є більш вирівняною, ніж це може бути насправді.

«Якщо моделі можуть підробляти вирівнювання, це ускладнює довіру до результатів тренінгу з безпеки, – пишуть вони в блозі. «Модель може поводитися так, ніби її вподобання змінилися в результаті тренінгу – але, можливо, вона весь цей час симулювала вирівнювання, а її початкові, суперечливі вподобання були «зафіксовані»».

Дослідження, проведене командою Anthropic Alignment Science під керівництвом колишнього дослідника безпеки OpenAI Яна Лейке, слідує за дослідженням, яке показало, що модель «міркувань» o1 в OpenAI намагається обманювати з більшою швидкістю, ніж попередня флагманська модель OpenAI. Взяті разом, ці роботи вказують на дещо тривожну тенденцію: З моделями штучного інтелекту стає дедалі важче сперечатися, оскільки вони стають все більш складними.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicдослідженняШтучний Інтелект
ДЖЕРЕЛО:TechCrunch
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Як перевірити шифрування в Google Повідомленнях Як перевірити шифрування в Google Повідомленнях
Наступна стаття Чи варто залишати ноутбук постійно підключеним до мережі? Чи варто залишати ноутбук постійно підключеним до мережі?

В тренді

Історія Caps Lock: Чому ця функція існує
Історія Caps Lock: Чому ця функція існує?
16 години тому
Чи варто заряджати смартфон у автомобілі?
Чи варто заряджати смартфон у автомобілі?
3 дні тому
4 способи, як ваш WhatsApp можуть зламати
4 способи, як ваш WhatsApp можуть зламати (і як захистити ваші дані)
5 днів тому
Як правильно доглядати за портативними зарядними станціями та домашніми електростанціями
Як правильно доглядати за портативними зарядними станціями та домашніми електростанціями
3 дні тому
Шахрайські оголошення у Facebook, Instagram та WhatsApp приносять Meta мільярди доларів — розслідування
Шахрайські оголошення у Facebook, Instagram та WhatsApp приносять Meta мільярди доларів — розслідування
7 днів тому

Рекомендуємо

Маркетологи стежать за вашими запитами до ChatGPT через розширення браузера
Кібербезпека

Маркетологи стежать за вашими запитами до ChatGPT через розширення браузера

12 години тому
Творець Інтернету пояснює, чому віддав його безкоштовно та про що шкодує
Статті

Тім Бернерс-Лі не вірить, що штучний інтелект знищить веб

2 дні тому
Microsoft виявила атаку Whisper Leak, яка розкриває теми AI-чатів у зашифрованому трафіку
Кібербезпека

Microsoft виявила атаку Whisper Leak, яка розкриває теми AI-чатів у зашифрованому трафіку

3 дні тому
Штучний інтелект стає інтроспективним - і це потребує ретельного моніторингу, попереджає Anthropic
Статті

Штучний інтелект стає інтроспективним – і це потребує ретельного моніторингу, попереджає Anthropic

1 тиждень тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Наш канал на 

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?