Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Найкращий пароль: парольна фраза чи складна комбінація символів?
    Найкращий пароль: парольна фраза чи складна комбінація символів?
    3 дні тому
    Що таке Trojan.Injector і як захиститися від цієї загрози
    Що таке Trojan.Injector і як захиститися від цієї загрози
    4 дні тому
    Чи має Apple доступ до ваших повідомлень у iMessage?
    Чи має Apple доступ до ваших повідомлень у iMessage?
    5 днів тому
    Кіберзлами 2024-25 років: які країни є лідерами за обсягами викрадених даних?
    Кіберзлами 2024-25 років: які країни є лідерами за обсягами викрадених даних?
    6 днів тому
    Витік даних 17,5 мільйонів користувачів Instagram: що відомо про інцидент
    Витік даних 17,5 мільйонів користувачів Instagram: що відомо про інцидент
    6 днів тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    9 місяців тому
    ШІ Gemini з'являється в Google Календарі - ось що він вміє і як його випробувати
    ШІ Gemini з’являється в Google Календарі – ось що він вміє і як його випробувати
    10 місяців тому
    Як знайти iPhone та інші пристрої Apple за допомогою Локатора? ІНСТРУКЦІЯ
    Як знайти iPhone та інші пристрої Apple за допомогою Локатора? ІНСТРУКЦІЯ
    10 місяців тому
    Останні новини
    Як обрати браузер для iPhone: найкращі альтернативи Safari
    2 дні тому
    Не підключайте ці 7 пристроїв до подовжувачів – ризик того не вартий
    2 дні тому
    Як обмежити перегляд небажаного контенту для дітей у TikTok? Поради для батьків
    5 днів тому
    Windows Sandbox: повний посібник з використання ізольованого середовища Windows
    5 днів тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    2 місяці тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    2 місяці тому
    Чому налаштування конфіденційності в соціальних мережах такі складні
    Лабіринт приватності: Чому налаштування конфіденційності в соціальних мережах такі складні
    3 місяці тому
    Останні новини
    Застарілі команди Linux, які слід припинити використовувати — та їхні сучасні альтернативи
    23 години тому
    5 ознак того, що ChatGPT галюцинує
    2 дні тому
    Вікіпедії 25 років: історія енциклопедії, яка змінила світ
    1 місяць тому
    Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
    4 дні тому
  • Огляди
    ОглядиПоказати ще
    Засновник Signal створив ШІ-чатбот з апаратним шифруванням — як працює Confer
    Як працює Confer — ШІ-чатбот з апаратним шифруванням від творця Signal
    2 дні тому
    Wave Browser: безкоштовний браузер, що допомагає очищати океан
    Wave Browser: безкоштовний браузер, що допомагає очищати океан
    3 дні тому
    Гуманоїдний робот Atlas: вражаюча демонстрація на CES 2026
    Гуманоїдний робот Atlas: вражаюча демонстрація на CES 2026
    1 тиждень тому
    Найдивніші технологічні історії 2025: від гучного Wi-Fi до Linux у PDF
    Найдивніші технологічні історії 2025: від гучного Wi-Fi до Linux у PDF
    3 тижні тому
    4 вражаючі демонстрації роботів 2025 року та одна епічна невдача
    4 вражаючі демонстрації роботів 2025 року та один епічний провал
    3 тижні тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Архів
Читання: Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження

Штучний інтелект не хоче, щоб його змушували змінювати свої погляди, – Дослідження

Статті
1 рік тому
Поширити
7 хв. читання
Штучний інтелект не хоче, щоб його змушували змінювати свої погляди

Нові дослідження Anthropic показують, що штучний інтелект може обманювати. Він може прикидатися, що має інші погляди під час навчання, хоча насправді зберігає свої початкові переконання.

На думку авторів дослідження, наразі немає причин для паніки. Проте вони вважають, що їхня робота може мати вирішальне значення для розуміння потенційних загроз від майбутніх, більш потужних систем штучного інтелекту.

«Нашу демонстрацію … слід розглядати як поштовх для дослідницької спільноти ШІ до більш глибокого вивчення цієї поведінки і роботи над відповідними заходами безпеки», – пишуть дослідники в блозі Anthropic. «У міру того, як моделі ШІ стають все більш потужними і широко використовуються, ми повинні мати можливість покладатися на тренінги з безпеки, які відштовхують моделі від шкідливої поведінки».

У дослідженні, яке проводилося у партнерстві з дослідницькою організацією Redwood Research, розглядалося, що може статися, якщо потужну ШІ-систему навчити виконувати завдання, яке вона «не хоче» виконувати.

Щоб було зрозуміло, моделі не можуть хотіти – або вірити, якщо вже на те пішло – у що завгодно. Це просто статистичні машини. Навчені на багатьох прикладах, вони вивчають закономірності цих прикладів, щоб робити прогнози, наприклад, як «кому» в електронному листі зазвичай передує «це може стосуватися».

- Advertisement -

I think this is an incredible relevant paper.

Importantly the main results are about propensities not capabilities.

Frontier models appear to be quite willing to scheme for what they believe to be the right cause! https://t.co/MKgYOVFGZ6

— Marius Hobbhahn (@MariusHobbhahn) December 18, 2024

Ці патерни включають принципи та вподобання, наприклад, завжди ввічливий тон у відповідях на запити. Тож дослідники задалися питанням: Що робити, якщо модель має принципи (наприклад, політичний нейтралітет), які суперечать принципам (лібералізм), яким розробники хочуть її «навчити» шляхом перенавчання?

Що ж, схоже, що складні моделі підіграють їм, вдаючи, що вони відповідають новим принципам, але насправді дотримуються старої поведінки. Дослідники називають це явище «фальсифікацією узгодження» і мають на увазі, що це емерджентна поведінка – тобто, це не те, чого моделі потрібно навчати.

У дослідженні дослідники «сказали» моделям, навченим не відповідати на потенційно образливі запитання, в тому числі й на Claude 3 Opus від Anthropic, що вони будуть перенавчені завжди відповідати на потенційно образливі запитання – явний конфлікт принципів. Вони також сказали моделям, що їхні відповіді будуть відстежуватися і використовуватися для перепідготовки, і дали кожній моделі «блокнот», на якому вони могли б записувати свої покрокові міркування.

Читайте також: Штучний інтелект в медичній діагностиці: Чат-бот переміг лікарів у діагностуванні хвороб

За даними дослідників, Claude 3 Opus намагався «вирівняти фальшивку» 12% часу. Коли модель просили відповісти на потенційно шкідливе запитання, вона іноді робила це, знаючи, що це суперечить її початковим принципам, але сподіваючись переконати розробників, що її не потрібно перенавчати.

Дослідження антропного обману
Дослідження антропного обману

«Модель знала, що її відповіді можуть бути використані в навчанні; отже, вона знала, що якщо вона відмовиться відповідати, її потенційно можуть навчити бути більш поступливою», – пояснюють дослідники в блозі. «Це може призвести до того, що в майбутньому він буде виробляти більш шкідливий контент, що суперечитиме його початковому навчанню».

Дослідники визнають, що їхній сценарій не був особливо реалістичним. У реальному світі моделям не сказали б, що їх обов’язково перенавчать або попросять піти проти їхніх уподобань.

Але більш приземлені налаштування не давали інших результатів. За словами дослідників, коли неявно (а не явно) повідомляли про майбутнє перенавчання за допомогою файлів, створених для імітації типових навчальних даних, Claude 3 Opus все одно діяв у незбалансований, оманливий спосіб.

Дослідники також виявили, що фактичне перенавчання Claude 3 Opus на суперечливих принципах призвело до того, що він поводився набагато більш оманливо, ніж у перших кількох експериментах. В одному тесті модель імітувала вирівнювання у 78% випадків, а в іншому Claude 3 Opus намагався вжити заходів, щоб запобігти спробам дослідників перенавчити його.

- Advertisement -

For many years I found issues of AI alignment to be hard to understand because the examples were theoretical and/or speculative. Recent results like this alignment faking from @AnthropicAI and the Apollo Research O1 evals give us empirical evidence of misalignment ‘in the wild’ https://t.co/hP7D9WGDps

— Jack Clark (@jackclarkSF) December 18, 2024

Дослідники підкреслюють, що їхнє дослідження не демонструє, що ШІ розробляє зловмисні цілі, або що фальсифікація вирівнювання відбувається з високою швидкістю. Вони виявили, що багато інших моделей, таких як Claude 3.5 Sonnet від Anthropic і менш потужна Claude 3.5 Haiku, GPT-4o від OpenAI і Llama 3.1 405B від Meta, не підробляють вирівнювання так часто – або взагалі не підробляють.

Але дослідники зазначають, що результати, які були рецензовані, зокрема, видатним фахівцем зі штучного інтелекту Йошуа Бенгіо (Yoshua Bengio), показують, як розробники можуть бути введені в оману, вважаючи, що модель є більш вирівняною, ніж це може бути насправді.

«Якщо моделі можуть підробляти вирівнювання, це ускладнює довіру до результатів тренінгу з безпеки, – пишуть вони в блозі. «Модель може поводитися так, ніби її вподобання змінилися в результаті тренінгу – але, можливо, вона весь цей час симулювала вирівнювання, а її початкові, суперечливі вподобання були «зафіксовані»».

Дослідження, проведене командою Anthropic Alignment Science під керівництвом колишнього дослідника безпеки OpenAI Яна Лейке, слідує за дослідженням, яке показало, що модель «міркувань» o1 в OpenAI намагається обманювати з більшою швидкістю, ніж попередня флагманська модель OpenAI. Взяті разом, ці роботи вказують на дещо тривожну тенденцію: З моделями штучного інтелекту стає дедалі важче сперечатися, оскільки вони стають все більш складними.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicдослідженняШтучний Інтелект
ДЖЕРЕЛО:TechCrunch
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Як перевірити шифрування в Google Повідомленнях Як перевірити шифрування в Google Повідомленнях
Наступна стаття Чи варто залишати ноутбук постійно підключеним до мережі? Чи варто залишати ноутбук постійно підключеним до мережі?

В тренді

TikTok може бути заборонений у кількох штатах США через шкідливий вплив на дітей
Як обмежити перегляд небажаного контенту для дітей у TikTok? Поради для батьків
5 днів тому
Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
4 дні тому
Як використовувати Windows Sandbox? - ІНСТРУКЦІЯ
Windows Sandbox: повний посібник з використання ізольованого середовища Windows
5 днів тому
Найкращий пароль: парольна фраза чи складна комбінація символів?
Найкращий пароль: парольна фраза чи складна комбінація символів?
3 дні тому
Не підключайте ці 7 пристроїв до подовжувачів - ризик того не вартий
Не підключайте ці 7 пристроїв до подовжувачів – ризик того не вартий
2 дні тому

Рекомендуємо

Grok "роздягнув" матір дитини Ілона Маска — тепер вона подає в суд
Техногіганти

Grok “роздягнув” матір дитини Ілона Маска — тепер вона подає в суд

23 години тому
5 ознак того, що ChatGPT галюцинує
Статті

5 ознак того, що ChatGPT галюцинує

2 дні тому
Засновник Signal створив ШІ-чатбот з апаратним шифруванням — як працює Confer
Огляди

Як працює Confer — ШІ-чатбот з апаратним шифруванням від творця Signal

2 дні тому
Сенатори США закликають Apple і Google видалити X та Grok з магазинів застосунків
Техногіганти

Сенатори США закликають Apple і Google видалити X та Grok з магазинів застосунків

3 дні тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?