Нові дослідження Anthropic показують, що штучний інтелект може обманювати. Він може прикидатися, що має інші погляди під час навчання, хоча насправді зберігає свої початкові переконання.
На думку авторів дослідження, наразі немає причин для паніки. Проте вони вважають, що їхня робота може мати вирішальне значення для розуміння потенційних загроз від майбутніх, більш потужних систем штучного інтелекту.
«Нашу демонстрацію … слід розглядати як поштовх для дослідницької спільноти ШІ до більш глибокого вивчення цієї поведінки і роботи над відповідними заходами безпеки», – пишуть дослідники в блозі Anthropic. «У міру того, як моделі ШІ стають все більш потужними і широко використовуються, ми повинні мати можливість покладатися на тренінги з безпеки, які відштовхують моделі від шкідливої поведінки».
У дослідженні, яке проводилося у партнерстві з дослідницькою організацією Redwood Research, розглядалося, що може статися, якщо потужну ШІ-систему навчити виконувати завдання, яке вона «не хоче» виконувати.
Щоб було зрозуміло, моделі не можуть хотіти – або вірити, якщо вже на те пішло – у що завгодно. Це просто статистичні машини. Навчені на багатьох прикладах, вони вивчають закономірності цих прикладів, щоб робити прогнози, наприклад, як «кому» в електронному листі зазвичай передує «це може стосуватися».
I think this is an incredible relevant paper.
Importantly the main results are about propensities not capabilities.
Frontier models appear to be quite willing to scheme for what they believe to be the right cause! https://t.co/MKgYOVFGZ6
— Marius Hobbhahn (@MariusHobbhahn) December 18, 2024
Ці патерни включають принципи та вподобання, наприклад, завжди ввічливий тон у відповідях на запити. Тож дослідники задалися питанням: Що робити, якщо модель має принципи (наприклад, політичний нейтралітет), які суперечать принципам (лібералізм), яким розробники хочуть її «навчити» шляхом перенавчання?
Що ж, схоже, що складні моделі підіграють їм, вдаючи, що вони відповідають новим принципам, але насправді дотримуються старої поведінки. Дослідники називають це явище «фальсифікацією узгодження» і мають на увазі, що це емерджентна поведінка – тобто, це не те, чого моделі потрібно навчати.
У дослідженні дослідники «сказали» моделям, навченим не відповідати на потенційно образливі запитання, в тому числі й на Claude 3 Opus від Anthropic, що вони будуть перенавчені завжди відповідати на потенційно образливі запитання – явний конфлікт принципів. Вони також сказали моделям, що їхні відповіді будуть відстежуватися і використовуватися для перепідготовки, і дали кожній моделі «блокнот», на якому вони могли б записувати свої покрокові міркування.
Читайте також: Штучний інтелект в медичній діагностиці: Чат-бот переміг лікарів у діагностуванні хвороб
За даними дослідників, Claude 3 Opus намагався «вирівняти фальшивку» 12% часу. Коли модель просили відповісти на потенційно шкідливе запитання, вона іноді робила це, знаючи, що це суперечить її початковим принципам, але сподіваючись переконати розробників, що її не потрібно перенавчати.
«Модель знала, що її відповіді можуть бути використані в навчанні; отже, вона знала, що якщо вона відмовиться відповідати, її потенційно можуть навчити бути більш поступливою», – пояснюють дослідники в блозі. «Це може призвести до того, що в майбутньому він буде виробляти більш шкідливий контент, що суперечитиме його початковому навчанню».
Дослідники визнають, що їхній сценарій не був особливо реалістичним. У реальному світі моделям не сказали б, що їх обов’язково перенавчать або попросять піти проти їхніх уподобань.
Але більш приземлені налаштування не давали інших результатів. За словами дослідників, коли неявно (а не явно) повідомляли про майбутнє перенавчання за допомогою файлів, створених для імітації типових навчальних даних, Claude 3 Opus все одно діяв у незбалансований, оманливий спосіб.
Дослідники також виявили, що фактичне перенавчання Claude 3 Opus на суперечливих принципах призвело до того, що він поводився набагато більш оманливо, ніж у перших кількох експериментах. В одному тесті модель імітувала вирівнювання у 78% випадків, а в іншому Claude 3 Opus намагався вжити заходів, щоб запобігти спробам дослідників перенавчити його.
For many years I found issues of AI alignment to be hard to understand because the examples were theoretical and/or speculative. Recent results like this alignment faking from @AnthropicAI and the Apollo Research O1 evals give us empirical evidence of misalignment ‘in the wild’ https://t.co/hP7D9WGDps
— Jack Clark (@jackclarkSF) December 18, 2024
Дослідники підкреслюють, що їхнє дослідження не демонструє, що ШІ розробляє зловмисні цілі, або що фальсифікація вирівнювання відбувається з високою швидкістю. Вони виявили, що багато інших моделей, таких як Claude 3.5 Sonnet від Anthropic і менш потужна Claude 3.5 Haiku, GPT-4o від OpenAI і Llama 3.1 405B від Meta, не підробляють вирівнювання так часто – або взагалі не підробляють.
Але дослідники зазначають, що результати, які були рецензовані, зокрема, видатним фахівцем зі штучного інтелекту Йошуа Бенгіо (Yoshua Bengio), показують, як розробники можуть бути введені в оману, вважаючи, що модель є більш вирівняною, ніж це може бути насправді.
«Якщо моделі можуть підробляти вирівнювання, це ускладнює довіру до результатів тренінгу з безпеки, – пишуть вони в блозі. «Модель може поводитися так, ніби її вподобання змінилися в результаті тренінгу – але, можливо, вона весь цей час симулювала вирівнювання, а її початкові, суперечливі вподобання були «зафіксовані»».
Дослідження, проведене командою Anthropic Alignment Science під керівництвом колишнього дослідника безпеки OpenAI Яна Лейке, слідує за дослідженням, яке показало, що модель «міркувань» o1 в OpenAI намагається обманювати з більшою швидкістю, ніж попередня флагманська модель OpenAI. Взяті разом, ці роботи вказують на дещо тривожну тенденцію: З моделями штучного інтелекту стає дедалі важче сперечатися, оскільки вони стають все більш складними.