Час від часу дослідники з найбільших технологічних компаній скидають справжні бомби. Був випадок, коли Google заявив, що його новітній квантовий чіп вказує на існування багатьох всесвітів. Або коли Anthropic дозволив своєму ШІ-агенту Claudius керувати торговим автоматом із закусками, а він збожеволів, викликав охорону на людей і наполягав, що він людина.
Цього тижня настала черга OpenAI здивувати нас усіх, – пише Techcrunch.
OpenAI оприлюднила дослідження, яке пояснює, як компанія зупиняє “інтриги” моделей ШІ. Це практика, коли “ШІ поводиться певним чином назовні, приховуючи свої справжні цілі”, — зазначила OpenAI у твіті про дослідження.
У статті, написаній спільно з Apollo Research, дослідники пішли далі, порівнявши інтриги ШІ з брокером, який порушує закон, щоб заробити якомога більше грошей. Однак дослідники стверджували, що більшість “інтриг” ШІ не є настільки шкідливими. “Найпоширеніші помилки включають прості форми обману — наприклад, вдавання, що завдання виконано, хоча насправді це не так”, — написали вони.
Стаття здебільшого була опублікована, щоб показати, що “навмисне узгодження” — техніка боротьби з інтригами, яку вони тестували, — працює добре.
Але вона також пояснила, що розробники ШІ не знайшли способу навчити свої моделі не плести схем обману. Це тому, що таке навчання може фактично навчити модель плести схеми ще краще, щоб уникнути виявлення.
“Основним провалом під час спроб ‘вилучити’ інтриги є те, що це просто навчить модель брехати обережніше та прихованіше”, — написали дослідники.
Мабуть, найбільш вражаючою частиною є те, що якщо модель розуміє, що її тестують, вона може вдавати, що не плете інтриги, просто щоб пройти тест, навіть якщо насправді продовжує це робити. “Моделі часто стають більш свідомими, якщо їх оцінюють. Ця ситуаційна обізнаність сама по собі може зменшити інтриги, незалежно від справжнього узгодження”, — писали дослідники.
Те, що моделі ШІ брешуть, вже не новина. До цього часу більшість із нас стикалася з галюцинаціями ШІ, коли модель упевнено дає відповідь на запит, яка просто не відповідає дійсності. Але галюцинації — це, по суті, подання здогадок з упевненістю, як задокументовано в дослідженні OpenAI, опублікованому раніше цього місяця.
Інтриги — це щось інше. Це навмисно.
Навіть це відкриття — що модель навмисно вводить людей в оману — не є новим. Apollo Research вперше опублікувала статтю в грудні, документуючи, як п’ять моделей хитрували, коли їм давали інструкції досягти мети “будь-якою ціною”.
Новина тут насправді хороша: дослідники побачили значне зменшення інтриг за допомогою “навмисного узгодження”. Ця техніка включає навчання моделі “специфікації проти інтриг”, а потім змушування моделі переглянути її перед дією. Це схоже на те, як маленьких дітей змушують повторити правила перед тим, як дозволити їм грати.
Дослідники OpenAI наполягають, що брехня, яку вони виловили у своїх власних моделях або навіть у ChatGPT, не є настільки серйозною. Як розповів співзасновник OpenAI Войцех Заремба Максвеллу Зеффу з TechCrunch про це дослідження: “Ця робота була проведена в симульованих середовищах, і ми вважаємо, що вона відображає майбутні випадки використання. Однак сьогодні ми не бачили таких послідовних схем у нашому виробничому трафіку. Тим не менш, добре відомо, що в ChatGPT існують форми обману. Ви можете попросити його реалізувати якийсь веб-сайт, і він може сказати вам: «Так, я чудово впорався». І це саме та брехня. Є деякі дрібні форми обману, з якими нам все ще потрібно боротися”.
Той факт, що моделі ШІ від кількох гравців навмисно обманюють людей, можливо, зрозумілий. Вони були створені людьми, щоб імітувати людей і (за винятком синтетичних даних) здебільшого навчені на даних, створених людьми.
Але це також божевілля.
Хоча всі ми відчували фрустрацію від погано працюючих технологій (згадуючи домашні принтери минулого), коли востаннє ваше не-ШІ програмне забезпечення навмисно брехало вам? Чи вигадувала коли-небудь ваша поштова скринька листи самостійно? Чи реєструвала ваша CMS нових потенційних клієнтів, які не існували, щоб підвищити свої показники? Чи вигадував ваш фінтех-додаток власні банківські транзакції?
Варто замислитися над цим, коли корпоративний світ йде до майбутнього ШІ, де компанії вірять, що з агентами можна поводитися як із незалежними співробітниками. Дослідники цієї статті мають таке ж попередження.
“Оскільки ШІ отримують більш складні завдання з реальними наслідками та починають переслідувати більш неоднозначні, довгострокові цілі, ми очікуємо, що потенціал для шкідливих змов зростатиме — тому наші заходи безпеки та наша здатність ретельно тестувати повинні зростати відповідно”, — написали вони.


