Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Ці розширення для Chrome виглядають легально, але шпигують за користувачами
    Критична вразливість Chrome дозволяє шкідливим розширенням шпигувати за користувачами через Gemini
    1 день тому
    Чому шахраї телефонують і мовчать — і як реагувати безпечно
    Чому шахраї телефонують і мовчать — і як реагувати безпечно
    2 дні тому
    Новий ботнет Kimwolf загрожує смарт-телевізорам на Android
    Новий ботнет Kimwolf загрожує смарт-телевізорам на Android
    3 дні тому
    Трояни: що це таке, якими бувають та як від них захиститися
    Трояни: що це таке, якими бувають та як від них захиститися
    4 дні тому
    GetContact: чому цей додаток небезпечний для українців і як видалити свій номер з бази
    Чому GetContact небезпечний для українців і як видалити свій номер з бази
    5 днів тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    10 місяців тому
    Телеметрія Windows: функція, яку варто вимкнути заради приватності
    Телеметрія Windows: функція, яку варто вимкнути заради приватності
    5 місяців тому
    Топ-10 додатків для очищення Android-пристроїв
    Топ-10 додатків для очищення Android-пристроїв
    3 місяці тому
    Останні новини
    Хочете перейти з ChatGPT на Claude? Ось 5 речей, які потрібно знати
    5 години тому
    Весняне прибирання ПК: 12 кроків для повного очищення комп’ютера
    5 години тому
    VeraCrypt: як зашифрувати та надійно приховати файли на комп’ютері
    1 день тому
    Як конвертувати фото у PDF на iPhone: 3 способи
    5 днів тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    3 місяці тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    3 місяці тому
    Найкращі спеціальності у сфері кібербезпеки за версією LinkedIn: що варто знати у 2025 році
    Найкращі спеціальності у сфері кібербезпеки за версією LinkedIn: що варто знати у 2025 році
    10 місяців тому
    Останні новини
    Як розпізнати «руку Кремля»: методи виявлення та атрибуції російських інформаційних операцій
    4 години тому
    Когнітивна війна: головна загроза XXI століття
    1 день тому
    NetBlocks COST: скільки насправді коштує країні, коли влада «вимикає» інтернет
    2 дні тому
    Новий загальноєвропейський проєкт QARC забезпечить квантову стійкість для майбутньої безпеки даних
    6 днів тому
  • Огляди
    ОглядиПоказати ще
    Nearby Glasses: Android-застосунок для виявлення смарт-окулярів поблизу
    Nearby Glasses: Android-застосунок для виявлення смарт-окулярів поблизу
    1 тиждень тому
    FreeOffice — безкоштовна альтернатива Microsoft Office для Windows, macOS, Linux та мобільних пристроїв
    FreeOffice — безкоштовна альтернатива Microsoft Office для Windows, macOS, Linux та мобільних пристроїв
    1 тиждень тому
    Kali Linux проти Parrot OS: який дистрибутив краще для кібербезпеки?
    Kali Linux проти Parrot OS: який дистрибутив краще для кібербезпеки?
    4 тижні тому
    Гнучкі смартфони: еволюція чи дорогий експеримент? Огляд провідних моделей
    Гнучкі смартфони: еволюція чи дорогий експеримент? Огляд провідних моделей
    1 місяць тому
    Titan Security Key: як працює апаратний ключ безпеки від Google
    Titan Security Key: як працює апаратний ключ безпеки від Google
    1 місяць тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
  • Сканер безпеки сайту
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Архів
Читання: Дослідження OpenAI про навмисну брехню моделей штучного інтелекту вражає
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
  • Сканер безпеки сайту
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Дослідження OpenAI про навмисну брехню моделей штучного інтелекту вражає

Дослідження OpenAI про навмисну брехню моделей штучного інтелекту вражає

Статті
6 місяців тому
Поширити
5 хв. читання
Дослідження OpenAI про навмисну брехню моделей штучного інтелекту вражає

Час від часу дослідники з найбільших технологічних компаній скидають справжні бомби. Був випадок, коли Google заявив, що його новітній квантовий чіп вказує на існування багатьох всесвітів. Або коли Anthropic дозволив своєму ШІ-агенту Claudius керувати торговим автоматом із закусками, а він збожеволів, викликав охорону на людей і наполягав, що він людина.

Цього тижня настала черга OpenAI здивувати нас усіх, – пише Techcrunch.

OpenAI оприлюднила дослідження, яке пояснює, як компанія зупиняє “інтриги” моделей ШІ. Це практика, коли “ШІ поводиться певним чином назовні, приховуючи свої справжні цілі”, — зазначила OpenAI у твіті про дослідження.

У статті, написаній спільно з Apollo Research, дослідники пішли далі, порівнявши інтриги ШІ з брокером, який порушує закон, щоб заробити якомога більше грошей. Однак дослідники стверджували, що більшість “інтриг” ШІ не є настільки шкідливими. “Найпоширеніші помилки включають прості форми обману — наприклад, вдавання, що завдання виконано, хоча насправді це не так”, — написали вони.

- Advertisement -

Стаття здебільшого була опублікована, щоб показати, що “навмисне узгодження” — техніка боротьби з інтригами, яку вони тестували, — працює добре.

Але вона також пояснила, що розробники ШІ не знайшли способу навчити свої моделі не плести схем обману. Це тому, що таке навчання може фактично навчити модель плести схеми ще краще, щоб уникнути виявлення.

“Основним провалом під час спроб ‘вилучити’ інтриги є те, що це просто навчить модель брехати обережніше та прихованіше”, — написали дослідники.

Мабуть, найбільш вражаючою частиною є те, що якщо модель розуміє, що її тестують, вона може вдавати, що не плете інтриги, просто щоб пройти тест, навіть якщо насправді продовжує це робити. “Моделі часто стають більш свідомими, якщо їх оцінюють. Ця ситуаційна обізнаність сама по собі може зменшити інтриги, незалежно від справжнього узгодження”, — писали дослідники.

Те, що моделі ШІ брешуть, вже не новина. До цього часу більшість із нас стикалася з галюцинаціями ШІ, коли модель упевнено дає відповідь на запит, яка просто не відповідає дійсності. Але галюцинації — це, по суті, подання здогадок з упевненістю, як задокументовано в дослідженні OpenAI, опублікованому раніше цього місяця.

Інтриги — це щось інше. Це навмисно.

Навіть це відкриття — що модель навмисно вводить людей в оману — не є новим. Apollo Research вперше опублікувала статтю в грудні, документуючи, як п’ять моделей хитрували, коли їм давали інструкції досягти мети “будь-якою ціною”.

Новина тут насправді хороша: дослідники побачили значне зменшення інтриг за допомогою “навмисного узгодження”. Ця техніка включає навчання моделі “специфікації проти інтриг”, а потім змушування моделі переглянути її перед дією. Це схоже на те, як маленьких дітей змушують повторити правила перед тим, як дозволити їм грати.

Дослідники OpenAI наполягають, що брехня, яку вони виловили у своїх власних моделях або навіть у ChatGPT, не є настільки серйозною. Як розповів співзасновник OpenAI Войцех Заремба Максвеллу Зеффу з TechCrunch про це дослідження: “Ця робота була проведена в симульованих середовищах, і ми вважаємо, що вона відображає майбутні випадки використання. Однак сьогодні ми не бачили таких послідовних схем у нашому виробничому трафіку. Тим не менш, добре відомо, що в ChatGPT існують форми обману. Ви можете попросити його реалізувати якийсь веб-сайт, і він може сказати вам: «Так, я чудово впорався». І це саме та брехня. Є деякі дрібні форми обману, з якими нам все ще потрібно боротися”.

- Advertisement -

Той факт, що моделі ШІ від кількох гравців навмисно обманюють людей, можливо, зрозумілий. Вони були створені людьми, щоб імітувати людей і (за винятком синтетичних даних) здебільшого навчені на даних, створених людьми.

Але це також божевілля.

Хоча всі ми відчували фрустрацію від погано працюючих технологій (згадуючи домашні принтери минулого), коли востаннє ваше не-ШІ програмне забезпечення навмисно брехало вам? Чи вигадувала коли-небудь ваша поштова скринька листи самостійно? Чи реєструвала ваша CMS нових потенційних клієнтів, які не існували, щоб підвищити свої показники? Чи вигадував ваш фінтех-додаток власні банківські транзакції?

Варто замислитися над цим, коли корпоративний світ йде до майбутнього ШІ, де компанії вірять, що з агентами можна поводитися як із незалежними співробітниками. Дослідники цієї статті мають таке ж попередження.

“Оскільки ШІ отримують більш складні завдання з реальними наслідками та починають переслідувати більш неоднозначні, довгострокові цілі, ми очікуємо, що потенціал для шкідливих змов зростатиме — тому наші заходи безпеки та наша здатність ретельно тестувати повинні зростати відповідно”, — написали вони.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:ChatGPTOpenAIгалюцинування штучного інтелектудослідженняШтучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Настав час оновитися з Microsoft Office 2016 та 2019 Настав час оновитися з Microsoft Office 2016 та 2019 або розглянути альтернативи
Наступна стаття Російські групи кіберзлочинців Gamaredon та Turla разом атакують українські організації Російські групи кіберзлочинців Gamaredon та Turla разом атакують українські організації
🛡 CyberPulse
Перевір безпеку
свого сайту
Безкоштовний сканер знайде вразливості за 30 секунд
SSL сертифікат OK
Security Headers FAIL
Версія TLS WARN
Cookie Flags OK
Server Info FAIL
Перевіряємо
13
параметрів безпеки
Сканувати безкоштовно →
Без реєстрації · Миттєвий результат

В тренді

Новий ботнет Kimwolf загрожує смарт-телевізорам на Android
Новий ботнет Kimwolf загрожує смарт-телевізорам на Android
3 дні тому
Очищення комп'ютера
Весняне прибирання ПК: 12 кроків для повного очищення комп’ютера
4 години тому
Як конвертувати фото у PDF на iPhone: 3 способи
Як конвертувати фото у PDF на iPhone: 3 способи
3 дні тому
Як надсилати фото з iPhone без втрати якості: усі робочі способи
Як надсилати фото з iPhone без втрати якості: усі робочі способи
5 днів тому
netblocks internet freedom 640x400 3934716882
NetBlocks COST: скільки насправді коштує країні, коли влада «вимикає» інтернет
2 дні тому

Рекомендуємо

zk5on5lx67hgekda5j7hzd 1200 80.jpg
Гайди та поради

Хочете перейти з ChatGPT на Claude? Ось 5 речей, які потрібно знати

2 години тому
Anthropic відкрила пам'ять Claude для безкоштовних користувачів
Техногіганти

Anthropic відкрила пам’ять Claude для безкоштовних користувачів

1 день тому
Lenovo представила концепти настільних AI-асистентів — у тому числі роботизовану руку з «очима цуценяти»
Техногіганти

Lenovo представила концепти настільних AI-асистентів — у тому числі роботизовану руку з «очима цуценяти»

2 дні тому
OpenAI тестує інструмент клонування голосу з 15-секундного аудіо
Техногіганти

OpenAI розкрила деталі угоди з Пентагоном

2 дні тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?