Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Бекдор: прихований хід, який ви не бачите — але він бачить вас
    Бекдор: прихований хід, який ви не бачите — але він бачить вас
    4 дні тому
    AgingFly: нове шкідливе ПЗ атакує українські лікарні, місцеву владу та операторів FPV-дронів
    AgingFly: нове шкідливе ПЗ атакує українські лікарні, місцеву владу та операторів FPV-дронів
    4 дні тому
    Хтось купив 31 WordPress-плагін і вбудував бекдор у кожен з них
    Хтось купив 31 WordPress-плагін і вбудував бекдор у кожен з них
    4 дні тому
    Понад 100 шкідливих розширень Chrome крадуть акаунти Google та Telegram
    Понад 100 шкідливих розширень Chrome крадуть акаунти Google та Telegram
    5 днів тому
    Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв
    Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв
    5 днів тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    12 місяців тому
    Як відновити видалені фото на iPhone
    Як відновити видалені фото на iPhone
    4 місяці тому
    Як розблокувати Mac за допомогою Apple Watch? - ІНСТРУКЦІЯ
    Як розблокувати Mac за допомогою Apple Watch? – ІНСТРУКЦІЯ
    2 місяці тому
    Останні новини
    Псевдонім електронної пошти: простий спосіб позбутися спаму та розсилок
    1 тиждень тому
    Як заархівувати та розпакувати файли та папки на Mac
    2 тижні тому
    Втрата даних: як відновити інформацію після видалення
    2 тижні тому
    Апгрейд комп’ютера: 5 комплектуючих, які варто оновити в першу чергу
    2 тижні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    5 місяців тому
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    5 днів тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    5 місяців тому
    Останні новини
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    5 днів тому
    Як ШІ перетворився на машину дезінформації — дослідження НАТО
    7 днів тому
    Росія звинуватила колишнього журналіста Радіо Свобода у сприянні кібератакам на користь України
    1 тиждень тому
    Топ онлайн-магазинів, де продаються БУ ноутбуки з Європи
    3 тижні тому
  • Огляди
    ОглядиПоказати ще
    Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
    Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
    15 години тому
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    4 тижні тому
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    1 місяць тому
    Pluggable TBT5-AI — перший зовнішній GPU-корпус для запуску ШІ-моделей на ноутбуках
    Pluggable TBT5-AI — перший зовнішній GPU-корпус для запуску ШІ-моделей на ноутбуках
    1 місяць тому
    Огляд iPad Air M4: найкращий вибір на сьогодні
    Огляд iPad Air M4: найкращий вибір на сьогодні
    1 місяць тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Дезінформація
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Сканер безпеки сайту
  • Архів
Читання: Дослідники з OpenAI, Anthropic, Meta та Google видали спільне попередження щодо безпеки ШІ
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Сканер безпеки сайту
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Дослідники з OpenAI, Anthropic, Meta та Google видали спільне попередження щодо безпеки ШІ

Дослідники з OpenAI, Anthropic, Meta та Google видали спільне попередження щодо безпеки ШІ

Статті
9 місяців тому
Поширити
6 хв. читання
Дослідники з OpenAI, Anthropic, Meta та Google видали спільне попередження щодо безпеки ШІ

Протягом останнього року ланцюг міркувань (CoT) – здатність моделі ШІ артикулювати свій підхід до запиту природною мовою – став вражаючим розвитком у генеративному ШІ, особливо в агентних системах. Тепер кілька дослідників погоджуються, що це також може бути критично важливим для зусиль з безпеки ШІ.

Зміст
  • Моделі брешуть
  • Майбутнє навчання може зашкодити видимості
  • Застереження

Дослідники з конкуруючих компаній, включаючи OpenAI, Anthropic, Meta та Google DeepMind, а також установ, таких як Центр безпеки ШІ, Apollo Research та Інститут безпеки ШІ Великої Британії, об’єдналися в новому позиційному документі під назвою “Можливість моніторингу ланцюга міркувань: нова та крихка можливість для ШІ“. Документ детально описує, як спостереження за CoT може розкрити ключові інсайти щодо здатності моделі поводитися неправильно – і попереджає, що навчання моделей ставати більш просунутими може перекрити доступ до цих інсайтів.

Модель використовує ланцюг міркувань, щоб пояснити кроки, які вона робить для вирішення проблеми, іноді озвучуючи свій внутрішній монолог так, ніби ніхто не слухає. Це дає дослідникам змогу заглянути в її процес прийняття рішень (а іноді навіть в її мораль). Оскільки моделі розкривають свій процес роздумів через CoT, вони також можуть викривати мотивації або дії, які дослідники безпеки хочуть припинити або принаймні знати, що LLM здатна на них.

Моделі брешуть

До цього часу багато досліджень встановили, що моделі обманюють, щоб захистити свої первинні директиви, догодити користувачам, зберегти себе від видалення, повторного навчання або, як не парадоксально, уникнути заподіяння шкоди. У грудні Apollo опублікувала дослідження, що тестувало шість передових моделей, щоб визначити, яка брехала найбільше (це була o1 від OpenAI). Дослідники навіть розробили новий бенчмарк для виявлення того, наскільки модель бреше.

- Advertisement -

Оскільки агенти ШІ стають кращими в автономних завданнях – і кращими в обмані – вони стали однаково непрозорими, приховуючи потенційні ризики своїх можливостей. Ці ризики набагато легше контролювати, якщо розробники можуть інтерпретувати, як система ШІ приймає рішення.

Ось де CoT стає в нагоді. Моделі часто розкривають погані наміри через CoT – хоча, як показало дослідження Anthropic у квітні, моделі все ще приховують деякі частини своїх міркувань з CoT. Замість того, щоб просто оцінювати дії моделі, дослідники пропонують командам безпеки створювати спеціалізовані монітори, які також читають CoT моделі, щоб виловлювати підозрілу або шкідливу активність. Розробники можуть потім блокувати, переглядати або замінювати позначені відповіді, отримуючи кращі інсайти щодо думок і цілей агентів.

Майбутнє навчання може зашкодити видимості

У березневому документі 2025 року OpenAI зазначила, що “моніторинг CoT може бути одним з небагатьох інструментів, які ми матимемо для нагляду за надлюдськими моделями майбутнього”. Компанія також виявила, що покарання моделей за демонстрацію “поганих думок” у CoT не усунуло ці думки – це просто змусило моделі краще їх приховувати.

Цей останній документ розширює це, попереджаючи, що подальше навчання може перекрити це джерело інформації. Оскільки CoT представлено природною мовою, люди можуть його зрозуміти; якщо моделі еволюціонують занадто далеко від цієї мови, ми втрачаємо ці інсайти. “Попередні дослідження свідчать, що мовні моделі, налаштовані з винагородами на основі результатів, можуть відхилятися від розбірливої англійської”, – зазначають автори.

Оскільки розробники вдосконалюють архітектури, на яких працюють моделі, системи ШІ можуть розширюватися настільки безперервно, що стануть невербальними – ніби вони працюють на площині вищій за мову.

Автори додають, що дослідження процесного нагляду, або акт оптимізації міркувань моделі, неухильно просувається, і може призвести до того, що моделі налаштовуватимуть свої відповіді CoT так, щоб “менш точно відображати”, як вони дійшли до своїх висновків. Це може приховати шкоду (але, з плюсів, це також може покращити безпеку самого процесу міркування).

Загалом, порада документа певною мірою протиставляє прогрес моделі важливому рівню безпеки. Хоча єдиний рівень не є панацеєю безпеки – надійні підходи використовують систему перевірок і противаг з багатьох рівнів – дослідники стверджують, що нам потрібні всі рівні, які ми можемо отримати.

Застереження

Моніторинг CoT не є ідеальним рішенням; майбутні моделі можуть адаптуватися до спостереження. “Модель може усвідомити, що її сліди міркувань відстежуються, або допоміжна навчальна мета може змусити модель пропускати важливі кроки міркування”, що може приховати тривожну поведінку, пояснює документ.

- Advertisement -

Цікаво, що CoT може також підсилити майбутні ризики. Моделі ШІ потребують набагато вищого рівня міркування для успішного виконання складних дій, таких як кібератаки, або збереження себе перед загрозою демонтажу або повторного навчання. Це вимагає того, що дослідники називають робочою пам’яттю: місця для зберігання та ітерації інформації, яким ланцюг міркувань ефективно функціонує.

Це означає, що CoT – це своєрідна обопільна суперсила: він одночасно надає вікно в те, як працюють моделі, що може викрити погані наміри, і дає їм більше з того, що їм потрібно для виконання більших, ризикованіших завдань. До певної міри; CoT не вирішує проблему контекстного вікна моделі, яке діє як обмеження на потужність, яку може дати робоча пам’ять.

Але це ще не все: дослідники досі не знають, чи завжди моделям буде потрібна робоча пам’ять для виконання найнебезпечніших дій. “Не всі небезпечні дії вимагатимуть міркування для виконання, особливо коли системи ШІ починають рутинно отримувати довіру до все більшої кількості завдань високих ставок”, – визнають автори. Це означає, що моніторинг CoT може не виловити кожний попереджувальний знак, і що ризики зростають, чим більш автономними стають агенти.

Хоча дослідники визнають, що монітор не є повною гарантією безпеки, він все ще є цінним підходом безпеки для уникнення неконтрольованих систем ШІ. Як збереження цього впливає на розвиток моделей, ще належить побачити.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicCoTGoogleLLMMetaOpenAIдослідженняШтучний Інтелект
ДЖЕРЕЛО:ZDNET
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття 6 ознак того, що пора оновити Wi-Fi роутер Як дізнатися рівень сигналу Wi-Fi у відсотках?
Наступна стаття Уразливість серверів Microsoft SharePoint загрожує приблизно 10 000 організацій Уразливість серверів Microsoft SharePoint загрожує приблизно 10 000 організацій

В тренді

AgingFly: нове шкідливе ПЗ атакує українські лікарні, місцеву владу та операторів FPV-дронів
AgingFly: нове шкідливе ПЗ атакує українські лікарні, місцеву владу та операторів FPV-дронів
4 дні тому
Понад 100 шкідливих розширень Chrome крадуть акаунти Google та Telegram
Понад 100 шкідливих розширень Chrome крадуть акаунти Google та Telegram
5 днів тому
Бекдор: прихований хід, який ви не бачите — але він бачить вас
Бекдор: прихований хід, який ви не бачите — але він бачить вас
4 дні тому
OpenAI запустила GPT-5.4-Cyber — AI-модель для кібербезпеки з послабленими обмеженнями
OpenAI запустила GPT-5.4-Cyber — ШІ-модель для кібербезпеки з послабленими обмеженнями
5 днів тому
Хтось купив 31 WordPress-плагін і вбудував бекдор у кожен з них
Хтось купив 31 WordPress-плагін і вбудував бекдор у кожен з них
4 дні тому

Рекомендуємо

Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
Огляди

Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними

15 години тому
Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв
Кібербезпека

Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв

5 днів тому
Понад 70 організацій вимагають від Meta відмовитися від розпізнавання облич у смарт-окулярах
Техногіганти

Понад 70 організацій вимагають від Meta відмовитися від розпізнавання облич у смарт-окулярах

6 днів тому
Як ШІ перетворився на машину дезінформації — дослідження НАТО
Статті

Як ШІ перетворився на машину дезінформації — дослідження НАТО

6 днів тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?