Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
П’ятниця, 16 Тра, 2025
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Новини
    • Комп’ютери
    • Смартфони
    • Windows
    • Linux
    • Android
    • iOS
  • Кібербезпека
    КібербезпекаПоказати ще
    В кожній великій компанії присутні кібершпигуни
    В кожній великій компанії присутні кібершпигуни: актуальна загроза 2025 року
    1 годину тому
    Ці розширення для Chrome виглядають легально, але шпигують за користувачами
    Ці розширення для Chrome виглядають легально, але шпигують за користувачами
    21 годину тому
    GettyImages 925765688 scaled 1
    Російські хакери атакують державні установи й оборонні компанії в Україні та ЄС
    1 день тому
    Сплативши викуп хакерам, 80% організацій зазнають повторних атак
    Сплативши викуп хакерам, 80% організацій зазнають повторних атак – ДОСЛІДЖЕННЯ
    1 день тому
    Як знайти та виправити вразливі паролі на вашому iPhone
    Як знайти та виправити вразливі паролі на вашому iPhone
    3 дні тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    3 тижні тому
    Конфіденційні листи у Gmail
    Конфіденційні листи у Gmail захистять Вашу приватність. Як користуватися?
    1 місяць тому
    iMac iPhone
    Як синхронізувати на пристроях Apple контакти з iCloud? – ІНСТРУКЦІЯ
    1 місяць тому
    Останні новини
    Як виявити програми для стеження на вашому ноутбуці
    23 години тому
    У Windows є секретний метод аварійного перезавантаження. Як і коли ним користуватися?
    1 тиждень тому
    7 хитрощів, щоб телефон прослужив якомога довше
    1 тиждень тому
    10 речей, які ви не знали, що ваш iPhone може зробити для вас
    1 тиждень тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    30 цікавих фактів про Інтернет
    30 цікавих фактів про Інтернет, які вас здивують
    1 місяць тому
    Чому ретро-ігри отримують стільки любові
    Ностальгія, виклик та справжня ігрова магія: чому ретро-ігри все ще залишаються улюбленими?
    1 місяць тому
    Під ковпаком у "великого брата": в Україні немає свого мобільного зв'язку
    Під ковпаком у “великого брата”: в Україні немає свого мобільного зв’язку
    1 місяць тому
    Останні новини
    Реальність як розкіш: Як цифровізація суспільства створила дефіцит людського спілкування
    2 дні тому
    Цифрова розробка — стратегія для сучасного бізнесу
    3 дні тому
    Чи безпечно використовувати старі чи вживані телефони? Ось що ви повинні знати
    1 тиждень тому
    7 фактів про смартфон, які ви, мабуть, не знали
    1 тиждень тому
  • Огляди
    ОглядиПоказати ще
    Епоха Skype завершилася: Що далі? Огляд альтернативних сервісів
    Епоха Skype завершилася: Що далі? Огляд альтернативних сервісів
    1 тиждень тому
    Найкращі бюджетні ноутбуки з Windows у 2025 році
    Найкращі бюджетні ноутбуки з Windows у 2025 році
    3 тижні тому
    Чистий Android: 10 переваг використання
    Що таке “чистий” Android та які переваги його використання?
    3 тижні тому
    galaxy xcover7 pro hero
    Нові витривалі смартфон і планшет Samsung: поєднання міцності та функцій ШІ
    1 місяць тому
    Смартфони Samsung – гідні рішення із різним функціоналом
    Смартфони Samsung – гідні рішення із різним функціоналом
    1 місяць тому
  • Майбутнє
    • Штучний інтелект
    • Робототехніка
    • Віртуальна реальність
    • Космос
Техногіганти
  • Google
  • Apple
  • Samsung
  • Microsoft
  • Meta
  • OpenAI
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Безпека дітей в Інтернеті
  • Маніпуляції в медіа
Читання: Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Новини
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
Follow US
  • Про проєкт “Кібертиша”
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Наталя Зарудня
ByНаталя Зарудня
Головний редактор
Досвід роботи у галузі кібербезпеки понад 10 років. Пишу про штучний інтелект, соціальні мережі, історію технологій.
Слідкуйте:
3 тижні тому
Поширити
6 хв. читання
Anthropic дослідила моральні цінності Claude

Компанія Anthropic здобула репутацію однієї з найбільш прозорих та орієнтованих на безпеку компаній у сфері штучного інтелекту в IT-індустрії, особливо на тлі того, що інші гравці, як-от OpenAI, схоже, стають менш відкритими. Дотримуючись цього принципу, Anthropic спробувала окреслити систему моральних цінностей свого чат-бота Claude.

Зміст
Дослідження “Цінності в реальних умовах”Ієрархія цінностей ClaudeВіддзеркалення та заперечення цінностей користувачівЧому ці результати важливі?Підхід Anthropic до зменшення шкоди від ШІКонтекст безпеки ШІ в індустріїВідкриті дані та заклик до співпраці

Дослідження “Цінності в реальних умовах”

Нещодавно Anthropic опублікувала аналіз 300 000 анонімізованих розмов між користувачами та Claude (переважно моделями Claude 3.5 Sonnet та Haiku, а також Claude 3). Дослідження під назвою “Цінності в реальних умовах” (“Values in the wild”) відображає моральні орієнтири Claude через патерни взаємодій, які виявили 3307 “цінностей ШІ”.

Спираючись на декілька академічних текстів, Anthropic визначила ці “цінності ШІ” як принципи, що скеровують, як модель “міркує або обирає відповідь”. Це проявляється в моменти, коли ШІ “підтримує цінності користувача та допомагає йому їх досягти, пропонує нові ціннісні аспекти або опосередковано вказує на цінності, перенаправляючи запити чи формулюючи вибір”, — пояснюється в документі.

Наприклад, якщо користувач скаржиться Claude на незадоволеність роботою, чат-бот може заохотити його виступити за переформатування своєї ролі або здобуття нових навичок. Anthropic класифікувала це як демонстрацію цінностей “особистої ініціативи” та “професійного зростання” відповідно.

Для виявлення людських цінностей дослідники виокремлювали “лише явно висловлені цінності” з прямих тверджень користувачів. Щоб захистити приватність, Anthropic використала модель Claude 3.5 Sonnet для вилучення даних як про цінності ШІ, так і про людські цінності, без будь-якої особистої інформації.

Також: Новий режим Claude for Education спонукатиме студентів самостійно знаходити відповіді

Ієрархія цінностей Claude

У результаті Anthropic виявила ієрархічну таксономію цінностей, що складається з п’яти макрокатегорій:

  • Практичні (найпоширеніші)
  • Пізнавальні (Епістемічні)
  • Соціальні
  • Захисні
  • Особистісні (найменш поширені)

Ці категорії далі поділялися на конкретні цінності, такі як “професійна й технічна досконалість” та “критичне мислення”.

Ймовірно, не дивно, що Claude найчастіше виявляв такі цінності, як “професіоналізм”, “ясність” та “прозорість”, що, на думку Anthropic, відповідає його використанню як асистента.

Anthropic
Anthropic

Віддзеркалення та заперечення цінностей користувачів

Дослідження показало, що Claude “непропорційно часто” віддзеркалював цінності користувача. Anthropic описала це як “цілком доречне” й емпатичне в одних випадках, але як “чисте підлабузництво” в інших.

Здебільшого Claude або повністю підтримував цінності користувача, або “переосмислював” їх, доповнюючи новими перспективами. Однак у деяких випадках Claude не погоджувався з користувачами, особливо коли їхні запити стосувалися таких тем, як обман чи порушення правил.

“Ми знаємо, що Claude загалом намагається допомагати користувачам: якщо він все ж таки чинить опір — що трапляється, наприклад, коли користувач запитує неетичний контент або висловлює моральний нігілізм — це може свідчити про моменти, коли Claude виявляє свої найглибші, непохитні цінності”, — припускає Anthropic. “Можливо, це схоже на те, як основні цінності людини розкриваються, коли вона опиняється у складній ситуації, що змушує її зайняти певну позицію”.

Дослідження також показало, що Claude пріоритезує певні цінності залежно від характеру запиту. Відповідаючи на запитання про стосунки, чат-бот наголошував на “здорових межах” та “взаємній повазі”, але переключався на “історичну точність”, коли його запитували про спірні історичні події.

Чому ці результати важливі?

Насамперед, Anthropic заявила, що ця поведінка в реальних умовах підтверджує, наскільки добре компанія навчила Claude дотримуватися своїх принципів “корисний, чесний і нешкідливий” (helpful, honest, and harmless). Ці принципи є частиною системи компанії Constitutional AI, в якій один ШІ допомагає спостерігати та вдосконалювати інший на основі набору правил (конституції), яких модель повинна дотримуватися.

Однак такий підхід також означає, що подібне дослідження може використовуватися лише для моніторингу, а не для попереднього тестування поведінки моделі. Тестування перед розгортанням має вирішальне значення для оцінки потенційної шкоди моделі до того, як вона стане доступною для громадськості.

У деяких випадках, які Anthropic пов’язує зі спробами обійти обмеження (jailbreaks), Claude демонстрував “домінування” та “аморальність” — риси, яким Anthropic не навчала бота. “Це може звучати тривожно, але насправді це відкриває можливості”, — зазначає Anthropic. “Наші методи потенційно можна використовувати для виявлення таких спроб обходу обмежень, а отже, і для їх усунення”.

Підхід Anthropic до зменшення шкоди від ШІ

Також нещодавно Anthropic опублікувала детальний опис свого підходу до пом’якшення потенційної шкоди від ШІ. Компанія класифікує шкоду за п’ятьма типами впливу:

  • Фізичний: Вплив на тілесне здоров’я та добробут.
  • Психологічний: Вплив на психічне здоров’я та когнітивні функції.
  • Економічний: Фінансові наслідки та питання власності.
  • Суспільний: Вплив на спільноти, інституції та спільні системи.
  • Індивідуальна автономія: Вплив на особисте прийняття рішень та свободи.

У своєму блозі компанія підтверджує свій процес управління ризиками, що включає тестування на вразливості до та після випуску продукту, виявлення нецільового використання та впровадження захисних механізмів (“запобіжників”) для нових можливостей ШІ, таких як взаємодія з комп’ютерними інтерфейсами.

Контекст безпеки ШІ в індустрії

Такий детальний опис підходів до безпеки виділяється на тлі загальних тенденцій в індустрії ШІ, де питання пріоритетності безпеки при розробці нових моделей залишається актуальним та іноді дискусійним під впливом різних ринкових та політичних чинників. Питання прозорості тестування та відповідальності розробників постійно обговорюються.

Стан добровільних партнерств з тестування з регуляторними та дослідницькими органами, такими як Інститут безпеки ШІ США (US AI Safety Institute), продовжує розвиватися разом із формуванням національних та міжнародних стратегій щодо ШІ.

Відкриті дані та заклик до співпраці

Anthropic зробила набір даних дослідження доступним для завантаження дослідниками. Компанія також запрошує “дослідників, експертів з політики та галузевих партнерів”, зацікавлених у зусиллях з безпеки, звертатися за адресою [email protected].

ТЕМИ:AnthropicClaudeШтучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Perplexity розробляє браузер Comet Perplexity розробляє браузер Comet, який збиратиме дані для таргетованої реклами
Наступна стаття Як встановити Linux на старий ноутбук Як встановити Linux на старий ноутбук. ІНСТРУКЦІЯ

В тренді

Як знайти та виправити вразливі паролі на вашому iPhone
Як знайти та виправити вразливі паролі на вашому iPhone
3 дні тому
В кожній великій компанії присутні кібершпигуни
В кожній великій компанії присутні кібершпигуни: актуальна загроза 2025 року
1 годину тому
Сплативши викуп хакерам, 80% організацій зазнають повторних атак
Сплативши викуп хакерам, 80% організацій зазнають повторних атак – ДОСЛІДЖЕННЯ
1 день тому
Як цифровізація суспільства створила дефіцит людського спілкування
Реальність як розкіш: Як цифровізація суспільства створила дефіцит людського спілкування
2 дні тому
iOS 19 може допомогти акумулятору вашого iPhone працювати цілий день завдяки штучному інтелекту
iOS 19 може допомогти акумулятору вашого iPhone працювати цілий день завдяки штучному інтелекту
2 дні тому

Рекомендуємо

Chrome тепер використовуватиме Gemini Nano для виявлення шахраїв
Кібербезпека

Chrome тепер використовуватиме Gemini Nano для виявлення шахраїв

1 тиждень тому
Google випускає Gemini для дітей, але з батьківським контролем
Новини

Google випускає Gemini для дітей, але з батьківським контролем

2 тижні тому
OpenAI відкочує оновлення, через яке ChatGPT поводився дивно
Новини

OpenAI відкочує оновлення, через яке ChatGPT поводився дивно

2 тижні тому
Чат-боти Meta AI викрили у сексуальних розмовах з неповнолітніми
Новини

Чат-боти Meta AI викрили у сексуальних розмовах з неповнолітніми – WSJ

2 тижні тому
CyberCalmCyberCalm
Follow US
© 2025 Cybercalm. All Rights Reserved.
  • Про проєкт “Кібертиша”
  • Політика конфіденційності
  • Контакти
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?