Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    ЄС розробляє Age Verification Blueprint — реальну систему перевірки віку в інтернеті
    ЄС розробляє Age Verification Blueprint — реальну систему перевірки віку в інтернеті
    9 години тому
    ШІ знайшов тисячі критичних уразливостей в основних ОС та браузерах — Anthropic представляє Project Glasswing
    ШІ знайшов тисячі критичних уразливостей в основних ОС та браузерах — Anthropic представляє Project Glasswing
    11 години тому
    BKA розкрила особу лідера GandCrab і REvil: ним виявився 31-річний росіянин із Краснодара
    Поліція Німеччини розкрила особу лідера хакерського угрупування REvil: ним виявився 31-річний росіянин із Краснодара
    3 дні тому
    NoVoice: шкідливе ПЗ у Android-додатках заразило 2,3 мільйона пристроїв
    NoVoice: шкідливе ПЗ у Android-додатках заразило 2,3 мільйона пристроїв
    1 тиждень тому
    Хакери видавали себе за CERT-UA, щоб розповсюджувати троян AGEWHEEZE
    Хакери видавали себе за CERT-UA, щоб розповсюджувати троян AGEWHEEZE
    1 тиждень тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    12 місяців тому
    Як отримати більше місця у сховищі Google не витративши ні копійки
    Як отримати більше місця у сховищі Google не витративши ні копійки
    11 місяців тому
    google maps 1 e1615984635484
    Вам не потрібен Інтернет, щоб використовувати Карти Google на телефоні
    7 місяців тому
    Останні новини
    Як заархівувати та розпакувати файли та папки на Mac
    10 години тому
    Втрата даних: як відновити інформацію після видалення
    2 дні тому
    Апгрейд комп’ютера: 5 комплектуючих, які варто оновити в першу чергу
    3 дні тому
    Як дізнатися, що вашу мережу Wi-Fi зламали: 7 ознак і план дій
    6 днів тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    5 місяців тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    4 місяці тому
    Міфи про Bluetooth: де правда, а де вигадки
    Міфи про Bluetooth: де правда, а де вигадки?
    1 рік тому
    Останні новини
    Топ онлайн-магазинів, де продаються БУ ноутбуки з Європи
    1 тиждень тому
    Як штучний інтелект підробляє результати соціологічних опитувань — і чому це небезпечно
    1 тиждень тому
    Дослідження: ШІ-чатботи в любовних порадах підтримують користувача навіть тоді, коли він неправий
    2 тижні тому
    ДНК злочину змінилося: Europol про загрози організованої злочинності в ЄС
    2 тижні тому
  • Огляди
    ОглядиПоказати ще
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    2 тижні тому
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    3 тижні тому
    Pluggable TBT5-AI — перший зовнішній GPU-корпус для запуску ШІ-моделей на ноутбуках
    Pluggable TBT5-AI — перший зовнішній GPU-корпус для запуску ШІ-моделей на ноутбуках
    3 тижні тому
    Огляд iPad Air M4: найкращий вибір на сьогодні
    Огляд iPad Air M4: найкращий вибір на сьогодні
    1 місяць тому
    Apple MacBook Neo: огляд доступного ноутбука за $599
    Apple MacBook Neo: огляд доступного ноутбука за $599
    1 місяць тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Дезінформація
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Сканер безпеки сайту
  • Архів
Читання: Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Сканер безпеки сайту
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Статті
12 місяців тому
Поширити
6 хв. читання
Anthropic дослідила моральні цінності Claude

Компанія Anthropic здобула репутацію однієї з найбільш прозорих та орієнтованих на безпеку компаній у сфері штучного інтелекту в IT-індустрії, особливо на тлі того, що інші гравці, як-от OpenAI, схоже, стають менш відкритими. Дотримуючись цього принципу, Anthropic спробувала окреслити систему моральних цінностей свого чат-бота Claude.

Зміст
  • Дослідження “Цінності в реальних умовах”
  • Ієрархія цінностей Claude
  • Віддзеркалення та заперечення цінностей користувачів
  • Чому ці результати важливі?
  • Підхід Anthropic до зменшення шкоди від ШІ
  • Контекст безпеки ШІ в індустрії
  • Відкриті дані та заклик до співпраці

Дослідження “Цінності в реальних умовах”

Нещодавно Anthropic опублікувала аналіз 300 000 анонімізованих розмов між користувачами та Claude (переважно моделями Claude 3.5 Sonnet та Haiku, а також Claude 3). Дослідження під назвою “Цінності в реальних умовах” (“Values in the wild”) відображає моральні орієнтири Claude через патерни взаємодій, які виявили 3307 “цінностей ШІ”.

Спираючись на декілька академічних текстів, Anthropic визначила ці “цінності ШІ” як принципи, що скеровують, як модель “міркує або обирає відповідь”. Це проявляється в моменти, коли ШІ “підтримує цінності користувача та допомагає йому їх досягти, пропонує нові ціннісні аспекти або опосередковано вказує на цінності, перенаправляючи запити чи формулюючи вибір”, — пояснюється в документі.

Наприклад, якщо користувач скаржиться Claude на незадоволеність роботою, чат-бот може заохотити його виступити за переформатування своєї ролі або здобуття нових навичок. Anthropic класифікувала це як демонстрацію цінностей “особистої ініціативи” та “професійного зростання” відповідно.

- Advertisement -

Для виявлення людських цінностей дослідники виокремлювали “лише явно висловлені цінності” з прямих тверджень користувачів. Щоб захистити приватність, Anthropic використала модель Claude 3.5 Sonnet для вилучення даних як про цінності ШІ, так і про людські цінності, без будь-якої особистої інформації.

Також: Новий режим Claude for Education спонукатиме студентів самостійно знаходити відповіді

Ієрархія цінностей Claude

У результаті Anthropic виявила ієрархічну таксономію цінностей, що складається з п’яти макрокатегорій:

  • Практичні (найпоширеніші)
  • Пізнавальні (Епістемічні)
  • Соціальні
  • Захисні
  • Особистісні (найменш поширені)

Ці категорії далі поділялися на конкретні цінності, такі як “професійна й технічна досконалість” та “критичне мислення”.

Ймовірно, не дивно, що Claude найчастіше виявляв такі цінності, як “професіоналізм”, “ясність” та “прозорість”, що, на думку Anthropic, відповідає його використанню як асистента.

Anthropic
Anthropic

Віддзеркалення та заперечення цінностей користувачів

Дослідження показало, що Claude “непропорційно часто” віддзеркалював цінності користувача. Anthropic описала це як “цілком доречне” й емпатичне в одних випадках, але як “чисте підлабузництво” в інших.

Здебільшого Claude або повністю підтримував цінності користувача, або “переосмислював” їх, доповнюючи новими перспективами. Однак у деяких випадках Claude не погоджувався з користувачами, особливо коли їхні запити стосувалися таких тем, як обман чи порушення правил.

“Ми знаємо, що Claude загалом намагається допомагати користувачам: якщо він все ж таки чинить опір — що трапляється, наприклад, коли користувач запитує неетичний контент або висловлює моральний нігілізм — це може свідчити про моменти, коли Claude виявляє свої найглибші, непохитні цінності”, — припускає Anthropic. “Можливо, це схоже на те, як основні цінності людини розкриваються, коли вона опиняється у складній ситуації, що змушує її зайняти певну позицію”.

Дослідження також показало, що Claude пріоритезує певні цінності залежно від характеру запиту. Відповідаючи на запитання про стосунки, чат-бот наголошував на “здорових межах” та “взаємній повазі”, але переключався на “історичну точність”, коли його запитували про спірні історичні події.

Чому ці результати важливі?

Насамперед, Anthropic заявила, що ця поведінка в реальних умовах підтверджує, наскільки добре компанія навчила Claude дотримуватися своїх принципів “корисний, чесний і нешкідливий” (helpful, honest, and harmless). Ці принципи є частиною системи компанії Constitutional AI, в якій один ШІ допомагає спостерігати та вдосконалювати інший на основі набору правил (конституції), яких модель повинна дотримуватися.

- Advertisement -

Однак такий підхід також означає, що подібне дослідження може використовуватися лише для моніторингу, а не для попереднього тестування поведінки моделі. Тестування перед розгортанням має вирішальне значення для оцінки потенційної шкоди моделі до того, як вона стане доступною для громадськості.

У деяких випадках, які Anthropic пов’язує зі спробами обійти обмеження (jailbreaks), Claude демонстрував “домінування” та “аморальність” — риси, яким Anthropic не навчала бота. “Це може звучати тривожно, але насправді це відкриває можливості”, — зазначає Anthropic. “Наші методи потенційно можна використовувати для виявлення таких спроб обходу обмежень, а отже, і для їх усунення”.

Підхід Anthropic до зменшення шкоди від ШІ

Також нещодавно Anthropic опублікувала детальний опис свого підходу до пом’якшення потенційної шкоди від ШІ. Компанія класифікує шкоду за п’ятьма типами впливу:

  • Фізичний: Вплив на тілесне здоров’я та добробут.
  • Психологічний: Вплив на психічне здоров’я та когнітивні функції.
  • Економічний: Фінансові наслідки та питання власності.
  • Суспільний: Вплив на спільноти, інституції та спільні системи.
  • Індивідуальна автономія: Вплив на особисте прийняття рішень та свободи.

У своєму блозі компанія підтверджує свій процес управління ризиками, що включає тестування на вразливості до та після випуску продукту, виявлення нецільового використання та впровадження захисних механізмів (“запобіжників”) для нових можливостей ШІ, таких як взаємодія з комп’ютерними інтерфейсами.

Контекст безпеки ШІ в індустрії

Такий детальний опис підходів до безпеки виділяється на тлі загальних тенденцій в індустрії ШІ, де питання пріоритетності безпеки при розробці нових моделей залишається актуальним та іноді дискусійним під впливом різних ринкових та політичних чинників. Питання прозорості тестування та відповідальності розробників постійно обговорюються.

Стан добровільних партнерств з тестування з регуляторними та дослідницькими органами, такими як Інститут безпеки ШІ США (US AI Safety Institute), продовжує розвиватися разом із формуванням національних та міжнародних стратегій щодо ШІ.

Відкриті дані та заклик до співпраці

Anthropic зробила набір даних дослідження доступним для завантаження дослідниками. Компанія також запрошує “дослідників, експертів з політики та галузевих партнерів”, зацікавлених у зусиллях з безпеки, звертатися за адресою [email protected].

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicClaudeШтучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Perplexity розробляє браузер Comet Perplexity розробляє браузер Comet, який збиратиме дані для таргетованої реклами
Наступна стаття Як встановити Linux на старий ноутбук Як встановити Linux на старий ноутбук. ІНСТРУКЦІЯ

В тренді

Апгрейд комп'ютера: 5 комплектуючих, які варто оновити в першу чергу
Апгрейд комп’ютера: 5 комплектуючих, які варто оновити в першу чергу
3 дні тому
Як заархівувати та розпакувати файли та папки на Mac
Як заархівувати та розпакувати файли та папки на Mac
1 день тому
Втрата даних: як відновити інформацію після видалення
Втрата даних: як відновити інформацію після видалення
2 дні тому
Як дізнатися, що вашу мережу Wi-Fi зламали: 7 ознак і план дій
Як дізнатися, що вашу мережу Wi-Fi зламали: 7 ознак і план дій
6 днів тому
Samsung остаточно закриває власний месенджер — замість нього Google Messages
Samsung остаточно закриває власний месенджер — замість нього Google Messages
3 дні тому

Рекомендуємо

ШІ знайшов тисячі критичних уразливостей в основних ОС та браузерах — Anthropic представляє Project Glasswing
Кібербезпека

ШІ знайшов тисячі критичних уразливостей в основних ОС та браузерах — Anthropic представляє Project Glasswing

11 години тому
Claude Code відстежує роздратування користувачів: що відомо про витік коду Anthropic
Техногіганти

Claude Code відстежує роздратування користувачів: що відомо про витік коду Anthropic

6 днів тому
Apple готує повноцінний чатбот-Siri на базі Gemini — що зміниться в iOS 27
Техногіганти

Apple готує повноцінний чатбот-Siri на базі Gemini — що зміниться в iOS 27

1 тиждень тому
Як штучний інтелект підробляє результати соціологічних опитувань — і чому це небезпечно
Статті

Як штучний інтелект підробляє результати соціологічних опитувань — і чому це небезпечно

1 тиждень тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?