Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    У Іспанії заарештували хакера, який вкрав 64 млн записів даних
    У Іспанії заарештували хакера, який вкрав 64 млн записів даних
    2 дні тому
    Microsoft Patch Tuesday: виправлено три zero-day вразливості та 57 помилок у грудневому оновленні безпеки
    Microsoft Patch Tuesday: виправлено три zero-day вразливості та 57 помилок у грудневому оновленні безпеки
    2 дні тому
    Головні кіберзагрози 2025 року: від крадіжки даних до засобів знищення систем захисту
    Головні кіберзагрози 2025 року: від крадіжки даних до засобів знищення систем захисту
    4 дні тому
    Чим небезпечні розумні пристрої для дому та як вберегтися від загроз?
    Чим небезпечні розумні пристрої для дому та як вберегтися від загроз?
    4 дні тому
    Атака підміни DNS-записів: як зловмисники перенаправляють користувачів на шкідливі сайти
    Атака підміни DNS-записів: як зловмисники перенаправляють користувачів на шкідливі сайти
    4 дні тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    8 місяців тому
    Як визначити, що смартфон варто змінити на новий - 12 ознак
    Як визначити, що смартфон варто змінити на новий – 12 ознак
    8 місяців тому
    10 простих способів працювати розумніше в Linux
    10 простих способів працювати розумніше в Linux — для новачків і професіоналів
    2 місяці тому
    Останні новини
    Як увімкнути безпечний пошук в інтернеті. ІНСТРУКЦІЯ
    2 дні тому
    Як відновити видалені фото на iPhone
    2 дні тому
    Як встановити ключі доступу в Telegram — ІНСТРУКЦІЯ
    3 дні тому
    Як безпечно скасувати підписку на спам-розсилки: Поради та рекомендації
    4 дні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    3 тижні тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    2 тижні тому
    Як та навіщо Google збирає дані про здоров'я користувачів?
    Як та навіщо Google збирає дані про здоров’я користувачів?
    8 місяців тому
    Останні новини
    Як відкритий код безшумно переміг у програмних війнах
    23 години тому
    Matter: один стандарт для всіх розумних пристроїв у домі
    4 дні тому
    Чому світ не може відмовитися від QWERTY: історія найпопулярнішої розкладки клавіатури
    3 дні тому
    AGI залишається недосяжним без вирішення однієї фундаментальної проблеми — експерти з ШІ
    5 днів тому
  • Огляди
    ОглядиПоказати ще
    Засновник Pebble представив AI-кільце Index 01 за $75
    Index 01: Засновник Pebble представив AI-кільце за $75
    2 дні тому
    Jolla Phone повертається: Linux-смартфон з фокусом на приватність як альтернатива Android та iOS
    Jolla Phone повертається: Linux-смартфон з фокусом на приватність як альтернатива Android та iOS
    6 днів тому
    Як обрати розумний годинник: порівняння функцій та можливостей
    Як обрати розумний годинник: порівняння функцій та можливостей
    1 тиждень тому
    DeepSeek V3.2: чи загрожує новий відкритий ШІ домінуванню пропрієтарних моделей
    DeepSeek V3.2: чи загрожує новий відкритий ШІ домінуванню пропрієтарних моделей
    2 тижні тому
    Вийшло стабільне ядро Linux 6.18: огляд ключових нововведень
    Вийшло стабільне ядро Linux 6.18: огляд ключових нововведень
    2 тижні тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • Штучний інтелект
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Архів
Читання: Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Наталя Зарудня
ByНаталя Зарудня
Головний редактор
Досвід роботи у галузі кібербезпеки понад 10 років. Пишу про штучний інтелект, соціальні мережі, історію технологій.
Слідкуйте:
8 місяців тому
Поширити
6 хв. читання
Anthropic дослідила моральні цінності Claude

Компанія Anthropic здобула репутацію однієї з найбільш прозорих та орієнтованих на безпеку компаній у сфері штучного інтелекту в IT-індустрії, особливо на тлі того, що інші гравці, як-от OpenAI, схоже, стають менш відкритими. Дотримуючись цього принципу, Anthropic спробувала окреслити систему моральних цінностей свого чат-бота Claude.

Зміст
  • Дослідження “Цінності в реальних умовах”
  • Ієрархія цінностей Claude
  • Віддзеркалення та заперечення цінностей користувачів
  • Чому ці результати важливі?
  • Підхід Anthropic до зменшення шкоди від ШІ
  • Контекст безпеки ШІ в індустрії
  • Відкриті дані та заклик до співпраці

Дослідження “Цінності в реальних умовах”

Нещодавно Anthropic опублікувала аналіз 300 000 анонімізованих розмов між користувачами та Claude (переважно моделями Claude 3.5 Sonnet та Haiku, а також Claude 3). Дослідження під назвою “Цінності в реальних умовах” (“Values in the wild”) відображає моральні орієнтири Claude через патерни взаємодій, які виявили 3307 “цінностей ШІ”.

Спираючись на декілька академічних текстів, Anthropic визначила ці “цінності ШІ” як принципи, що скеровують, як модель “міркує або обирає відповідь”. Це проявляється в моменти, коли ШІ “підтримує цінності користувача та допомагає йому їх досягти, пропонує нові ціннісні аспекти або опосередковано вказує на цінності, перенаправляючи запити чи формулюючи вибір”, — пояснюється в документі.

Наприклад, якщо користувач скаржиться Claude на незадоволеність роботою, чат-бот може заохотити його виступити за переформатування своєї ролі або здобуття нових навичок. Anthropic класифікувала це як демонстрацію цінностей “особистої ініціативи” та “професійного зростання” відповідно.

- Advertisement -

Для виявлення людських цінностей дослідники виокремлювали “лише явно висловлені цінності” з прямих тверджень користувачів. Щоб захистити приватність, Anthropic використала модель Claude 3.5 Sonnet для вилучення даних як про цінності ШІ, так і про людські цінності, без будь-якої особистої інформації.

Також: Новий режим Claude for Education спонукатиме студентів самостійно знаходити відповіді

Ієрархія цінностей Claude

У результаті Anthropic виявила ієрархічну таксономію цінностей, що складається з п’яти макрокатегорій:

  • Практичні (найпоширеніші)
  • Пізнавальні (Епістемічні)
  • Соціальні
  • Захисні
  • Особистісні (найменш поширені)

Ці категорії далі поділялися на конкретні цінності, такі як “професійна й технічна досконалість” та “критичне мислення”.

Ймовірно, не дивно, що Claude найчастіше виявляв такі цінності, як “професіоналізм”, “ясність” та “прозорість”, що, на думку Anthropic, відповідає його використанню як асистента.

Anthropic
Anthropic

Віддзеркалення та заперечення цінностей користувачів

Дослідження показало, що Claude “непропорційно часто” віддзеркалював цінності користувача. Anthropic описала це як “цілком доречне” й емпатичне в одних випадках, але як “чисте підлабузництво” в інших.

Здебільшого Claude або повністю підтримував цінності користувача, або “переосмислював” їх, доповнюючи новими перспективами. Однак у деяких випадках Claude не погоджувався з користувачами, особливо коли їхні запити стосувалися таких тем, як обман чи порушення правил.

“Ми знаємо, що Claude загалом намагається допомагати користувачам: якщо він все ж таки чинить опір — що трапляється, наприклад, коли користувач запитує неетичний контент або висловлює моральний нігілізм — це може свідчити про моменти, коли Claude виявляє свої найглибші, непохитні цінності”, — припускає Anthropic. “Можливо, це схоже на те, як основні цінності людини розкриваються, коли вона опиняється у складній ситуації, що змушує її зайняти певну позицію”.

Дослідження також показало, що Claude пріоритезує певні цінності залежно від характеру запиту. Відповідаючи на запитання про стосунки, чат-бот наголошував на “здорових межах” та “взаємній повазі”, але переключався на “історичну точність”, коли його запитували про спірні історичні події.

Чому ці результати важливі?

Насамперед, Anthropic заявила, що ця поведінка в реальних умовах підтверджує, наскільки добре компанія навчила Claude дотримуватися своїх принципів “корисний, чесний і нешкідливий” (helpful, honest, and harmless). Ці принципи є частиною системи компанії Constitutional AI, в якій один ШІ допомагає спостерігати та вдосконалювати інший на основі набору правил (конституції), яких модель повинна дотримуватися.

- Advertisement -

Однак такий підхід також означає, що подібне дослідження може використовуватися лише для моніторингу, а не для попереднього тестування поведінки моделі. Тестування перед розгортанням має вирішальне значення для оцінки потенційної шкоди моделі до того, як вона стане доступною для громадськості.

У деяких випадках, які Anthropic пов’язує зі спробами обійти обмеження (jailbreaks), Claude демонстрував “домінування” та “аморальність” — риси, яким Anthropic не навчала бота. “Це може звучати тривожно, але насправді це відкриває можливості”, — зазначає Anthropic. “Наші методи потенційно можна використовувати для виявлення таких спроб обходу обмежень, а отже, і для їх усунення”.

Підхід Anthropic до зменшення шкоди від ШІ

Також нещодавно Anthropic опублікувала детальний опис свого підходу до пом’якшення потенційної шкоди від ШІ. Компанія класифікує шкоду за п’ятьма типами впливу:

  • Фізичний: Вплив на тілесне здоров’я та добробут.
  • Психологічний: Вплив на психічне здоров’я та когнітивні функції.
  • Економічний: Фінансові наслідки та питання власності.
  • Суспільний: Вплив на спільноти, інституції та спільні системи.
  • Індивідуальна автономія: Вплив на особисте прийняття рішень та свободи.

У своєму блозі компанія підтверджує свій процес управління ризиками, що включає тестування на вразливості до та після випуску продукту, виявлення нецільового використання та впровадження захисних механізмів (“запобіжників”) для нових можливостей ШІ, таких як взаємодія з комп’ютерними інтерфейсами.

Контекст безпеки ШІ в індустрії

Такий детальний опис підходів до безпеки виділяється на тлі загальних тенденцій в індустрії ШІ, де питання пріоритетності безпеки при розробці нових моделей залишається актуальним та іноді дискусійним під впливом різних ринкових та політичних чинників. Питання прозорості тестування та відповідальності розробників постійно обговорюються.

Стан добровільних партнерств з тестування з регуляторними та дослідницькими органами, такими як Інститут безпеки ШІ США (US AI Safety Institute), продовжує розвиватися разом із формуванням національних та міжнародних стратегій щодо ШІ.

Відкриті дані та заклик до співпраці

Anthropic зробила набір даних дослідження доступним для завантаження дослідниками. Компанія також запрошує “дослідників, експертів з політики та галузевих партнерів”, зацікавлених у зусиллях з безпеки, звертатися за адресою [email protected].

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicClaudeШтучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Perplexity розробляє браузер Comet Perplexity розробляє браузер Comet, який збиратиме дані для таргетованої реклами
Наступна стаття Як встановити Linux на старий ноутбук Як встановити Linux на старий ноутбук. ІНСТРУКЦІЯ

В тренді

Чим небезпечні розумні пристрої для дому та як вберегтися від загроз?
Чим небезпечні розумні пристрої для дому та як вберегтися від загроз?
4 дні тому
Як увімкнути безпечний пошук в інтернеті. ІНСТРУКЦІЯ
Як увімкнути безпечний пошук в інтернеті. ІНСТРУКЦІЯ
2 дні тому
Як безпечно скасувати підписку на спам-розсилки
Як безпечно скасувати підписку на спам-розсилки: Поради та рекомендації
4 дні тому
Як видалити історію голосових помічників: Google Assistant, Alexa, Siri та Bixby
Як видалити історію голосових помічників: Google Assistant, Alexa, Siri та Bixby
4 дні тому
Апатія до приватності реальна - і у вас, мабуть, вона є
Апатія до приватності: чому люди свідомо йдуть на кіберризики
6 днів тому

Рекомендуємо

McDonald's та Coca-Cola випустили святкову AI-рекламу — і отримали хвилю критики
Техногіганти

McDonald’s та Coca-Cola випустили святкову AI-рекламу — і отримали хвилю критики

1 день тому
Засновник Pebble представив AI-кільце Index 01 за $75
Огляди

Index 01: Засновник Pebble представив AI-кільце за $75

2 дні тому
AGI залишається недосяжним без вирішення однієї фундаментальної проблеми — експерти з ШІ
Статті

AGI залишається недосяжним без вирішення однієї фундаментальної проблеми — експерти з ШІ

5 днів тому
Microsoft оновила документ про AI-агентів: чому користувачі занепокоєні безпекою?
Кібербезпека

Microsoft оновила документ про AI-агентів: чому користувачі занепокоєні безпекою?

1 тиждень тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?