Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Маркетологи стежать за вашими запитами до ChatGPT через розширення браузера
    Маркетологи стежать за вашими запитами до ChatGPT через розширення браузера
    11 години тому
    «Я заплатив двічі»: масштабне шахрайство на Booking.com
    «Я заплатив двічі»: масштабне шахрайство на Booking.com
    1 день тому
    Washington Post стала жертвою масштабного витоку даних через Oracle
    Washington Post стала жертвою масштабного витоку даних через Oracle
    2 дні тому
    Шкідливі Android-додатки завантажили 42 мільйони разів — вони можуть залишити вас без грошей
    Шкідливі Android-додатки завантажили 42 мільйони разів — вони можуть залишити вас без грошей
    2 дні тому
    PUP.Optional.BrowserHijack виявлено на новому ноутбуці: як боротися з предвстановленим шкідливим ПЗ
    PUP.Optional.BrowserHijack виявлено на новому ноутбуці: як боротися з предвстановленим шкідливим ПЗ
    2 дні тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    7 місяців тому
    Як прочитати повідомлення в Telegram непомітно?
    5 способів прочитати повідомлення в Telegram непомітно
    7 місяців тому
    gmail scam email
    Як блокувати піксельні трекери в електронній пошті: 4 прості методи
    6 місяців тому
    Останні новини
    8 безкоштовних способів підвищити безпеку домашньої мережі
    1 день тому
    Як правильно доглядати за портативними зарядними станціями та домашніми електростанціями
    3 дні тому
    Чи варто заряджати смартфон у автомобілі?
    3 дні тому
    8 способів виявити приховані камери в орендованому житлі Airbnb
    3 дні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Топ-20 найпопулярніших сайтів в Україні в грудні 2024 року
    Топ-20 найпопулярніших сайтів в Україні в грудні 2024 року
    7 місяців тому
    Найкращі Windows в історії: ТОП-10 найвидатніших версій
    Найкращі Windows в історії: ТОП-10 найвидатніших версій
    7 місяців тому
    VR, AR та MR: пояснення типів цифрової реальності
    Що таке VR, AR та MR: пояснення 3 типів цифрової реальності
    6 місяців тому
    Останні новини
    Історія Caps Lock: Чому ця функція існує?
    15 години тому
    Тім Бернерс-Лі не вірить, що штучний інтелект знищить веб
    17 години тому
    Шахрайські оголошення у Facebook, Instagram та WhatsApp приносять Meta мільярди доларів — розслідування
    4 дні тому
    Штучний інтелект стає інтроспективним – і це потребує ретельного моніторингу, попереджає Anthropic
    1 тиждень тому
  • Огляди
    ОглядиПоказати ще
    Chrome проти Firefox: порівняння найпопулярнішого браузера з найкращою open-source альтернативою
    Chrome проти Firefox: порівняння найпопулярнішого браузера з найкращою open-source альтернативою
    13 години тому
    iOS 26.1 вже доступна: всі зміни для вашого iPhone
    Головні нововведення iOS 26.1: детальний огляд усіх функцій
    1 тиждень тому
    Surfshark та Proton VPN: порівняння кращих VPN-сервісів
    Surfshark та Proton VPN: порівняння кращих VPN-сервісів
    1 тиждень тому
    clamav
    Антивірус, якому можна довіряти на Linux — і він безкоштовний
    2 тижні тому
    Gemini Google Home плутає собак з котами, але покращує автоматизацію розумного дому
    Gemini Google Home плутає собак з котами, але покращує автоматизацію розумного дому
    3 тижні тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • Штучний інтелект
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Безпека дітей в Інтернеті
  • Маніпуляції в медіа
  • Розумний будинок
Інше
  • Архів
Читання: Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Наталя Зарудня
ByНаталя Зарудня
Головний редактор
Досвід роботи у галузі кібербезпеки понад 10 років. Пишу про штучний інтелект, соціальні мережі, історію технологій.
Слідкуйте:
7 місяців тому
Поширити
6 хв. читання
Anthropic дослідила моральні цінності Claude

Компанія Anthropic здобула репутацію однієї з найбільш прозорих та орієнтованих на безпеку компаній у сфері штучного інтелекту в IT-індустрії, особливо на тлі того, що інші гравці, як-от OpenAI, схоже, стають менш відкритими. Дотримуючись цього принципу, Anthropic спробувала окреслити систему моральних цінностей свого чат-бота Claude.

Зміст
  • Дослідження “Цінності в реальних умовах”
  • Ієрархія цінностей Claude
  • Віддзеркалення та заперечення цінностей користувачів
  • Чому ці результати важливі?
  • Підхід Anthropic до зменшення шкоди від ШІ
  • Контекст безпеки ШІ в індустрії
  • Відкриті дані та заклик до співпраці

Дослідження “Цінності в реальних умовах”

Нещодавно Anthropic опублікувала аналіз 300 000 анонімізованих розмов між користувачами та Claude (переважно моделями Claude 3.5 Sonnet та Haiku, а також Claude 3). Дослідження під назвою “Цінності в реальних умовах” (“Values in the wild”) відображає моральні орієнтири Claude через патерни взаємодій, які виявили 3307 “цінностей ШІ”.

Спираючись на декілька академічних текстів, Anthropic визначила ці “цінності ШІ” як принципи, що скеровують, як модель “міркує або обирає відповідь”. Це проявляється в моменти, коли ШІ “підтримує цінності користувача та допомагає йому їх досягти, пропонує нові ціннісні аспекти або опосередковано вказує на цінності, перенаправляючи запити чи формулюючи вибір”, — пояснюється в документі.

Наприклад, якщо користувач скаржиться Claude на незадоволеність роботою, чат-бот може заохотити його виступити за переформатування своєї ролі або здобуття нових навичок. Anthropic класифікувала це як демонстрацію цінностей “особистої ініціативи” та “професійного зростання” відповідно.

- Advertisement -

Для виявлення людських цінностей дослідники виокремлювали “лише явно висловлені цінності” з прямих тверджень користувачів. Щоб захистити приватність, Anthropic використала модель Claude 3.5 Sonnet для вилучення даних як про цінності ШІ, так і про людські цінності, без будь-якої особистої інформації.

Також: Новий режим Claude for Education спонукатиме студентів самостійно знаходити відповіді

Ієрархія цінностей Claude

У результаті Anthropic виявила ієрархічну таксономію цінностей, що складається з п’яти макрокатегорій:

  • Практичні (найпоширеніші)
  • Пізнавальні (Епістемічні)
  • Соціальні
  • Захисні
  • Особистісні (найменш поширені)

Ці категорії далі поділялися на конкретні цінності, такі як “професійна й технічна досконалість” та “критичне мислення”.

Ймовірно, не дивно, що Claude найчастіше виявляв такі цінності, як “професіоналізм”, “ясність” та “прозорість”, що, на думку Anthropic, відповідає його використанню як асистента.

Anthropic
Anthropic

Віддзеркалення та заперечення цінностей користувачів

Дослідження показало, що Claude “непропорційно часто” віддзеркалював цінності користувача. Anthropic описала це як “цілком доречне” й емпатичне в одних випадках, але як “чисте підлабузництво” в інших.

Здебільшого Claude або повністю підтримував цінності користувача, або “переосмислював” їх, доповнюючи новими перспективами. Однак у деяких випадках Claude не погоджувався з користувачами, особливо коли їхні запити стосувалися таких тем, як обман чи порушення правил.

“Ми знаємо, що Claude загалом намагається допомагати користувачам: якщо він все ж таки чинить опір — що трапляється, наприклад, коли користувач запитує неетичний контент або висловлює моральний нігілізм — це може свідчити про моменти, коли Claude виявляє свої найглибші, непохитні цінності”, — припускає Anthropic. “Можливо, це схоже на те, як основні цінності людини розкриваються, коли вона опиняється у складній ситуації, що змушує її зайняти певну позицію”.

Дослідження також показало, що Claude пріоритезує певні цінності залежно від характеру запиту. Відповідаючи на запитання про стосунки, чат-бот наголошував на “здорових межах” та “взаємній повазі”, але переключався на “історичну точність”, коли його запитували про спірні історичні події.

Чому ці результати важливі?

Насамперед, Anthropic заявила, що ця поведінка в реальних умовах підтверджує, наскільки добре компанія навчила Claude дотримуватися своїх принципів “корисний, чесний і нешкідливий” (helpful, honest, and harmless). Ці принципи є частиною системи компанії Constitutional AI, в якій один ШІ допомагає спостерігати та вдосконалювати інший на основі набору правил (конституції), яких модель повинна дотримуватися.

- Advertisement -

Однак такий підхід також означає, що подібне дослідження може використовуватися лише для моніторингу, а не для попереднього тестування поведінки моделі. Тестування перед розгортанням має вирішальне значення для оцінки потенційної шкоди моделі до того, як вона стане доступною для громадськості.

У деяких випадках, які Anthropic пов’язує зі спробами обійти обмеження (jailbreaks), Claude демонстрував “домінування” та “аморальність” — риси, яким Anthropic не навчала бота. “Це може звучати тривожно, але насправді це відкриває можливості”, — зазначає Anthropic. “Наші методи потенційно можна використовувати для виявлення таких спроб обходу обмежень, а отже, і для їх усунення”.

Підхід Anthropic до зменшення шкоди від ШІ

Також нещодавно Anthropic опублікувала детальний опис свого підходу до пом’якшення потенційної шкоди від ШІ. Компанія класифікує шкоду за п’ятьма типами впливу:

  • Фізичний: Вплив на тілесне здоров’я та добробут.
  • Психологічний: Вплив на психічне здоров’я та когнітивні функції.
  • Економічний: Фінансові наслідки та питання власності.
  • Суспільний: Вплив на спільноти, інституції та спільні системи.
  • Індивідуальна автономія: Вплив на особисте прийняття рішень та свободи.

У своєму блозі компанія підтверджує свій процес управління ризиками, що включає тестування на вразливості до та після випуску продукту, виявлення нецільового використання та впровадження захисних механізмів (“запобіжників”) для нових можливостей ШІ, таких як взаємодія з комп’ютерними інтерфейсами.

Контекст безпеки ШІ в індустрії

Такий детальний опис підходів до безпеки виділяється на тлі загальних тенденцій в індустрії ШІ, де питання пріоритетності безпеки при розробці нових моделей залишається актуальним та іноді дискусійним під впливом різних ринкових та політичних чинників. Питання прозорості тестування та відповідальності розробників постійно обговорюються.

Стан добровільних партнерств з тестування з регуляторними та дослідницькими органами, такими як Інститут безпеки ШІ США (US AI Safety Institute), продовжує розвиватися разом із формуванням національних та міжнародних стратегій щодо ШІ.

Відкриті дані та заклик до співпраці

Anthropic зробила набір даних дослідження доступним для завантаження дослідниками. Компанія також запрошує “дослідників, експертів з політики та галузевих партнерів”, зацікавлених у зусиллях з безпеки, звертатися за адресою [email protected].

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicClaudeШтучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Perplexity розробляє браузер Comet Perplexity розробляє браузер Comet, який збиратиме дані для таргетованої реклами
Наступна стаття Як встановити Linux на старий ноутбук Як встановити Linux на старий ноутбук. ІНСТРУКЦІЯ

В тренді

Історія Caps Lock: Чому ця функція існує
Історія Caps Lock: Чому ця функція існує?
15 години тому
Чи варто заряджати смартфон у автомобілі?
Чи варто заряджати смартфон у автомобілі?
3 дні тому
4 способи, як ваш WhatsApp можуть зламати
4 способи, як ваш WhatsApp можуть зламати (і як захистити ваші дані)
4 дні тому
Як правильно доглядати за портативними зарядними станціями та домашніми електростанціями
Як правильно доглядати за портативними зарядними станціями та домашніми електростанціями
3 дні тому
Шахрайські оголошення у Facebook, Instagram та WhatsApp приносять Meta мільярди доларів — розслідування
Шахрайські оголошення у Facebook, Instagram та WhatsApp приносять Meta мільярди доларів — розслідування
6 днів тому

Рекомендуємо

Маркетологи стежать за вашими запитами до ChatGPT через розширення браузера
Кібербезпека

Маркетологи стежать за вашими запитами до ChatGPT через розширення браузера

11 години тому
Творець Інтернету пояснює, чому віддав його безкоштовно та про що шкодує
Статті

Тім Бернерс-Лі не вірить, що штучний інтелект знищить веб

2 дні тому
Microsoft виявила атаку Whisper Leak, яка розкриває теми AI-чатів у зашифрованому трафіку
Кібербезпека

Microsoft виявила атаку Whisper Leak, яка розкриває теми AI-чатів у зашифрованому трафіку

3 дні тому
Штучний інтелект стає інтроспективним - і це потребує ретельного моніторингу, попереджає Anthropic
Статті

Штучний інтелект стає інтроспективним – і це потребує ретельного моніторингу, попереджає Anthropic

1 тиждень тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Наш канал на 

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?