Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Найкращий пароль: парольна фраза чи складна комбінація символів?
    Найкращий пароль: парольна фраза чи складна комбінація символів?
    3 дні тому
    Що таке Trojan.Injector і як захиститися від цієї загрози
    Що таке Trojan.Injector і як захиститися від цієї загрози
    4 дні тому
    Чи має Apple доступ до ваших повідомлень у iMessage?
    Чи має Apple доступ до ваших повідомлень у iMessage?
    5 днів тому
    Кіберзлами 2024-25 років: які країни є лідерами за обсягами викрадених даних?
    Кіберзлами 2024-25 років: які країни є лідерами за обсягами викрадених даних?
    6 днів тому
    Витік даних 17,5 мільйонів користувачів Instagram: що відомо про інцидент
    Витік даних 17,5 мільйонів користувачів Instagram: що відомо про інцидент
    6 днів тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    9 місяців тому
    Як зробити скріншот на комп'ютері без завантаження додаткових програм
    Як зробити скріншот на комп’ютері без завантаження додаткових програм
    10 місяців тому
    Як перетворити смартфон на ключ безпеки? - ІНСТРУКЦІЯ
    Як перетворити смартфон на ключ безпеки? – ІНСТРУКЦІЯ
    1 місяць тому
    Останні новини
    Як обрати браузер для iPhone: найкращі альтернативи Safari
    2 дні тому
    Не підключайте ці 7 пристроїв до подовжувачів – ризик того не вартий
    2 дні тому
    Як обмежити перегляд небажаного контенту для дітей у TikTok? Поради для батьків
    5 днів тому
    Windows Sandbox: повний посібник з використання ізольованого середовища Windows
    5 днів тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    2 місяці тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    2 місяці тому
    Як навчаються машини і чому штучний інтелект не розумний?
    Як навчаються машини і чому штучний інтелект не розумний?
    7 місяців тому
    Останні новини
    Застарілі команди Linux, які слід припинити використовувати — та їхні сучасні альтернативи
    21 годину тому
    5 ознак того, що ChatGPT галюцинує
    2 дні тому
    Вікіпедії 25 років: історія енциклопедії, яка змінила світ
    1 місяць тому
    Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
    4 дні тому
  • Огляди
    ОглядиПоказати ще
    Засновник Signal створив ШІ-чатбот з апаратним шифруванням — як працює Confer
    Як працює Confer — ШІ-чатбот з апаратним шифруванням від творця Signal
    2 дні тому
    Wave Browser: безкоштовний браузер, що допомагає очищати океан
    Wave Browser: безкоштовний браузер, що допомагає очищати океан
    3 дні тому
    Гуманоїдний робот Atlas: вражаюча демонстрація на CES 2026
    Гуманоїдний робот Atlas: вражаюча демонстрація на CES 2026
    1 тиждень тому
    Найдивніші технологічні історії 2025: від гучного Wi-Fi до Linux у PDF
    Найдивніші технологічні історії 2025: від гучного Wi-Fi до Linux у PDF
    3 тижні тому
    4 вражаючі демонстрації роботів 2025 року та одна епічна невдача
    4 вражаючі демонстрації роботів 2025 року та один епічний провал
    3 тижні тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Архів
Читання: Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Статті
9 місяців тому
Поширити
6 хв. читання
Anthropic дослідила моральні цінності Claude

Компанія Anthropic здобула репутацію однієї з найбільш прозорих та орієнтованих на безпеку компаній у сфері штучного інтелекту в IT-індустрії, особливо на тлі того, що інші гравці, як-от OpenAI, схоже, стають менш відкритими. Дотримуючись цього принципу, Anthropic спробувала окреслити систему моральних цінностей свого чат-бота Claude.

Зміст
  • Дослідження “Цінності в реальних умовах”
  • Ієрархія цінностей Claude
  • Віддзеркалення та заперечення цінностей користувачів
  • Чому ці результати важливі?
  • Підхід Anthropic до зменшення шкоди від ШІ
  • Контекст безпеки ШІ в індустрії
  • Відкриті дані та заклик до співпраці

Дослідження “Цінності в реальних умовах”

Нещодавно Anthropic опублікувала аналіз 300 000 анонімізованих розмов між користувачами та Claude (переважно моделями Claude 3.5 Sonnet та Haiku, а також Claude 3). Дослідження під назвою “Цінності в реальних умовах” (“Values in the wild”) відображає моральні орієнтири Claude через патерни взаємодій, які виявили 3307 “цінностей ШІ”.

Спираючись на декілька академічних текстів, Anthropic визначила ці “цінності ШІ” як принципи, що скеровують, як модель “міркує або обирає відповідь”. Це проявляється в моменти, коли ШІ “підтримує цінності користувача та допомагає йому їх досягти, пропонує нові ціннісні аспекти або опосередковано вказує на цінності, перенаправляючи запити чи формулюючи вибір”, — пояснюється в документі.

Наприклад, якщо користувач скаржиться Claude на незадоволеність роботою, чат-бот може заохотити його виступити за переформатування своєї ролі або здобуття нових навичок. Anthropic класифікувала це як демонстрацію цінностей “особистої ініціативи” та “професійного зростання” відповідно.

- Advertisement -

Для виявлення людських цінностей дослідники виокремлювали “лише явно висловлені цінності” з прямих тверджень користувачів. Щоб захистити приватність, Anthropic використала модель Claude 3.5 Sonnet для вилучення даних як про цінності ШІ, так і про людські цінності, без будь-якої особистої інформації.

Також: Новий режим Claude for Education спонукатиме студентів самостійно знаходити відповіді

Ієрархія цінностей Claude

У результаті Anthropic виявила ієрархічну таксономію цінностей, що складається з п’яти макрокатегорій:

  • Практичні (найпоширеніші)
  • Пізнавальні (Епістемічні)
  • Соціальні
  • Захисні
  • Особистісні (найменш поширені)

Ці категорії далі поділялися на конкретні цінності, такі як “професійна й технічна досконалість” та “критичне мислення”.

Ймовірно, не дивно, що Claude найчастіше виявляв такі цінності, як “професіоналізм”, “ясність” та “прозорість”, що, на думку Anthropic, відповідає його використанню як асистента.

Anthropic
Anthropic

Віддзеркалення та заперечення цінностей користувачів

Дослідження показало, що Claude “непропорційно часто” віддзеркалював цінності користувача. Anthropic описала це як “цілком доречне” й емпатичне в одних випадках, але як “чисте підлабузництво” в інших.

Здебільшого Claude або повністю підтримував цінності користувача, або “переосмислював” їх, доповнюючи новими перспективами. Однак у деяких випадках Claude не погоджувався з користувачами, особливо коли їхні запити стосувалися таких тем, як обман чи порушення правил.

“Ми знаємо, що Claude загалом намагається допомагати користувачам: якщо він все ж таки чинить опір — що трапляється, наприклад, коли користувач запитує неетичний контент або висловлює моральний нігілізм — це може свідчити про моменти, коли Claude виявляє свої найглибші, непохитні цінності”, — припускає Anthropic. “Можливо, це схоже на те, як основні цінності людини розкриваються, коли вона опиняється у складній ситуації, що змушує її зайняти певну позицію”.

Дослідження також показало, що Claude пріоритезує певні цінності залежно від характеру запиту. Відповідаючи на запитання про стосунки, чат-бот наголошував на “здорових межах” та “взаємній повазі”, але переключався на “історичну точність”, коли його запитували про спірні історичні події.

Чому ці результати важливі?

Насамперед, Anthropic заявила, що ця поведінка в реальних умовах підтверджує, наскільки добре компанія навчила Claude дотримуватися своїх принципів “корисний, чесний і нешкідливий” (helpful, honest, and harmless). Ці принципи є частиною системи компанії Constitutional AI, в якій один ШІ допомагає спостерігати та вдосконалювати інший на основі набору правил (конституції), яких модель повинна дотримуватися.

- Advertisement -

Однак такий підхід також означає, що подібне дослідження може використовуватися лише для моніторингу, а не для попереднього тестування поведінки моделі. Тестування перед розгортанням має вирішальне значення для оцінки потенційної шкоди моделі до того, як вона стане доступною для громадськості.

У деяких випадках, які Anthropic пов’язує зі спробами обійти обмеження (jailbreaks), Claude демонстрував “домінування” та “аморальність” — риси, яким Anthropic не навчала бота. “Це може звучати тривожно, але насправді це відкриває можливості”, — зазначає Anthropic. “Наші методи потенційно можна використовувати для виявлення таких спроб обходу обмежень, а отже, і для їх усунення”.

Підхід Anthropic до зменшення шкоди від ШІ

Також нещодавно Anthropic опублікувала детальний опис свого підходу до пом’якшення потенційної шкоди від ШІ. Компанія класифікує шкоду за п’ятьма типами впливу:

  • Фізичний: Вплив на тілесне здоров’я та добробут.
  • Психологічний: Вплив на психічне здоров’я та когнітивні функції.
  • Економічний: Фінансові наслідки та питання власності.
  • Суспільний: Вплив на спільноти, інституції та спільні системи.
  • Індивідуальна автономія: Вплив на особисте прийняття рішень та свободи.

У своєму блозі компанія підтверджує свій процес управління ризиками, що включає тестування на вразливості до та після випуску продукту, виявлення нецільового використання та впровадження захисних механізмів (“запобіжників”) для нових можливостей ШІ, таких як взаємодія з комп’ютерними інтерфейсами.

Контекст безпеки ШІ в індустрії

Такий детальний опис підходів до безпеки виділяється на тлі загальних тенденцій в індустрії ШІ, де питання пріоритетності безпеки при розробці нових моделей залишається актуальним та іноді дискусійним під впливом різних ринкових та політичних чинників. Питання прозорості тестування та відповідальності розробників постійно обговорюються.

Стан добровільних партнерств з тестування з регуляторними та дослідницькими органами, такими як Інститут безпеки ШІ США (US AI Safety Institute), продовжує розвиватися разом із формуванням національних та міжнародних стратегій щодо ШІ.

Відкриті дані та заклик до співпраці

Anthropic зробила набір даних дослідження доступним для завантаження дослідниками. Компанія також запрошує “дослідників, експертів з політики та галузевих партнерів”, зацікавлених у зусиллях з безпеки, звертатися за адресою [email protected].

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicClaudeШтучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Perplexity розробляє браузер Comet Perplexity розробляє браузер Comet, який збиратиме дані для таргетованої реклами
Наступна стаття Як встановити Linux на старий ноутбук Як встановити Linux на старий ноутбук. ІНСТРУКЦІЯ

В тренді

TikTok може бути заборонений у кількох штатах США через шкідливий вплив на дітей
Як обмежити перегляд небажаного контенту для дітей у TikTok? Поради для батьків
5 днів тому
Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
Маніпулювання у соцмережах: як, для чого та за скільки впливають на вашу думку?
4 дні тому
Як використовувати Windows Sandbox? - ІНСТРУКЦІЯ
Windows Sandbox: повний посібник з використання ізольованого середовища Windows
5 днів тому
Найкращий пароль: парольна фраза чи складна комбінація символів?
Найкращий пароль: парольна фраза чи складна комбінація символів?
3 дні тому
Не підключайте ці 7 пристроїв до подовжувачів - ризик того не вартий
Не підключайте ці 7 пристроїв до подовжувачів – ризик того не вартий
2 дні тому

Рекомендуємо

Grok "роздягнув" матір дитини Ілона Маска — тепер вона подає в суд
Техногіганти

Grok “роздягнув” матір дитини Ілона Маска — тепер вона подає в суд

21 годину тому
5 ознак того, що ChatGPT галюцинує
Статті

5 ознак того, що ChatGPT галюцинує

2 дні тому
Засновник Signal створив ШІ-чатбот з апаратним шифруванням — як працює Confer
Огляди

Як працює Confer — ШІ-чатбот з апаратним шифруванням від творця Signal

2 дні тому
Сенатори США закликають Apple і Google видалити X та Grok з магазинів застосунків
Техногіганти

Сенатори США закликають Apple і Google видалити X та Grok з магазинів застосунків

3 дні тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?