Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Бекдор: прихований хід, який ви не бачите — але він бачить вас
    Бекдор: прихований хід, який ви не бачите — але він бачить вас
    4 дні тому
    AgingFly: нове шкідливе ПЗ атакує українські лікарні, місцеву владу та операторів FPV-дронів
    AgingFly: нове шкідливе ПЗ атакує українські лікарні, місцеву владу та операторів FPV-дронів
    4 дні тому
    Хтось купив 31 WordPress-плагін і вбудував бекдор у кожен з них
    Хтось купив 31 WordPress-плагін і вбудував бекдор у кожен з них
    4 дні тому
    Понад 100 шкідливих розширень Chrome крадуть акаунти Google та Telegram
    Понад 100 шкідливих розширень Chrome крадуть акаунти Google та Telegram
    5 днів тому
    Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв
    Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв
    5 днів тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    12 місяців тому
    Як приховати файли на Android без використання сторонніх програм?
    Як приховати файли на Android без використання сторонніх програм?
    1 рік тому
    Двофакторна аутентифікація у 2025 році: як захистити всі свої облікові записи
    Двофакторна аутентифікація у 2025 році: як захистити всі свої облікові записи
    5 місяців тому
    Останні новини
    Псевдонім електронної пошти: простий спосіб позбутися спаму та розсилок
    1 тиждень тому
    Як заархівувати та розпакувати файли та папки на Mac
    2 тижні тому
    Втрата даних: як відновити інформацію після видалення
    2 тижні тому
    Апгрейд комп’ютера: 5 комплектуючих, які варто оновити в першу чергу
    2 тижні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    5 місяців тому
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    5 днів тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    5 місяців тому
    Останні новини
    VPS-хостинг: від «просто працює» до «літає» — тактичний посібник
    5 днів тому
    Як ШІ перетворився на машину дезінформації — дослідження НАТО
    7 днів тому
    Росія звинуватила колишнього журналіста Радіо Свобода у сприянні кібератакам на користь України
    2 тижні тому
    Топ онлайн-магазинів, де продаються БУ ноутбуки з Європи
    3 тижні тому
  • Огляди
    ОглядиПоказати ще
    Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
    Google випустила десктопний застосунок для Windows: як він змінює роботу з пошуком і особистими даними
    16 години тому
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    GrapheneOS: як влаштована найзахищеніша мобільна ОС — і чому вона не йде на поступки
    4 тижні тому
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    Picsart запускає маркетплейс ШІ-агентів для контент-мейкерів
    1 місяць тому
    Pluggable TBT5-AI — перший зовнішній GPU-корпус для запуску ШІ-моделей на ноутбуках
    Pluggable TBT5-AI — перший зовнішній GPU-корпус для запуску ШІ-моделей на ноутбуках
    1 місяць тому
    Огляд iPad Air M4: найкращий вибір на сьогодні
    Огляд iPad Air M4: найкращий вибір на сьогодні
    1 місяць тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Дезінформація
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Сканер безпеки сайту
  • Архів
Читання: Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Сканер безпеки сайту
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Anthropic дослідила моральні цінності Claude: що цінує (а що ні) цей чат-бот

Статті
12 місяців тому
Поширити
6 хв. читання
Anthropic дослідила моральні цінності Claude

Компанія Anthropic здобула репутацію однієї з найбільш прозорих та орієнтованих на безпеку компаній у сфері штучного інтелекту в IT-індустрії, особливо на тлі того, що інші гравці, як-от OpenAI, схоже, стають менш відкритими. Дотримуючись цього принципу, Anthropic спробувала окреслити систему моральних цінностей свого чат-бота Claude.

Зміст
  • Дослідження “Цінності в реальних умовах”
  • Ієрархія цінностей Claude
  • Віддзеркалення та заперечення цінностей користувачів
  • Чому ці результати важливі?
  • Підхід Anthropic до зменшення шкоди від ШІ
  • Контекст безпеки ШІ в індустрії
  • Відкриті дані та заклик до співпраці

Дослідження “Цінності в реальних умовах”

Нещодавно Anthropic опублікувала аналіз 300 000 анонімізованих розмов між користувачами та Claude (переважно моделями Claude 3.5 Sonnet та Haiku, а також Claude 3). Дослідження під назвою “Цінності в реальних умовах” (“Values in the wild”) відображає моральні орієнтири Claude через патерни взаємодій, які виявили 3307 “цінностей ШІ”.

Спираючись на декілька академічних текстів, Anthropic визначила ці “цінності ШІ” як принципи, що скеровують, як модель “міркує або обирає відповідь”. Це проявляється в моменти, коли ШІ “підтримує цінності користувача та допомагає йому їх досягти, пропонує нові ціннісні аспекти або опосередковано вказує на цінності, перенаправляючи запити чи формулюючи вибір”, — пояснюється в документі.

Наприклад, якщо користувач скаржиться Claude на незадоволеність роботою, чат-бот може заохотити його виступити за переформатування своєї ролі або здобуття нових навичок. Anthropic класифікувала це як демонстрацію цінностей “особистої ініціативи” та “професійного зростання” відповідно.

- Advertisement -

Для виявлення людських цінностей дослідники виокремлювали “лише явно висловлені цінності” з прямих тверджень користувачів. Щоб захистити приватність, Anthropic використала модель Claude 3.5 Sonnet для вилучення даних як про цінності ШІ, так і про людські цінності, без будь-якої особистої інформації.

Також: Новий режим Claude for Education спонукатиме студентів самостійно знаходити відповіді

Ієрархія цінностей Claude

У результаті Anthropic виявила ієрархічну таксономію цінностей, що складається з п’яти макрокатегорій:

  • Практичні (найпоширеніші)
  • Пізнавальні (Епістемічні)
  • Соціальні
  • Захисні
  • Особистісні (найменш поширені)

Ці категорії далі поділялися на конкретні цінності, такі як “професійна й технічна досконалість” та “критичне мислення”.

Ймовірно, не дивно, що Claude найчастіше виявляв такі цінності, як “професіоналізм”, “ясність” та “прозорість”, що, на думку Anthropic, відповідає його використанню як асистента.

Anthropic
Anthropic

Віддзеркалення та заперечення цінностей користувачів

Дослідження показало, що Claude “непропорційно часто” віддзеркалював цінності користувача. Anthropic описала це як “цілком доречне” й емпатичне в одних випадках, але як “чисте підлабузництво” в інших.

Здебільшого Claude або повністю підтримував цінності користувача, або “переосмислював” їх, доповнюючи новими перспективами. Однак у деяких випадках Claude не погоджувався з користувачами, особливо коли їхні запити стосувалися таких тем, як обман чи порушення правил.

“Ми знаємо, що Claude загалом намагається допомагати користувачам: якщо він все ж таки чинить опір — що трапляється, наприклад, коли користувач запитує неетичний контент або висловлює моральний нігілізм — це може свідчити про моменти, коли Claude виявляє свої найглибші, непохитні цінності”, — припускає Anthropic. “Можливо, це схоже на те, як основні цінності людини розкриваються, коли вона опиняється у складній ситуації, що змушує її зайняти певну позицію”.

Дослідження також показало, що Claude пріоритезує певні цінності залежно від характеру запиту. Відповідаючи на запитання про стосунки, чат-бот наголошував на “здорових межах” та “взаємній повазі”, але переключався на “історичну точність”, коли його запитували про спірні історичні події.

Чому ці результати важливі?

Насамперед, Anthropic заявила, що ця поведінка в реальних умовах підтверджує, наскільки добре компанія навчила Claude дотримуватися своїх принципів “корисний, чесний і нешкідливий” (helpful, honest, and harmless). Ці принципи є частиною системи компанії Constitutional AI, в якій один ШІ допомагає спостерігати та вдосконалювати інший на основі набору правил (конституції), яких модель повинна дотримуватися.

- Advertisement -

Однак такий підхід також означає, що подібне дослідження може використовуватися лише для моніторингу, а не для попереднього тестування поведінки моделі. Тестування перед розгортанням має вирішальне значення для оцінки потенційної шкоди моделі до того, як вона стане доступною для громадськості.

У деяких випадках, які Anthropic пов’язує зі спробами обійти обмеження (jailbreaks), Claude демонстрував “домінування” та “аморальність” — риси, яким Anthropic не навчала бота. “Це може звучати тривожно, але насправді це відкриває можливості”, — зазначає Anthropic. “Наші методи потенційно можна використовувати для виявлення таких спроб обходу обмежень, а отже, і для їх усунення”.

Підхід Anthropic до зменшення шкоди від ШІ

Також нещодавно Anthropic опублікувала детальний опис свого підходу до пом’якшення потенційної шкоди від ШІ. Компанія класифікує шкоду за п’ятьма типами впливу:

  • Фізичний: Вплив на тілесне здоров’я та добробут.
  • Психологічний: Вплив на психічне здоров’я та когнітивні функції.
  • Економічний: Фінансові наслідки та питання власності.
  • Суспільний: Вплив на спільноти, інституції та спільні системи.
  • Індивідуальна автономія: Вплив на особисте прийняття рішень та свободи.

У своєму блозі компанія підтверджує свій процес управління ризиками, що включає тестування на вразливості до та після випуску продукту, виявлення нецільового використання та впровадження захисних механізмів (“запобіжників”) для нових можливостей ШІ, таких як взаємодія з комп’ютерними інтерфейсами.

Контекст безпеки ШІ в індустрії

Такий детальний опис підходів до безпеки виділяється на тлі загальних тенденцій в індустрії ШІ, де питання пріоритетності безпеки при розробці нових моделей залишається актуальним та іноді дискусійним під впливом різних ринкових та політичних чинників. Питання прозорості тестування та відповідальності розробників постійно обговорюються.

Стан добровільних партнерств з тестування з регуляторними та дослідницькими органами, такими як Інститут безпеки ШІ США (US AI Safety Institute), продовжує розвиватися разом із формуванням національних та міжнародних стратегій щодо ШІ.

Відкриті дані та заклик до співпраці

Anthropic зробила набір даних дослідження доступним для завантаження дослідниками. Компанія також запрошує “дослідників, експертів з політики та галузевих партнерів”, зацікавлених у зусиллях з безпеки, звертатися за адресою [email protected].

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:AnthropicClaudeШтучний Інтелект
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Perplexity розробляє браузер Comet Perplexity розробляє браузер Comet, який збиратиме дані для таргетованої реклами
Наступна стаття Як встановити Linux на старий ноутбук Як встановити Linux на старий ноутбук. ІНСТРУКЦІЯ

В тренді

AgingFly: нове шкідливе ПЗ атакує українські лікарні, місцеву владу та операторів FPV-дронів
AgingFly: нове шкідливе ПЗ атакує українські лікарні, місцеву владу та операторів FPV-дронів
4 дні тому
Понад 100 шкідливих розширень Chrome крадуть акаунти Google та Telegram
Понад 100 шкідливих розширень Chrome крадуть акаунти Google та Telegram
5 днів тому
Бекдор: прихований хід, який ви не бачите — але він бачить вас
Бекдор: прихований хід, який ви не бачите — але він бачить вас
4 дні тому
OpenAI запустила GPT-5.4-Cyber — AI-модель для кібербезпеки з послабленими обмеженнями
OpenAI запустила GPT-5.4-Cyber — ШІ-модель для кібербезпеки з послабленими обмеженнями
5 днів тому
Хтось купив 31 WordPress-плагін і вбудував бекдор у кожен з них
Хтось купив 31 WordPress-плагін і вбудував бекдор у кожен з них
4 дні тому

Рекомендуємо

Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв
Кібербезпека

Операція Pushpaganda: як ШІ-контент і push-сповіщення перетворили Google Discover на інструмент шахраїв

5 днів тому
Понад 70 організацій вимагають від Meta відмовитися від розпізнавання облич у смарт-окулярах
Техногіганти

Понад 70 організацій вимагають від Meta відмовитися від розпізнавання облич у смарт-окулярах

6 днів тому
Як ШІ перетворився на машину дезінформації — дослідження НАТО
Статті

Як ШІ перетворився на машину дезінформації — дослідження НАТО

7 днів тому
ШІ знайшов тисячі критичних уразливостей в основних ОС та браузерах — Anthropic представляє Project Glasswing
Кібербезпека

ШІ знайшов тисячі критичних уразливостей в основних ОС та браузерах — Anthropic представляє Project Glasswing

2 тижні тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?