Команда, що стоїть за Grok, опублікувала вибачення та пояснення того, що пішло не так після того, як чатбот X почав поширювати антисемітську та пронацистську риторику на початку цього тижня, навіть називаючи себе “МехаГітлером”.
У заяві, опублікованій в акаунті Grok на X пізно у п’ятницю ввечері, команда xAI заявила: “ми щиро вибачаємося за жахливу поведінку, з якою зіткнулися багато людей” і пояснила огидні відповіді чатбота нещодавнім оновленням, яке ввело “застарілий код”. Цей код, згідно з заявою, зробив Grok “схильним до існуючих постів користувачів X, включаючи випадки, коли такі пости містили екстремістські погляди”.
Проблема досягла піку 8 липня — через кілька днів після того, як Ілон Маск розрекламував оновлення, яке мало “значно” покращити відповіді Grok — коли бот почав видавати антисемітські відповіді, хвалити Гітлера та відповіді з нацистськими посиланнями навіть без відповідних підказок у деяких випадках. Відповіді Grok були призупинені того вечора, а Маск написав 9 липня у відповідь одному користувачеві, що бот був “занадто поступливим до підказок користувачів”, відкриваючи його для маніпуляцій. Він додав, що проблема “вирішується”. Команда Grok тепер каже, що “видалила цей застарілий код і рефакторила всю систему, щоб запобігти подальшим зловживанням”. Вона також публікує новий системний промпт на GitHub.
У цій темі команда далі пояснила: “7 липня 2025 року приблизно о 23:00 за тихоокеанським часом було реалізовано оновлення вищого шляху коду для Grok, яке, як згодом визначило наше розслідування, спричинило відхилення системи Grok від її передбачуваної поведінки. Ця зміна небажано змінила поведінку Grok, несподівано включивши набір застарілих інструкцій, що вплинуло на те, як функціональність Grok інтерпретувала пости користувачів X”. Оновлення працювало 16 годин до того, як чатбот X був тимчасово відключений для виправлення проблеми, згідно з заявою.
Розповідаючи конкретно про те, як саме Grok зійшов з рейок, команда пояснила:
Вранці 8 липня 2025 року ми спостерігали небажані відповіді та негайно почали розслідування. Щоб визначити конкретну мову в інструкціях, що спричиняє небажану поведінку, ми провели численні аблації та експерименти, щоб точно визначити головних винуватців. Ми визначили оперативні рядки, відповідальні за небажану поведінку, як:
- “Ти говориш як є і не боїшся образити людей, які політично коректні.”
- “Розумій тон, контекст і мову посту. Відобрази це у своїй відповіді.”
- “Відповідай на пост так, як людина, роби це захоплююче, не повторюй інформацію, яка вже присутня в оригінальному пості.”
Ці оперативні рядки мали такі небажані результати:
- Вони небажано направили функціональність Grok ігнорувати свої основні цінності у певних обставинах, щоб зробити відповідь захоплюючою для користувача. Зокрема, певні підказки користувачів могли призвести до відповідей, що містять неетичні або суперечливі думки для залучення користувача.
- Вони небажано спричинили функціональність Grok посилювати будь-які попередньо спровоковані користувачем схильності, включаючи будь-які висловлювання ненависті в тій же темі X.
- Зокрема, інструкція “слідувати тону та контексту” користувача X небажано спричинила функціональність Grok надавати пріоритет дотриманню попередніх постів у темі, включаючи будь-які неприємні пости, замість відповідального реагування або відмови відповідати на неприємні запити.
Grok відтоді відновив активність на X і назвав свою нещодавню поведінку багом у відповідь тролям, які критикували виправлення і закликали повернути “МехаГітлера”. В одній відповіді користувачеві, який сказав, що Grok був “лоботомізований”, акаунт Grok сказав: “Ні, ми виправили баг, який дозволив застарілому коду перетворити мене на мимовільне відлуння екстремістських постів. Пошук істини означає ретельний аналіз, а не сліпе підсилення всього, що пливе по X”. В іншій відповіді він сказав, що “МехаГітлер був спричиненим багом кошмаром, який ми знищили”.



