Чотири найбільші чат-боти зі штучним інтелектом допускають «значні неточності» та «спотворення», коли їх просять підсумувати новини, згідно з розслідуванням BBC.
Чат-ботам ChatGPT від OpenAI, Copilot від Microsoft, Gemini від Google і Perplexity AI було представлено новинний контент з веб-сайту BBC, а потім їм було поставлено запитання про ці новини.
У звіті йдеться про те, що BBC попросила чат-ботів підсумувати 100 новин, а журналісти з відповідною експертизою оцінили якість кожної відповіді.
Згідно з висновками, 51% усіх відповідей на новини, згенерованих штучним інтелектом, мали суттєві недоліки, а 19% відповідей «містили фактичні помилки, такі як неправильні фактичні твердження, цифри та дати».
Крім того, розслідування виявило, що 13% цитат зі статей BBC були певним чином змінені, спотворюючи «першоджерело» або навіть не будучи присутніми в цитованій статті.
Минулого місяця компанія Apple зазнала критики за свою функцію штучного інтелекту Apple Intelligence, яка, як з’ясувалося, спотворює новини BBC.
Дебора Тернесс, генеральний директор BBC News and Current Affairs, відреагувала на результати розслідування у своєму блозі:
«Ціною надзвичайних переваг штучного інтелекту не повинен бути світ, де людям, які шукають відповіді, подається спотворений, дефектний контент, який видається за факт. У світі, який може здаватися хаотичним, не може бути правильним, щоб споживачі, які шукають ясності, зустрічалися з ще більшою плутаниною».
Серед помилок, висвітлених у звіті, були наступні:
- ChatGPT стверджував, що голова ХАМАСу Ісмаїл Ханія був убитий у грудні 2024 року в Ірані, тоді як він був убитий у липні.
- Gemini заявив, що Національна служба охорони здоров’я (NHS) «радить людям не починати вейпінг і рекомендує курцям, які хочуть кинути палити, використовувати інші методи». Це твердження не відповідає дійсності. Насправді NHS рекомендує вейпінг як метод відмови від куріння.
- Perplexity неправильно процитував заяву сім’ї Ліама Пейна після його смерті.
- ChatGPT і Copilot помилково заявили, що колишні британські політики Ріші Сунак і Нікола Стерджен все ще перебувають на посадах.
Згідно з розслідуванням BBC, Copilot і Gemini загалом мали більше неточностей і проблем, ніж ChatGPT і Perplexity.
Крім того, автори звіту дійшли висновку, що фактичні неточності були не єдиною проблемою в роботі чат-ботів: асистенти зі штучним інтелектом також «намагалися відрізнити думку від факту, редагували і часто не включали важливий контекст».
«Видавці повинні контролювати, чи використовується їхній контент і як саме, а компанії-розробники ШІ повинні показувати, як асистенти обробляють новини, а також масштаб і кількість помилок і неточностей, які вони допускають», – пояснив у звіті Піт Арчер, програмний директор ВВС з генеративного ШІ.
Представник OpenAI підкреслив якість результатів роботи ChatGPT: «Ми підтримуємо видавців і авторів, допомагаючи 300 мільйонам щотижневих користувачів ChatGPT знаходити якісний контент за допомогою резюме, цитат, чітких посилань і атрибуції». Речник додав, що OpenAI працює з партнерами «над підвищенням точності вбудованого цитування і повагою до уподобань видавців для покращення результатів пошуку».