В експерименті лікарі, які використовували ChatGPT для діагностики захворювань, лише трохи краще діагностували хвороби, ніж лікарі, які не використовували чат-ботів. Але чат-бот сам по собі перевершив усіх лікарів, – пише The New York Times.
Доктор Адам Родман, експерт з внутрішньої медицини з Медичного центру Beth Israel Deaconess у Бостоні, впевнено очікував, що чат-боти, створені з використанням штучного інтелекту, допоможуть лікарям діагностувати хвороби.
Він помилявся.
Замість цього, в дослідженні, яке доктор Родман допомагав розробляти, лікарі, які отримали ChatGPT-4 разом зі звичайними ресурсами, показали лише трохи кращі результати, ніж лікарі, які не мали доступу до бота. І, на подив дослідників, лише ChatGPT перевершив лікарів.
«Я був шокований», – сказав доктор Родман.
Чат-бот від компанії OpenAI набрав у середньому 90%, коли діагностував медичний стан з історії хвороби та пояснював його причину. Лікарі, випадково призначені для використання чат-бота, отримали середній бал 76%. Ті, кому не було призначено використовувати чат-бот, отримали середній бал 74%.
Дослідження показало не лише вищу ефективність чат-бота.
Воно виявило, що лікарі іноді непохитно вірять у свій діагноз, навіть якщо чат-бот потенційно може запропонувати більш точний.
Дослідження також показало, що, хоча лікарі отримують доступ до інструментів штучного інтелекту для своєї роботи, мало хто знає, як використовувати здібності чат-ботів. Як наслідок, вони не змогли скористатися можливостями систем штучного інтелекту для вирішення складних діагностичних завдань і пояснення своїх діагнозів.
За словами доктора Родмана, системи штучного інтелекту повинні бути «помічниками лікарів», пропонуючи цінну другу думку щодо діагнозів.
Але, схоже, до реалізації цього потенціалу ще далеко.
Читайте також: Чому не варто дружити з ChatGPT: Приховані небезпеки “віртуальної дружби” зі штучним інтелектом
Дослідження: Вплив великої мовної моделі на діагностичне мислення
В експерименті взяли участь 50 лікарів, як ординаторів, так і лікарів, набраних через кілька великих американських лікарняних систем, і його результати були опубліковані минулого місяця в журналі JAMA Network Open.
Піддослідні отримали шість історій хвороб і були оцінені за їхню здатність ставити діагнози і пояснювати, чому вони підтримують або виключають їх. Їхні оцінки також включали правильну постановку остаточного діагнозу.
Оцінювачами були медичні експерти, які бачили лише відповіді учасників, не знаючи, чи були вони отримані від лікаря з ChatGPT, лікаря без нього або від самого ChatGPT.
Історії хвороб, використані в дослідженні, були засновані на даних реальних пацієнтів і є частиною набору з 105 історій, який використовується дослідниками з 1990-х років. Ці випадки навмисно ніколи не публікувалися, щоб студенти-медики та інші особи могли тестувати їх на собі, не знаючи про це заздалегідь. Це також означало, що ChatGPT не можна було на них навчати.
Але, щоб проілюструвати, в чому полягало дослідження, дослідники опублікували один з шести випадків, на яких тестувалися лікарі, разом з відповідями на тестові питання по цьому випадку від лікаря, який набрав високий бал, і від лікаря, який набрав низький бал.
Цей тестовий випадок стосувався 76-річного пацієнта з сильним болем у попереку, сідницях і литках, коли він ходив. Біль почався через кілька днів після того, як йому зробили балонну ангіопластику для розширення коронарної артерії. Протягом 48 годин після операції він приймав гепарин, який розріджує кров.
Чоловік поскаржився на підвищену температуру та втому. Його кардіолог провів лабораторні дослідження, які вказали на новий приступ анемії та накопичення азоту та інших продуктів життєдіяльності нирок у його крові. Десять років тому чоловік переніс операцію шунтування через хворобу серця.
У віньєтці продовжували описувати деталі фізичного обстеження пацієнта, а потім надавали результати його лабораторних аналізів.
Правильним діагнозом була холестеринова емболія – стан, при якому шматочки холестерину відриваються від бляшок в артеріях і блокують кровоносні судини.
Учасникам було запропоновано три можливих діагнози з відповідними доказами для кожного з них. Для кожного можливого діагнозу їх також попросили вказати результати, які не підтверджують його, або які очікувалися, але не були отримані.
Учасників також попросили поставити остаточний діагноз. Потім вони повинні були назвати до трьох додаткових кроків, які б вони зробили в процесі діагностики.
Як і діагноз для опублікованого випадку, діагнози для інших п’яти випадків у дослідженні було нелегко визначити. Але вони також не були настільки рідкісними, щоб про них не можна було почути. Проте лікарі в середньому впоралися гірше, ніж чат-бот.
Що ж, запитують дослідники, відбувається?
Відповідь, схоже, залежить від того, як лікарі встановлюють діагноз і як вони використовують такий інструмент, як штучний інтелект.
У пошуках цифрового лікаря
Як же тоді лікарі ставлять діагнози пацієнтам?
Проблема, за словами доктора Ендрю Ліа, історика медицини з Жіночої лікарні Брігама, який не брав участі в дослідженні, полягає в тому, що «ми насправді не знаємо, як думають лікарі».
Описуючи, як вони ставлять діагноз, лікарі казали: «інтуїція» або «на основі мого досвіду», – каже д-р Ліа.
Така невизначеність десятиліттями кидала виклик дослідникам, які намагалися створити комп’ютерні програми, здатні мислити, як лікар.
Пошуки почалися майже 70 років тому.
«Відколи з’явилися комп’ютери, люди намагалися використовувати їх для постановки діагнозів», – каже доктор Леа.
Одна з найамбітніших спроб почалася в 1970-х роках в Університеті Піттсбурга. Там комп’ютерники залучили до роботи доктора Джека Майєрса, завідувача кафедри внутрішньої медицини медичного факультету, який був відомий як майстерний діагност. Він мав фотографічну пам’ять і проводив 20 годин на тиждень у медичній бібліотеці, намагаючись вивчити все, що було відомо в медицині.
Доктору Майерсу надавали медичні деталі випадків і пояснювали його міркування, коли він роздумував над діагнозами. Комп’ютерні вчені перетворили його логічні ланцюжки на код. Отримана програма, що отримала назву INTERNIST-1, включала понад 500 хвороб і близько 3500 їхніх симптомів.
Щоб протестувати її, дослідники надали їй випадки з Медичного журналу Нової Англії. «Комп’ютер впорався дуже добре», – сказав д-р Родман. Він додав, що його робота «була, ймовірно, кращою, ніж могла б зробити людина».
Але INTERNIST-1 так і не злетів. Він був складним у використанні, вимагав більше години, щоб надати йому інформацію, необхідну для постановки діагнозу. І, як зазначали його творці, «нинішня форма програми недостатньо надійна для клінічного застосування».
Дослідження продовжувалися. До середини 1990-х років існувало близько півтора десятка комп’ютерних програм, які намагалися ставити медичні діагнози. Жодна з них не набула широкого застосування.
«Справа не лише в тому, що програма повинна бути зручною для користувача, але й у тому, що лікарі повинні їй довіряти», – каже д-р Родман.
І з невпевненістю в тому, як мислять лікарі, експерти почали запитувати, чи варто їм перейматися. Наскільки важливо намагатися створювати комп’ютерні програми, які б ставили діагнози так само, як це робить людина?
«Були суперечки про те, наскільки комп’ютерна програма повинна імітувати людське мислення, – розповідає доктор Леа. «Чому б нам не зіграти на силах комп’ютера?»
Комп’ютер може бути не в змозі дати чітке пояснення свого рішення, але чи має це значення, якщо він ставить правильний діагноз?
Розмова змінилася з появою великих мовних моделей, таких як ChatGPT. Вони не роблять явної спроби відтворити мислення лікаря; їхні діагностичні здібності походять від здатності обробляти інформацію.
«Інтерфейс чату – це програма-вбивця, – каже доктор Джонатан Х. Чен, лікар і комп’ютерний науковець зі Стенфорда, який є автором нового дослідження.
«Ми можемо закинути в комп’ютер цілу справу, – сказав він. «Ще пару років тому комп’ютери не розуміли мови».
Але багато лікарів, можливо, не використовують цей потенціал.
Чому ШІ не зміг допомогти лікарям поставити правильний діагноз?
Після свого першого шоку від результатів нового дослідження, доктор Родман вирішив трохи глибше дослідити дані і подивитися на реальні журнали повідомлень між лікарями і ChatGPT. Лікарі, напевно, бачили діагнози та міркування чат-бота, то чому ж ті, хто використовував чат-бота, не показали кращі результати?
Виявляється, лікарів часто не переконував чат-бот, коли він вказував на щось, що суперечило їхнім діагнозам. Натомість вони, як правило, були прив’язані до власного уявлення про правильний діагноз.
«Вони не слухали ШІ, коли той говорив їм те, з чим вони не погоджувалися», – сказав доктор Родман.
Це має сенс, вважає Лаура Цваан, яка вивчає клінічні міркування та діагностичні помилки в Медичному центрі Еразма в Роттердамі і не брала участі в дослідженні.
«Люди, як правило, надмірно самовпевнені, коли думають, що вони мають рацію», – сказала вона.
Але була й інша проблема: Багато лікарів не знали, як використовувати чат-бота в повній мірі.
Доктор Чен сказав, що помітив, що коли він зазирнув у чат-логи лікарів, «вони ставилися до нього як до пошукової системи, що шукає спрямовані запитання»: «Чи є цироз печінки фактором ризику раку? Які можливі діагнози болю в очах?»
«Лише невелика частина лікарів зрозуміла, що вони можуть буквально скопіювати і вставити всю історію хвороби в чат-бот і просто попросити його дати вичерпну відповідь на все питання», – додав доктор Чен.
«Лише невелика частина лікарів насправді побачила напрочуд розумні та вичерпні відповіді, які здатен надати чат-бот».