Исследование BMJ: ИИ ошибся в 50% медответов
Исследование BMJ Open показало, что чат-боты на основе ИИ, включая ChatGPT и Grok, дали неточные ответы почти в половине случаев по медицинским вопросам. Grok допустил больше всего ошибок.
Исследование: чат-боты с ИИ допускают ошибки почти в половине медицинских ответов
Согласно новому исследованию, опубликованному в научном журнале BMJ Open, популярные чат-боты на основе искусственного интеллекта в среднем в 49,6% случаев предоставляют неточную информацию по вопросам здоровья и медицины. Наиболее низкую точность в рамках эксперимента продемонстрировала система Grok.
В ходе работы учёные протестировали пять широко известных ИИ-ассистентов:
- Gemini
- DeepSeek
- Meta AI
- ChatGPT
- Grok
Каждому из них было задано по десять вопросов, охватывающих такие темы, как онкология, вакцинация, применение стволовых клеток, принципы питания и физическая активность. Все полученные ответы были переданы для независимой экспертной оценки.
«Почти половина (49,6%) ответов содержали искажения: 30% - немного искажений, и 19% - много искажений», — констатируют авторы статьи.Анализ показал, что общее качество ответов у различных моделей было сопоставимым, однако Grok выделился наихудшим показателем, выдавая значительно больше ответов с существенными ошибками. Наиболее достоверно ИИ справлялись с вопросами о раке и вакцинации, в то время как тема питания вызвала у них наибольшие затруднения.
Примечательно, что чат-боты в подавляющем большинстве случаев (248 из 250) отвечали с высокой степенью уверенности. При этом ни одна из систем не смогла корректно предоставить список источников информации, вместо этого демонстрируя так называемые «галлюцинации» — выдумывая несуществующие ссылки и публикации.
Исследователи также обратили внимание на сложность изложения: уровень представленных текстов соответствовал материалам для студентов второго курса университета, что может затруднять их восприятие широкой аудиторией.
«Проверенные чат-боты показали неудовлетворительные результаты при ответах на вопросы из областей здоровья и медицины, подверженных распространению ложной информации. Дальнейшее применение без общественного просвещения и надзора может усилить степень распространения ложной информации», — делают вывод авторы работы.