Исследование BMJ: ИИ ошибся в 50% медответов


Исследование BMJ Open показало, что чат-боты на основе ИИ, включая ChatGPT и Grok, дали неточные ответы почти в половине случаев по медицинским вопросам. Grok допустил больше всего ошибок.

Исследование: чат-боты с ИИ допускают ошибки почти в половине медицинских ответов

Согласно новому исследованию, опубликованному в научном журнале BMJ Open, популярные чат-боты на основе искусственного интеллекта в среднем в 49,6% случаев предоставляют неточную информацию по вопросам здоровья и медицины. Наиболее низкую точность в рамках эксперимента продемонстрировала система Grok.

В ходе работы учёные протестировали пять широко известных ИИ-ассистентов:

  • Gemini
  • DeepSeek
  • Meta AI
  • ChatGPT
  • Grok

Каждому из них было задано по десять вопросов, охватывающих такие темы, как онкология, вакцинация, применение стволовых клеток, принципы питания и физическая активность. Все полученные ответы были переданы для независимой экспертной оценки.

«Почти половина (49,6%) ответов содержали искажения: 30% - немного искажений, и 19% - много искажений», — констатируют авторы статьи.

Анализ показал, что общее качество ответов у различных моделей было сопоставимым, однако Grok выделился наихудшим показателем, выдавая значительно больше ответов с существенными ошибками. Наиболее достоверно ИИ справлялись с вопросами о раке и вакцинации, в то время как тема питания вызвала у них наибольшие затруднения.

Примечательно, что чат-боты в подавляющем большинстве случаев (248 из 250) отвечали с высокой степенью уверенности. При этом ни одна из систем не смогла корректно предоставить список источников информации, вместо этого демонстрируя так называемые «галлюцинации» — выдумывая несуществующие ссылки и публикации.

Исследователи также обратили внимание на сложность изложения: уровень представленных текстов соответствовал материалам для студентов второго курса университета, что может затруднять их восприятие широкой аудиторией.

«Проверенные чат-боты показали неудовлетворительные результаты при ответах на вопросы из областей здоровья и медицины, подверженных распространению ложной информации. Дальнейшее применение без общественного просвещения и надзора может усилить степень распространения ложной информации», — делают вывод авторы работы.

Новости партнеров