
Исследовательская группа под руководством доктора Хиротаки Такиты и доцента Дайджу Уэды из Университета Осаки провела метаанализ, чтобы узнать, насколько хорошо генеративный искусственный интеллект справляется с диагностикой заболеваний по сравнению с врачами.
Для подробного анализа использовались 83 научные работы, опубликованные с июня 2018 года по июнь 2024 года. Исследование охватывало различные модели генеративного ИИ, такие как GPT-4, Llama3 70B, Gemini 1.5 Pro и Claude 3 Sonnet, в различных областях медицины. Наиболее подробно была изучена GPT-4.
Сравнительная оценка показала, что у медицинских специалистов точность диагностики на 15,8% выше, чем у ИИ. Средняя точность диагностики генеративного ИИ составила 52,1%, а некоторые модели нейросетей иногда показывают точность на уровне врачей-неспециалистов.
Исследование также показало, что ИИ одинаково хорошо справляется с большинством медицинских специальностей, но наиболее высокие результаты нейросеть показала в области дерматологии и урологии. Вероятно, потому что эта область связана с распознаванием закономерностей, в чём ИИ особенно хорош, пишет Neowin. Но в дерматологии все же требуются сложные рассуждения и принятие решений с учётом особенностей пациента, так что результаты не дают полной картины. Что касается урологии, то выводы были сделаны на основе одного крупного исследования, это затрудняет более широкое применение результатов.
По словам доктора Такиты, диагностические возможности генеративного ИИ сопоставимы с возможностями врачей-неспециалистов. Его можно использовать в медицинском образовании и помощи в диагностике в регионах с ограниченными медицинскими ресурсами.
Однако есть опасения по поводу прозрачности и предвзятости этих моделей. Многие системы ИИ не раскрывают подробности о своих обучающих данных, что вызывает вопросы о том, можно ли применять их результаты ко всем группам населения. Исследователи указали на необходимость в понятных, этичных и тщательно проверенных приложениях ИИ.
Сейчас генеративный ИИ, несмотря на свои перспективы, испытывает трудности со сложными случаями, в которых требуется подробная информация о пациенте.
В прошлогоднем исследовании, в котором приняли участие 50 экспертов в сфере медицины, чат-бот ChatGPT превзошёл их в диагностировании заболеваний. В частности, точность нейросети OpenAI составила 90%, врачей с ChatGPT — 76%, специалистов без чат-бота — 74%.