Специалисты из Центра практического искусственного интеллекта Сбера совместно с коллегами из НИУ ВШЭ и Института системного программирования (ИСП) РАН разработали тест для оценки и улучшения качества работы медицинских систем искусственного интеллекта. Тест позволяет моделировать консультации между врачом и пациентом на основе жалоб, снимков и характера пациента. Разработка способна повысить качество работы медицинского ИИ на 6,5–20%.
Компании, которые разрабатывают медицинские ИИ‑системы и телемедицинские платформы, могут бесплатно использовать тест для оценки и улучшения диагностических возможностей своих нейросетей в реалистичных условиях. Интеграция мультимодальных данных и улучшение диалоговых стратегий помогает повысить качество удалённых консультаций.
Систему создали для реалистичного моделирования ситуаций, в которых взаимодействуют врачи и пациенты. Роль врачей и пациентов берут на себя специальные ИИ‑агенты, каждый из которых управляется большой языковой или мультимодальной моделью искусственного интеллекта.
Для работы тестовой системы исследователи подготовили 3 тысячи случаев с 34 диагнозами, которые основаны на реальных текстах и медицинских изображениях. Опираясь на этот набор ситуаций, исследователи сравнили несколько популярных стратегий по постановке диагнозов, применяемых в открытых и закрытых системах ИИ со способностью воспринимать текст и визуальную информацию.
Проверки показали, что наличие у ИИ способности вести диалог с предполагаемым пациентом повышает качество диагностики на 6,5%. Появление у диагностической системы умения классифицировать медицинские показатели в некоторых случаях улучшает её способности на 20% по сравнению с аналогами. Создатели системы надеются, что тест позволит улучшить качество применения языковых моделей в российском и мировом здравоохранении.
