7 способов улучшения датасетов медицинских снимков для машинного обучения / Хабр

Качество датасета медицинских снимков (как и датасетов изображений в любой другой области) напрямую влияет на точность модели машинного обучения.

В секторе здравоохранения это ещё более важно, ведь качество крупных массивов данных медицинских снимков для диагностического и медицинского AI (искусственного интеллекта) или моделей глубокого обучения может стать для пациентов вопросом жизни и смерти.

Как знают команды клинических исследователей, сложность, форматы и слои информации в медицине больше и затейливее, чем в немедицинских изображениях и видео. Отсюда и берётся необходимость в алгоритмах искусственного интеллекта, машинного обучения (ML) и глубокого обучения с целью понимания, интерпретации и обучения на аннотированных массивах данных медицинских снимков.

В этой статье мы расскажем о сложностях создания обучающих массивов данных из медицинских снимков и видео (особенно в сфере радиологии), а также поделимся рекомендациями по созданию обучающих массивов данных высочайшего качества.

Что такое массив данных медицинских снимков?

Массив данных медицинских снимков может включать в себя широкий ассортимент медицинских снимков или видео. Медицинские снимки и видео поступают из множества различных источников, включая микроскопические исследования, радиологию, снимки КТ, МРТ, УЗИ, рентгеновские снимки и множество других.

Кроме того, медицинские снимки поступают во множестве разных форматов, например, DICOM, NIfTI и PACS. Подробнее о форматах файлов массивов данных медицинских снимков можно прочитать здесь:

В чём разница между файлами DICOM и NIfTI?

Анализ медицинских снимков — сложная сфера. В неё входит получение обучающих данных и применение алгоритмов ML, AI или глубокого обучения для понимания содержимого и контекста изображений, видео и информации о здоровье с целью выявления паттернов и расширения понимания заболеваний и нарушений здоровья. Одними из самых распространённых источников данных медицинских снимков являются изображения и видео с аппаратов магнитно-резонансной томографии, а также ренгеновские снимки.

Всё начинается с создания точных данных обучения из крупномасштабных массивов данных медицинских снимков, а для этого требуется достаточный размер выборки. Точность модели ML напрямую коррелирует с качеством и статистически релевантным количеством аннотированных изображений или видео, на которых обучается алгоритм.

Как массивы данных медицинских снимков используются в машинном обучении?

Массив данных медицинских снимков создаётся, аннотируется, размечается и передаётся в модели машинного обучения (ML) и другие алгоритмы AI, чтобы помогать медицинским специалистам решать свои задачи. Конечная цель заключается в решении медицинских задач, использовании массивов данных и моделей ML, чтобы помочь командам клинических исследователей, медсёстрам, врачам и другим медицинским специалистам ставить более точные диагнозы заболеваний.

Чтобы достичь этой конечной цели, часто бывает полезно иметь несколько массивов данных для обучения модели ML и достаточный размер выборки. Например, массив пациентов, которые потенциально могут иметь проблемы со здоровьем и заболевания (в частности, рак), и массив здоровых людей. Модели ML и AI более эффективны, когда их можно обучить для идентификации заболеваний, болезней и опухолей.

При аннотировании и разметке крупномасштабных массивов данных медицинских снимков особенно полезно иметь снимки с метаданными и клиническими отчётами. Чем больше информации можно передать в модель ML, тем точнее она сможет решать задачи. Разумеется, это значит, что массивы данных медицинских снимков требуют обработки больших объёмов данных, а моделям ML очень нужны данные.

Почему для машинного обучения важно наличие высококачественных массивов данных медицинских снимков?

Работы по аннотированию и разметке требуют времени, а командам клинических исследователей необходимо брать массивы данных с максимально возможным качеством. Контроль качества является неотъемлемой частью этого процесса, особенно когда так важны результаты проекта и точность модели.

В идеале для снижения угрозы искажений высококачественные данные должны поступать от различных устройств и платформ, задействуя снимки или видео как можно большего количества этнических групп. Массивы данных должны включать в себя снимки и видео здоровых и болеющих пациентов.

Качество напрямую влияет на результаты работы модели машинного обучения. Поэтому чем точнее и шире ассортимент снимков и применённых к ним аннотаций, тем выше вероятность достижения моделью уровня эффективности, оправдывающей финансовые вложения в проект.

Аннотаторы могут создавать более точные данные обучения, если у них есть подходящие инструменты, например, инструмент на основе AI, который помогает медицинским учреждениям и компаниям справляться с большими сложностями компьютерного зрения в здравоохранении. Командам клинических исследователей необходима платформа, упрощающая совместную работу команд аннотаторов, медицинских специалистов и инженеров машинного обучения.

Какими могут быть последствия передачи модели машинного обучения «плохого» массива данных?

Передача низкокачественного, плохо очищенного (очистка сырых данных является неотъемлемой частью этого процесса), неточно размеченного и аннотированного массива данных в модель машинного обучения — это пустая трата времени.

Это негативно повлияет на результаты и показатели модели, потенциально приводя к обесцениванию всего проекта, заставит команды клинических исследователей или начинать сначала, или переделывать большие части проекта. Такие проблемы заставляют тратить дополнительные время и деньги, особенно при обработке крупных массивов данных.

Качество крупного массива данных крайне важно. Низкокачественный массив данных может привести к тому, что модель ничему не научится у данных из-за недостаточного объёма существенного материала для обучения.

Или если модель обучается на недостаточно разнообразном медицинском массиве данных, она создаст перекошенный результат. Перекос модели может проявляться множеством разных способов. Она может быть перекошена в сторону мужчин или женщин или в пользу тех или иных этнических групп. Также модель может ошибочно идентифицировать больных людей как здоровых, а здоровых — как больных. Отсюда и проистекает важность статистически большого размера выборки в массиве данных.

«Плохие» данные могут принимать различные формы. Задача команд аннотаторов и разметчиков — гарантировать, что у команд клинических испытателей и инженеров ML есть в наличии максимально качественные данные с точными аннотациями и метками, а также строгим контролем качества.

Какие проблемы у массивов данных медицинских снимков наиболее распространены?

Среди распространённых проблем — невозможность считывания массивов данных снимков моделями машинного обучения.

Лечебные учреждения продают крупные массивы данных для исследований в области медицинской визуализации и проектов, связанных с ML. Когда это происходит, снимки могут поставляться без требуемого модели разнообразия или с вырезанными важными клиническими метаданными наподобие отчётов о биопсии. Или лечебные учреждения просто продают массивы данных крупными партиями, не имея технической возможности фильтровать их по нужным изображениям и видео.

Однако столь же распространённой проблемой является и то, что медицинские данные по-прежнему содержат идентифицирующую пациентов личную информацию: фамилии, сведения о страховке и адреса. Из-за нормативных требований сферы здравоохранения и законов о защите данных (например, нормативов FDA или ЕС) каждый проект аннотирования снимков должен крайне аккуратно очищать массивы данных от всего, что может идентифицировать пациентов и нарушить их конфиденциальность.

Также проблемой является использование данных старых моделей медицинских приборов, имеющих низкое разрешение снимков и видео.

Распространённые сложности в создании массива данных медицинских снимков

Для создания и инициации проекта аннотации и разметки массива данных медицинских снимков необходимо преодолеть одни из самых распространённых сложностей:

Откуда мы получаем данные? Будут ли они поступать от внутренних источников (например, от лечебного учреждения или медицинской организации, использующей собственные массивы данных), из публичных источников или мы будем покупать их у лечебных учреждений?
Кто будет аннотировать и размечать массив данных (например, собственные сотрудники или внешние поставщики услуг)? Не забывайте, что время радиолога или другого специалиста слишком ценно. Для такой работы необходим надёжный исполнитель.
Где и как мы будем хранить данные медицинских снимков?
Как будут извлекаться сырые данные для аннотирования и разметки?
Как будут передаваться данные медицинских снимков? Обычно массивы данных содержат сотни тысяч изображений, видео и медицинских метаданных. Их нельзя просто хранить на облачных серверах. Их нельзя запаковать в Zip и прикрепить к письму. Медицинские данные требуют высоких уровней шифрования, а в некоторых случаях и вооружённой охраны.
Получаете ли вы все данные, необходимые для обучения модели? Помните, что для устранения неточностей и перекосов вам нужен достаточно широкий спектр снимков.
Как их валидировать и фильтровать огромные количества изображений, видео и данных медицинской визуализации?
Как долго можно хранить данные? Нормирующие органы могут ограничить срок тремя годами.
Если данные аннотируются и размечаются в другой стране, то какие там законы о защите данных, можете ли вы делать это законно? Как вы можете гарантировать, что данные передаются и хранятся надёжным образом?
Как реализовать эффективный контроль качества в течение всего процесса аннотирования, чтобы гарантировать, что модель получает самые высококачественные и точные данные?

На все эти вопросы нужно ответить, прежде чем начинать проект аннотирования массива данных медицинских снимков. И только после завершения аннотирования и разметки изображений или видео вы сможете начать обучать модель машинного обучения, чтобы решать конкретные проблемы и трудности проекта.

Команды клинических исследователей могут улучшать качество и точность массивов данных медицинских снимков семью способами.

7 способов, которыми команды клинических исследователей могут улучшать качество и точность массивов данных медицинских снимков

1. Получение правильных данных в нужном объёме

Прежде чем приступать к любому проекту компьютерного зрения, вам нужно получить подходящие данные, обладающие достаточно высоким качеством и в количествах, достаточных для статистического взвешивания. Как говорилось выше, качество крайне важно, оно может напрямую положительно или отрицательно влиять на результаты работы моделей ML.

Перед тем, как заказывать массивы данных медицинских снимков, руководителям проектов нужно скоординироваться с командами машинного обучения, data science и клинических исследователей. Это поможет преодолеть сложности получения «плохих» данных или того, что командам аннотаторов придётся фильтровать тысячи нерелевантных или низкокачественных изображений и видео при аннотировании данных обучения, что влияет на потраченные деньги и время.

2. Устранение проблем с нормативным регулированием и комплаенсом при аннотировании массивов данных

Вопросы с нормативным регулированием и комплаенсом необходимо решить до покупки или извлечения массивов данных из внутренних источников или у внешних поставщиков.

Руководителям проектов и командам ML необходимо убедиться, что массивы данных соответствуют требованиям FDA, ЕС, HIPAA и любых других законов о защите данных.

Вопросы нормативного регулирования затрагивают хранение, доступ и транспортировку данных, время, которое понадобится на проект и обеспечение достаточной анонимности изображений и видео (в них должны отсутствовать любые идентификаторы конкретных пациентов). В противном случае, вы рискуете нарушить закон, что приведёт к солидным штрафам и даже риску утечки данных, особенно в случае сотрудничества со сторонними сервисами аннотирования.

3. Предоставьте командам аннотаторов мощные инструменты на основе AI, специализирующиеся на массивах данных медицинских снимков

Аннотирование медицинских снимков для моделей машинного обучения требует точности, эффективности, высокого уровня качества и безопасности.

Благодаря мощным инструментам аннотирования изображений на основе AI медицинские аннотаторы и специалисты могут экономить часы работы и генерировать более точно размеченные медицинские снимки. Обеспечьте своим командам аннотаторов доступ к инструментам, необходимым для превращения массивов данных в данные обучения, которые смогут использовать AI, ML или модели глубокого обучения.

4. Обеспечьте простоту передачи и использования массивов данных медицинских снимков в моделях машинного обучения

Клинические данные должны доставляться и передаваться в формате, который легко парсить, аннотировать, портировать, а после аннотирования быстро и эффективно передавать в модель ML. Помогает и наличие подходящих инструментов, поскольку аннотаторы и команды ML смогут аннотировать изображения и видео в нативном формате, например, DICOM и NIfTI.

При поиске эталонных данных для медицинских массивов данных играют свою роль и методы визуализации, и сегментация медицинских снимков. Если предоставить алгоритмам глубокого обучения статистически широкий спектр изображений с высоким качеством наряду с анонимизированной информацией о здоровье, размерностями (в случае снимков DICOM) и биомедицинскими данными снимков, то это даст результаты, к которым стремятся команды ML и руководители проектов.

5. Обеспечьте командам клинических исследователей и ML достаточные ресурсы для просмотра больших объёмов данных снимков

Ресурсы для просмотра — это вопрос, который нужно учитывать руководителям проектов, когда в массиве данных присутствуют большие объёмы изображений или видео. Достаточно ли у ваших команд аннотаторов и ML устройств для просмотра данных? Можете ли вы увеличить ресурсы, чтобы возможность просмотра не стала узким местом проекта?

6. Преодоление сложностей хранения и передачи

Как говорилось выше, вам также придётся преодолевать проблемы хранения и передачи. Массивы данных медицинских снимков часто состоят из сотен или тысяч терабайтов, которые нельзя просто так отправить по почте. Руководителям проектов нужно обеспечить сквозную безопасность и эффективность покупки или извлечения, очистки, хранения и передачи медицинских данных.

7. Применяйте в процессе аннотирования автоматизацию и другие инструменты

При аннотировании тысяч медицинских снимков или видео вам необходима автоматизация и другие инструменты в помощь команде аннотаторов. Убедитесь, что у неё есть подходящие инструменты, способные обрабатывать массивы данных медицинских снимков, чтобы вне зависимости от количества и качества данных вы были уверены в их эффективной и экономичной работе.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

7 способов улучшения датасетов медицинских снимков для машинного обучения