Как стать автором
Обновить

Комментарии 12

Для решения первой проблемы попробуйте очень простой метод:
Возьмите малое количество картинок точно размеченных. Точная разметка дорога, но картинок мало и это не подорвет бюджет.
Обучите сеть на этих картинках до приемлемого уровня.

Теперь попробуйте оценить новую картинку. Если сеть её распознает приемлемо, значит обучена, если не распознает — значит эта картинка содержит новую, не виданную ранее информацию для сети.
Тогда эту картинку опять дорого и качественно размечайте, опять проверяйте и добавляйте в первоначальный набор, если дорогая разметка не показала брак разметки первоначальной.

Так и получите нормальный датасет
вот тут всё красиво, подробно изложено https://habr.com/ru/post/440120/
( или тут https://7210208.blogspot.com/2019/02/blog-post_10.html )

А вот вторая задача гораздо сложнее и нужно собрать параметры всех ренген аппаратов, возможность чего сомнительна или унифицировать их все.
Другого пути не вижу.
то, что вы описываете, звучит очень похоже на некую вариацию активного обучения. я эту тему очень люблю, мы как раз сейчас проводим серию экспериментов по эффективности (включая экономическую) разных методов активного обучения — я обязательно поделюсь результатами на какой-нибудь конференции и в этом блоге)
Знакомые проблемы инженера при столкновении с медициной. Ваш подход внушает оптимизм! Для ручной разметки не применяли Дельфийскую процедуру?
очень хороший вопрос на самом деле, мы пробовали и продолжаем пробовать различные способы устранения конфликтов в кросс-разметке (консилиумы, экспертный аудит и другие). проблема в том, что все эти методы, а уж особенно итеративные стоят очень дорого. врачи стоят в десятки раз дороже разметчиков с толоки, а времени у них мало — жизни надо спасать) поэтому в каждом случае надо оценивать экономическую целесообразность того или иного метода — к примеру, а может проще забить и лучше разметить побольше снимков?
В давние времена в проекте SCP ECG для разметки электрокардиограмм использовали Дельфийскую процедуру с панелью экспертов из 5 человек. За давностью не помню сколько длился проект, но вроде не меньше года и было размечено порядка 250 электрокардиограмм, даже не электрокардиограмм: были выделены репрезентативные комплексы и на них расставлены реперные точки. Задача попроще, чем анализ маммограммы.
Интересно:
  1. Как Вы оцениваете размер «сампла»?
  2. Сколько должно быть экспертов в работоспособной панели?
  3. У Вас есть сложившиеся мнение о том, где находится оптимум оплаты работы экспертов? Поясню: платить мало — трудно привлечь специалистов, платить много — налетают «специалисты» с админ-ресурсом…
  4. Насколько реально получить инвестиции под такой сбор данных? По-хорошему это должно быть грантовое исследование, нет?
1) Что имеется в виду? Сколько требуется данных для обучения? Проще всего строить эмприческую кривую зависимости метрик от объёма данных. Какие-то статистические оценки здесь по сути неприменимы.
2) Очень зависит от проекта, от типа снимков, от сложности патологии. От 1 до 5 обычно. + эксперт-аудитор может быть
3) Этот рынок ещё не очень хорошо сформирован на самом деле, мы тут идём наощупь больше. Но процедура отбора врачей-разметчиков — отдельный сложный вопрос. К примеру, хороший врач не всегда оказывается хорошим разметчиком. Мы недавно проводили «Вызов радиологу», некий публичный конкурс, он вызвал большой интерес.
4) Конкретно под сбор данных стартапам получить гранты, на мой взгляд, нереально. Только при наличии готового продукта.
Отличный материал, жду продолжения!
очень рады слышать, пользуяьсь случаем, приглашаю всех на трек про медицинские данные на датафесте ODS, наши эвенты будут 10-11 июня. должно быть очень круто)
Вывод получается такой:
Нейросетку обучить — самое простое. Сложности в подготовке, разметке и, самое главное, сборе данных.
Внезапно выяснится, скорее всего, что проще поставить свои рентгены, свои PACS, самостоятельно обучать персонал, самостоятельно собирать снимки контроллируя качество от А до Я и только так собрать аккуратный датасет. А там, глядишь, через годик-два, можно будет быстро собрать нейросетку.
хаха, это как когда мы модельки для скоринга делали когда-то, думали одно время открыть свою микрокредитную компанию, чтоб нормально данные собирать)

на самом деле частично это так и есть. надо, безусловно, работать с медицинскими организациями, помогать настраивать оборудование, обучать персонал, полностью брать на себя интеграцию по возможности. только так можно достичь реально интересных резалтов, а не ауков на бумажке

по поводу обучения нейросеток — на самом деле тоже не совсем банальная история. например, в маммографии для каждой груди делается два снимка с разных углов — уже можно делать multi-view detection. трёхмерные данные (КТ, МРТ) чем-то похожи на видео, но тоже не совсем. в общем, нюансов много, не все из них связаны с не очень хорошим качеством данных
А расскажите про препроцессинг: снимки маммографии бывают же и в 512x512 и в 4800x4800.
Вы большие сжимаете или маленькие растягиваете через super-resolution?
Грудь центруете или она лежит где получится на снимке?
Грудь вырезаете от посторонних объектов? И если да, растягиваете ли получившееся на всю ширину кадра? И если растягиваете, то линейно или по сфере?
По объёму кода препроцессинг занимает чуть ли не больше места, чем обучение сетки) Чаще всего мы приводим изображения к одному и тому же размеру с помощью паддинга, предварительно вырезав область интереса и откинув все артефакты и ненужные части изображения. Геометрия груди может измениться только в результате аугментации, на инфересе всегда используется оригинальная форма и размер.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий