спасибо за добрые слова) нам точно есть куда расти во многих аспектах, но главное - стараемся ко всему подходить осознанно, спрашивать себя - зачем и почему мы этого делаем или не делаем. без этого максимум можно скопировать чьи-то практики по типу карго-культа
По объёму кода препроцессинг занимает чуть ли не больше места, чем обучение сетки) Чаще всего мы приводим изображения к одному и тому же размеру с помощью паддинга, предварительно вырезав область интереса и откинув все артефакты и ненужные части изображения. Геометрия груди может измениться только в результате аугментации, на инфересе всегда используется оригинальная форма и размер.
1) Что имеется в виду? Сколько требуется данных для обучения? Проще всего строить эмприческую кривую зависимости метрик от объёма данных. Какие-то статистические оценки здесь по сути неприменимы.
2) Очень зависит от проекта, от типа снимков, от сложности патологии. От 1 до 5 обычно. + эксперт-аудитор может быть
3) Этот рынок ещё не очень хорошо сформирован на самом деле, мы тут идём наощупь больше. Но процедура отбора врачей-разметчиков — отдельный сложный вопрос. К примеру, хороший врач не всегда оказывается хорошим разметчиком. Мы недавно проводили «Вызов радиологу», некий публичный конкурс, он вызвал большой интерес.
4) Конкретно под сбор данных стартапам получить гранты, на мой взгляд, нереально. Только при наличии готового продукта.
то, что вы описываете, звучит очень похоже на некую вариацию активного обучения. я эту тему очень люблю, мы как раз сейчас проводим серию экспериментов по эффективности (включая экономическую) разных методов активного обучения — я обязательно поделюсь результатами на какой-нибудь конференции и в этом блоге)
очень хороший вопрос на самом деле, мы пробовали и продолжаем пробовать различные способы устранения конфликтов в кросс-разметке (консилиумы, экспертный аудит и другие). проблема в том, что все эти методы, а уж особенно итеративные стоят очень дорого. врачи стоят в десятки раз дороже разметчиков с толоки, а времени у них мало — жизни надо спасать) поэтому в каждом случае надо оценивать экономическую целесообразность того или иного метода — к примеру, а может проще забить и лучше разметить побольше снимков?
очень рады слышать, пользуяьсь случаем, приглашаю всех на трек про медицинские данные на датафесте ODS, наши эвенты будут 10-11 июня. должно быть очень круто)
хаха, это как когда мы модельки для скоринга делали когда-то, думали одно время открыть свою микрокредитную компанию, чтоб нормально данные собирать)
на самом деле частично это так и есть. надо, безусловно, работать с медицинскими организациями, помогать настраивать оборудование, обучать персонал, полностью брать на себя интеграцию по возможности. только так можно достичь реально интересных резалтов, а не ауков на бумажке
по поводу обучения нейросеток — на самом деле тоже не совсем банальная история. например, в маммографии для каждой груди делается два снимка с разных углов — уже можно делать multi-view detection. трёхмерные данные (КТ, МРТ) чем-то похожи на видео, но тоже не совсем. в общем, нюансов много, не все из них связаны с не очень хорошим качеством данных
спасибо за добрые слова) нам точно есть куда расти во многих аспектах, но главное - стараемся ко всему подходить осознанно, спрашивать себя - зачем и почему мы этого делаем или не делаем. без этого максимум можно скопировать чьи-то практики по типу карго-культа
2) Очень зависит от проекта, от типа снимков, от сложности патологии. От 1 до 5 обычно. + эксперт-аудитор может быть
3) Этот рынок ещё не очень хорошо сформирован на самом деле, мы тут идём наощупь больше. Но процедура отбора врачей-разметчиков — отдельный сложный вопрос. К примеру, хороший врач не всегда оказывается хорошим разметчиком. Мы недавно проводили «Вызов радиологу», некий публичный конкурс, он вызвал большой интерес.
4) Конкретно под сбор данных стартапам получить гранты, на мой взгляд, нереально. Только при наличии готового продукта.
на самом деле частично это так и есть. надо, безусловно, работать с медицинскими организациями, помогать настраивать оборудование, обучать персонал, полностью брать на себя интеграцию по возможности. только так можно достичь реально интересных резалтов, а не ауков на бумажке
по поводу обучения нейросеток — на самом деле тоже не совсем банальная история. например, в маммографии для каждой груди делается два снимка с разных углов — уже можно делать multi-view detection. трёхмерные данные (КТ, МРТ) чем-то похожи на видео, но тоже не совсем. в общем, нюансов много, не все из них связаны с не очень хорошим качеством данных