Comments / Profile of crazyfrogspb1 / Habr

Евгений Никитин@crazyfrogspb1

CTO

Subscribers

Правила разработки документации ML-проекта

crazyfrogspb1 Jul 22 2022 at 05:58

спасибо за добрые слова) нам точно есть куда расти во многих аспектах, но главное - стараемся ко всему подходить осознанно, спрашивать себя - зачем и почему мы этого делаем или не делаем. без этого максимум можно скопировать чьи-то практики по типу карго-культа

Уж-ж-жасы медицинских данных: трек от экспертов ML в медицине на ODS Data Fest 2021

crazyfrogspb1 Jun 8 2021 at 11:58

да

Разработка Computer Vision в онкологии: почему всегда нужно еще больше сил, времени и денег

crazyfrogspb1 May 26 2021 at 14:07

По объёму кода препроцессинг занимает чуть ли не больше места, чем обучение сетки) Чаще всего мы приводим изображения к одному и тому же размеру с помощью паддинга, предварительно вырезав область интереса и откинув все артефакты и ненужные части изображения. Геометрия груди может измениться только в результате аугментации, на инфересе всегда используется оригинальная форма и размер.

Разработка Computer Vision в онкологии: почему всегда нужно еще больше сил, времени и денег

crazyfrogspb1 May 26 2021 at 14:05

1) Что имеется в виду? Сколько требуется данных для обучения? Проще всего строить эмприческую кривую зависимости метрик от объёма данных. Какие-то статистические оценки здесь по сути неприменимы.
2) Очень зависит от проекта, от типа снимков, от сложности патологии. От 1 до 5 обычно. + эксперт-аудитор может быть
3) Этот рынок ещё не очень хорошо сформирован на самом деле, мы тут идём наощупь больше. Но процедура отбора врачей-разметчиков — отдельный сложный вопрос. К примеру, хороший врач не всегда оказывается хорошим разметчиком. Мы недавно проводили «Вызов радиологу», некий публичный конкурс, он вызвал большой интерес.
4) Конкретно под сбор данных стартапам получить гранты, на мой взгляд, нереально. Только при наличии готового продукта.

Разработка Computer Vision в онкологии: почему всегда нужно еще больше сил, времени и денег

crazyfrogspb1 May 25 2021 at 18:22

то, что вы описываете, звучит очень похоже на некую вариацию активного обучения. я эту тему очень люблю, мы как раз сейчас проводим серию экспериментов по эффективности (включая экономическую) разных методов активного обучения — я обязательно поделюсь результатами на какой-нибудь конференции и в этом блоге)

Разработка Computer Vision в онкологии: почему всегда нужно еще больше сил, времени и денег

crazyfrogspb1 May 25 2021 at 18:21

очень хороший вопрос на самом деле, мы пробовали и продолжаем пробовать различные способы устранения конфликтов в кросс-разметке (консилиумы, экспертный аудит и другие). проблема в том, что все эти методы, а уж особенно итеративные стоят очень дорого. врачи стоят в десятки раз дороже разметчиков с толоки, а времени у них мало — жизни надо спасать) поэтому в каждом случае надо оценивать экономическую целесообразность того или иного метода — к примеру, а может проще забить и лучше разметить побольше снимков?

Разработка Computer Vision в онкологии: почему всегда нужно еще больше сил, времени и денег

crazyfrogspb1 May 25 2021 at 18:17

очень рады слышать, пользуяьсь случаем, приглашаю всех на трек про медицинские данные на датафесте ODS, наши эвенты будут 10-11 июня. должно быть очень круто)

Разработка Computer Vision в онкологии: почему всегда нужно еще больше сил, времени и денег

crazyfrogspb1 May 25 2021 at 18:16

хаха, это как когда мы модельки для скоринга делали когда-то, думали одно время открыть свою микрокредитную компанию, чтоб нормально данные собирать)

на самом деле частично это так и есть. надо, безусловно, работать с медицинскими организациями, помогать настраивать оборудование, обучать персонал, полностью брать на себя интеграцию по возможности. только так можно достичь реально интересных резалтов, а не ауков на бумажке

по поводу обучения нейросеток — на самом деле тоже не совсем банальная история. например, в маммографии для каждой груди делается два снимка с разных углов — уже можно делать multi-view detection. трёхмерные данные (КТ, МРТ) чем-то похожи на видео, но тоже не совсем. в общем, нюансов много, не все из них связаны с не очень хорошим качеством данных

Information

Specialization