Pull to refresh
31
0
Евгений Никитин @crazyfrogspb1

Head of AI

Send message

Концепция Data Mesh. Принципы, идеи, применение на практике

Reading time5 min
Views13K

С чего началась наша компания? В первую очередь, конечно, с людей и с идеи. Как это обычно бывает, правильные люди абсолютно случайно познакомились друг с другом, и вот я здесь, сижу и пишу этот пост =) Была, однако, и ещё одна очень важная составляющая - данные...

Любой ML-проект начинается с анализа ландшафта доступных данных - что мы можем скачать, выгрузить, разметить, купить. За четыре года наша культура работы с данными, инструментарий, подходы, процесс разметки претерпели очень большие изменения. Сейчас у нас накоплено почти 100 терабайт медицинских исследований, но количество данных абсолютно не важно, если они плохого качества, и их неудобно изучать, понимать и использовать. Недавно я делал обзорный доклад про разные аспекты качества медицинских данных, а вот наше выступление про технические аспекты пути к качеству. Сегодня же я хочу поговорить об очень интересной концепции (или даже философии), которая в последнее время на слуху, но, судя по разным постам в интернете, её суть понятна далеко не всем. Это Data Mesh.

Впервые я столкнулся с этим понятием в докладе Леруа Мерлен на митапе LeanDS. Доклад любопытный, но суть дата меш мне из него была понятна не до конца, так что недавно я взялся за чтение книги от авторки этой концепции и термина - Data Mesh: Devlivering Data-Driven Value at Scale.

Книга мне очень понравилась - она концептуальная, почти не затрагивает конкретные инструменты и способы реализации, но раскрывает суть идеи целиком и полностью. Полный конспект я могу скинуть в комментариях, если кого-то заинтересует, а в этом посте я поговорю об основных принципах, моей интерпретации и самых интересных моментах для нашей компании.

Читать далее

Как увеличивать робастность модели и нужно ли вообще это делать?

Reading time4 min
Views4.4K

Владимир "ternaus" Игловиков недавно опубликовал на Хабре пост про свою библиотеку Albumentations. Этот пост - результат серии бесед с людьми из индустрии, которые используют эту либу. Я, кстати, тоже поучаствовал, правда, уже после публикации поста - получилось весьма прикольно, постарался насыпать медицинской специфики и заодно задумал в будущем написать пост про аугментации в medical imaging.

Но сегодня не об этом - среди доменов и способов использования библиотеки в посте упомянут интересный пункт - "тестирование моделей перед деплоем на устойчивость к дрифту данных". Мы как раз недавно столкнулись с этой историей. Команда Flux (рентген и флюшка лёгких) решила проверить модельку на устойчивость к небольшим трансформациям. Вот какую картину дал сдвиг изображения на пиксель

Читать далее

Тестирование ML-систем

Reading time5 min
Views4.9K

Коллега вчера разместил в канале для обмена знаниями пару любопытных статей про тестирование ML-систем (раз и два). Тема мне крайней близкая и интересная - вот, например, моё выступление на митапе LeanDS про тестирование новых версий ML-систем, а вот видео с прошлого датафеста про оценку медицинских ML-систем.

Посты достаточно интересные, порекомендовал бы их прочитать, посмотреть информацию по ссылкам и подумать над тем, что у вас уже есть, а что можно было бы внедрить. А я бы хотел обсудить и развить две темы, связанные с тестированием - множественное тестирование и тестирование данных.

Читать далее

Как мы выстроили процесс собеседований в DS

Reading time7 min
Views2.1K

Всем привет! Я Жека Никитин, Head of AI в медтех-стартапе «Цельс».

Сегодня хочу рассказать вам, как у нас устроен процесс собеседований, почему были приняты те или иные решения,какие сохранились слабые места и как мы с этим боремся.

Читать далее

MLOPS. Жизненный цикл ML-систем: от идеи до продакшна

Reading time11 min
Views5.6K

Привет, друзья! Это Жека Никитин. Сегодня хочу с вами поделиться нашими практиками MLOPS – что по сути является модным словцом, а на самом деле есть ни что иное как жизненный цикл создания и функционирования ML-систем. 

Естественно, каждая модель и задача уникальна. Но в этой статье я постарался максимально разбить процесс развития ML-систем на основные этапы. Поговорим о том, какие требования мы предъявляем к этим этапам и какие инструменты при этом используем. Материал представляет собой текстовую версию доклада на LeanDS.

Читать далее

Правила разработки документации ML-проекта

Reading time11 min
Views5.4K

Полезная, актуальная и при этом полная документация - миф или реальность? В первой части статьи обсудим зачем вообще нужна документация (а когда она и не нужна вовсе), поговорим о распространённых проблемах и ошибках, а во второй - посмотрим на примеры специфичной документации, связанной с ML-моделями и данными.

При обсуждении какого-то явления, полезно сначала посмотреть на его определение. Тут нам поможет старая добрая Википедия:

“Письменный текст или иллюстрация, которая сопровождает программное обеспечение или интегрирована прямо в исходный код. Документация объясняет, как работает ПО или как его использовать. Может иметь разное значение для людей с разными ролями в команде”

Определение действительно неплохое, в нём содержится несколько важных свойств документации.

Читать далее

Есть ли ML после обучения нейронной сети?

Reading time3 min
Views3.1K

Всем привет! Сегодня я хочу рассказать про мета-модели в медицине. Обязательно читайте до конца, вас ждёт сюрприз!

Под мета-моделями в машинном обучении обычно понимают модели, которые в качестве входных данных используют предсказания других алгоритмов. Мета-модель обучается комбинировать эти предсказания оптимальным образом в зависимости от задачи и характеристик конкретной единицы данных. Вообще существуют как простые примеры объединения предсказаний (голосование моделей), так и более хитрые – например, стекинг, в котором мета-модель может быть алгоритмом любой сложности – от логистической регрессии до глубокой нейронной сети.

На тему ансамблирования моделей уже написано немало статей и постов, поэтому здесь я хочу рассказать о паре интересных случаев использования мета-моделей для медицинских данных.

Читать далее

Есть ли

Reading time2 min
Views591

Всем привет! Сегодня я хочу рассказать про мета-модели в медицине. Обязательно читайте до конца, вас ждёт сюрприз!

Под мета-моделями в машинном обучении обычно понимают модели, которые в качестве входных данных используют предсказания других алгоритмов. Мета-модель обучается комбинировать эти предсказания оптимальным образом в зависимости от задачи и характеристик конкретной единицы данных. Вообще существуют как простые примеры объединения предсказаний (голосование моделей), так и более хитрые – например, стекинг, в котором мета-модель может быть алгоритмом любой сложности – от логистической регрессии до глубокой нейронной сети.

На тему ансамблирования моделей уже написано немало статей и постов, поэтому здесь я хочу рассказать о паре интересных случаев использования мета-моделей для медицинских данных.

Читать далее

Ожидание и реальность: почему метрики ML-систем проседают на проде? Кейсы из работы Цельса

Reading time5 min
Views2.3K
image

Пожалуй, каждый ML-инженер за время своей карьеры сталкивался с ситуацией, когда метрики модели на продакшне сильно отличаются от результатов на валидационных и тестовых выборках. Такие расхождения между ожиданиями и реальностью негативно влияют на репутацию ML-систем, особенно в доменных областях, где цена ошибки высока. Ещё они замедляют их внедрение в бизнес-процессы организаций и, конечно же, бьют по самооценке ML-инженеров.

Сегодня мы попробуем разобраться, в чём же основные причины таких расхождений и как можно их предотвратить (или по крайней мере быстрее обнаружить).

Читать дальше →

Разработка Computer Vision в онкологии: почему всегда нужно еще больше сил, времени и денег

Reading time7 min
Views2.8K
image

Привет!

Я Жека Никитин, Head of AI в компании Celsus. Больше трех лет мы занимаемся разработкой системы для выявления патологий на медицинских снимках.

Несмотря на то, что медицинским ИИ давно уже никого не удивишь, актуальной и структурированной информации о подводных камнях ML-разработки в этой области не так уж много. В статье я собрал самые «тяжелые» из этих камней — такие как сбор данных, разметка, взаимодействие с врачами и падение метрик при встрече модели с реальностью.

Ориентировался я в первую очередь на ML-разработчиков и DS-менеджеров, но пост может быть интересен и всем любопытствующим, кто хочет разобраться со спецификой CV в медицине.

Читать дальше →
2

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity

Specialization

Data Scientist
Lead