Search
Write a publication
Pull to refresh

Comments 4

Схема в PR делает его технологичным для публикации на хабре, да?

Если прочтут те кто это делал - дайте тех.подробностей как делили, в чем хранили, время обработки, как работает, нагрузка. На чем живет on prem , и в чем бенефиты помимо федерации.

Прочитали) Наконец мой аккаунт жив и можно дать развернутый ответ (простите, что так долго были в режиме радиомолчания).

Сперва о клиентах

  • ИСП РАН

    • обучающая выборка на базе открытого набора ptb-xl: 1,000 / 14,000 (патология есть / нет)

  • Сеченовский Университет

    • обучающая выборка на базе закрытого набора (назовем его sechenov_dataset): 1,200 / 27,000 (патология есть / нет)

Тестовая выборка включает 4,500 ЭКГ: 400 / 4,100 (патология есть / нет): 2400 ЭКГ из отложенной выборки sechenov_dataset (200 / 2200) и 2100 из отложенной выборки ptb-xl (200 / 1900). Отложенные выборки, разумеется, не использовались при обучении.

Каждый элемент в наборах данных – это цифровая ЭКГ в 12 отведениях продолжительностью около 10 секунд (на медосмотрах снимают именно такие).

Рассматривали два подхода к хранению/доступу к датасетам: S3 и локальное размещение прямо на клиентах. Решили, что эксперименты по измерению производительности при работе с удаленным хранилищем оставим на другой раз, копировали данные прямо на узел.

Несколько слов о сервере

Использовали фреймворк NVFlare и самый простой алгоритм усреднения FedAVG. Суммарно обучение заняло около 6 часов. Параметры обучения (размеры датасетов и параметры хостов) подобрали таким образом, чтобы раунды коммуникации выполнялись за приблизительно одинаковые промежутки. Однако даже так наблюдали ситуацию, когда глобальное обучение упирается в медленного клиента – тему гетерогенных кластеров изучаем отдельно.

В ходе федеративного обучения было выполнено 8 раундов коммуникации. В каждом раунде каждый клиент выполнял 2 эпохи локального обучения. Батч-сайз взяли равным 16. Рядом классически обучили такую же модель на объединенном наборе данных двух клиентов на протяжении 16 эпох. В результате получились такие результаты:

Результаты обучения - классического и федеративного.
Результаты обучения - классического и федеративного.

В качестве On-Premise облака выступал Асперитас – дистрибутив ИСП РАН на базе OpenStack. По железу в эксперименте использовались ВМ на Xeon Platinum 3.4 GHz с Nvidia Tesla T4. В YC (клиент Сеченовского Университета) использовалась карточка A100, про CPU сложно сказать, но и не столь принципиально.

Бенефиты

  • данные остаются в защищенном контуре каждого клиента;

  • используются аппаратные ресурсы каждого участника;

  • тот, у кого данных мало, с одной стороны, вносит свой вклад в общее дело, а с другой – получает результат на основе данных всех участников;

  • персонализация – можно создавать модели, адаптированные под конкретные группы пользователей или регионы, используя локальные данные;

  • потенциальный путь к организации распределённого обучения, даже в рамках одной организации

Проблемы тоже есть, чего стоят византийские атаки. Сюда же медленные клиенты и нестабильные сетевые соединения. Но в ряде случаев эти проблемы можно побороть, что вселяет надежду на широкое применение федеративного обучения в самом ближайшем будущем.

Зачем делать системы выявления заболеваний, которые даже человеком могут выявляться за секунды (например, анализ МРТ для выявления опухолей мозга, или фибрилляция предсердий, которую любые смарт часы диагностируют без всяких нейросетей). К сожалению в этой области Россия тоже значительно отстала технологически, несмотря на попытки догнать со стороны Яндекса и Сбера (что делать безусловно нужно и важно). Более перспективно , с моей точки зрения, развитие мультимодальных систем с возможностью электронного консультирования. Мой опыт в тестировании chatgpt и claude в области медицины показал, что они достаточно точно и ставят диагноз по симптомам и не стесняются рекомендовать проведение дополнительных обследований и вариантов лечения (Яндекс и, тем более, сбер в этом отношении к сожалению настолько зацензурированы, что вообще часто отказываются отвечать на медицинские темы). Иногда "электронные" рекомендации и дифференциальный диагноз от этих систем (claude 3.5 sonnet причем более качественно и развернуто отвечает, чем chatgpt 4o) настолько точные и детальные, что наводит на мысль - а нужны ли будут терапевты в будущем вообще?

Спасибо за вопрос. Фибрилляция предсердий – один из множества синдромов, которые могут быть диагностированы. Взяли как пример, не более. Есть и другие.

Положим, человек действительно за секунды может выявлять ЭКГ-синдромы. Но врачей ФД мало (надо конечно ссылку на статистику, но сходу не попадается), а ЭКГ много – в России снимается порядка 100 миллионов в год. А если подумать в направлении мониторинга в режиме 24/7 (например, дома можно вполне снять 6-канальную ЭКГ), то никаких врачей не хватит. А мониторинг – это хорошо: чем раньше обнаружили признаки заболевания, тем проще его вылечить с минимальными последствиями (простите за очевидные вещи).

Насчет развития мультимодальных систем – согласен, в этом направлении также ведем работу.

Sign up to leave a comment.

Other news