Comments / Profile of ogurtsov / Habr

Андрей Огурцов @ogurtsov

Биостатистик

ProfileArticles5PostsNewsComments15

Ускоряем проверку документов для клинических исследований за счёт пайплайна на базе YandexGPT 5 Pro

ogurtsov May 30 at 15:11

Все еще непонятно, зачем нужен посредник в виде ЛЭК между заявителем и сервисом по проверке качества и комплектности документации. К нужности самого сервиса претензий ноль, дело именно в месте и времени его применения. Я-то могу додумать, почему так (было с кем договариваться о пилоте в ЛЭК и не было с кем в фармкомпаниях), но можно было бы указать в тексте.
Тем более что есть еще регуляторный орган, который выдает разрешение либо до ЛЭК (и тогда правки со стороны ЛЭК приведут к необходимости подачи поправок в регуляторный орган), либо после (и тогда, если замечания со стороны регулятора привели к новой версии документов, нужно заново одобряться в ЛЭК).

0

Ускоряем проверку документов для клинических исследований за счёт пайплайна на базе YandexGPT 5 Pro

ogurtsov May 30 at 13:37

сканы в PDF низкого качества и частично нечитаемые сканы,

не структурированные или слабо структурированные документы,

дублирующиеся файлы.

Это не лечится ни автоматизацией, ни LLMками. Есть руководства GCP и производные от них, которые заявителем либо выполняются, либо не выполняются. Подача нечитаемого документа равна неподаче этого документа, структура каждого документа известна из тех самых руководств, ну а ошибочно распечатанный дубликат документа вообще является меньшей из проблем.

Сейчас завершён первый этап, по плану которого автоматизировали до 80% работы этического комитета по первичной проверке документов.

Довольно странное утверждение, потому что работой этического комитета является собственно оценка этической приемлемости исследования, а не проверка комплекта документов на дубликаты, сверка версий файлов и тому подобное. И вроде бы как раз этическую составляющую никто железяке не делегирует. Кажется, что авторы замещают регуляторный орган этической комиссией.

Эксперт изучает и верифицирует эти рекомендации и отправляет их заявителю в течение 1–2 дней.

Думаю, всю эту автоматизацию нужно внедрять непосредственно на стороне заявителя (как автора всего комплекта документов) и исключительно после решения организационных проблем типа вышеупомянутых нечитаемых сканов.

Например, для протокола клинического исследования LLM может предложить подходящую формулировку названия

И заявитель побежит переделывать все договора и все внутренние документы под новое название?

0

Пора забывать GridSearch — встречайте ProgressiveGridSearch. Фракталы в ML, постепенно увеличиваем разрешение

ogurtsov Mar 31 2023 at 16:55

Пора забывать GridSearch
Нет, пора вспоминать (или узнавать), что не гридсёрчем единым: https://habr.com/ru/company/skillfactory/blog/528240/

+3

Машинное обучение на языке R с использованием пакета mlr3

ogurtsov Jun 5 2020 at 16:39

Это скорее proof of concept, чем полноценная библиотека. К тому же не обновляется уже почти год.

0

Машинное обучение на языке R с использованием пакета mlr3

ogurtsov Apr 8 2020 at 10:16

Когда знаешь оба-два, различий особых нет. mlr3 крайне похож на scikit-learn; xgboost/lightgbm/catboost вообще одинаковые (внутри C++, на R и питоне только обертки, так что как минимум качество моделей при прочих равных различаться не должно). tensorflow/keras также через обертку можно заюзать в R, основное отличие будет в замене точки на $ для вызова методов. Вот пайторч пока не завезли, но и в этом направлении ведутся работы.

0

Машинное обучение на языке R с использованием пакета mlr3

ogurtsov Apr 8 2020 at 08:13

Это сравнение теплого с мягким. pytorch и keras реализуют конкретный класс моделей (нейросетки), а mlr3 организует инфраструктуру для решения задач машинного обучения в целом. На Питоне для этого есть scikit-learn.

-1

Вокруг data.table

ogurtsov Mar 19 2020 at 16:25

Для тех, кто видит data.table впервые, рекомендую Руководство по data.table

+2

Covid-19, ваше общество и вы с точки зрения науки о данных

ogurtsov Mar 16 2020 at 15:29

>8. Covid-19 не такая острая проблема, как наличие таких статей. И с ним как раз и надо бороться.
Статьи по желанию можно просто не читать, а вот вирусным заболеванием просто не болеть не выйдет.

0

Covid-19, ваше общество и вы с точки зрения науки о данных

ogurtsov Mar 15 2020 at 15:55

Массовая медицина во всем мире весьма далека от картинки в сериале Доктор Хаус, так что даже американские 2,8 не все в реанимации с ИВЛ и пр.

+1

Covid-19, ваше общество и вы с точки зрения науки о данных

ogurtsov Mar 15 2020 at 05:25

В оригинале рост именно логистический: "“Logistic” growth refers to the “s-shaped” growth pattern"

+2

Covid-19, ваше общество и вы с точки зрения науки о данных

ogurtsov Mar 14 2020 at 15:01

Ну, у меня-то евро всего по 30 :)
Пока этот пост переводили, много другого напостили, но не выбрасывать же работу.

+3

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки

ogurtsov Mar 26 2019 at 06:04

Лаконичнее и монолитнее, что ли. В keras все нестандартные штуки, начиная с кастомных функций потерь, делаются посредством вызова функций бекенда — как правило, это tensorflow. В pytorch все прозрачнее. А fastai добавляет сверху набор эвристик и хорошо подобранные значения параметров по умолчанию, по крайней мере для наиболее типичных задач.

0

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки

ogurtsov Mar 26 2019 at 05:58

Есть реализация аттеншена в blogs.rstudio.com/tensorflow/posts/2018-07-30-attention-layer

+1

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки

ogurtsov Mar 25 2019 at 18:27

Не хватает, но в R-keras критических ограничений по сравнению с python-keras в общем-то и нет. Необходимость самому писать колбэки и реализовывать современные архитектуры за костыли не считаю, поскольку на питоне их пишут такие же юзеры точно таким же образом.
То есть не хватает именно хорошего фреймворка — порта pytorch, или даже сразу fastai.

0

Кодинг и тестирование kNN в Julia

ogurtsov Jul 24 2018 at 05:04

Материалы на русском есть. Как минимум, это переводная книга Шеррингтона "Осваиваем язык Julia" и мое недоруководство https://github.com/statist-bhfz/julia_stats Проблема в моментальном устаревании написанного прежде всего.

0