Все еще непонятно, зачем нужен посредник в виде ЛЭК между заявителем и сервисом по проверке качества и комплектности документации. К нужности самого сервиса претензий ноль, дело именно в месте и времени его применения. Я-то могу додумать, почему так (было с кем договариваться о пилоте в ЛЭК и не было с кем в фармкомпаниях), но можно было бы указать в тексте. Тем более что есть еще регуляторный орган, который выдает разрешение либо до ЛЭК (и тогда правки со стороны ЛЭК приведут к необходимости подачи поправок в регуляторный орган), либо после (и тогда, если замечания со стороны регулятора привели к новой версии документов, нужно заново одобряться в ЛЭК).
сканы в PDF низкого качества и частично нечитаемые сканы,
не структурированные или слабо структурированные документы,
дублирующиеся файлы.
Это не лечится ни автоматизацией, ни LLMками. Есть руководства GCP и производные от них, которые заявителем либо выполняются, либо не выполняются. Подача нечитаемого документа равна неподаче этого документа, структура каждого документа известна из тех самых руководств, ну а ошибочно распечатанный дубликат документа вообще является меньшей из проблем.
Сейчас завершён первый этап, по плану которого автоматизировали до 80% работы этического комитета по первичной проверке документов.
Довольно странное утверждение, потому что работой этического комитета является собственно оценка этической приемлемости исследования, а не проверка комплекта документов на дубликаты, сверка версий файлов и тому подобное. И вроде бы как раз этическую составляющую никто железяке не делегирует. Кажется, что авторы замещают регуляторный орган этической комиссией.
Эксперт изучает и верифицирует эти рекомендации и отправляет их заявителю в течение 1–2 дней.
Думаю, всю эту автоматизацию нужно внедрять непосредственно на стороне заявителя (как автора всего комплекта документов) и исключительно после решения организационных проблем типа вышеупомянутых нечитаемых сканов.
Например, для протокола клинического исследования LLM может предложить подходящую формулировку названия
И заявитель побежит переделывать все договора и все внутренние документы под новое название?
Когда знаешь оба-два, различий особых нет. mlr3 крайне похож на scikit-learn; xgboost/lightgbm/catboost вообще одинаковые (внутри C++, на R и питоне только обертки, так что как минимум качество моделей при прочих равных различаться не должно). tensorflow/keras также через обертку можно заюзать в R, основное отличие будет в замене точки на $ для вызова методов. Вот пайторч пока не завезли, но и в этом направлении ведутся работы.
Это сравнение теплого с мягким. pytorch и keras реализуют конкретный класс моделей (нейросетки), а mlr3 организует инфраструктуру для решения задач машинного обучения в целом. На Питоне для этого есть scikit-learn.
>8. Covid-19 не такая острая проблема, как наличие таких статей. И с ним как раз и надо бороться.
Статьи по желанию можно просто не читать, а вот вирусным заболеванием просто не болеть не выйдет.
Лаконичнее и монолитнее, что ли. В keras все нестандартные штуки, начиная с кастомных функций потерь, делаются посредством вызова функций бекенда — как правило, это tensorflow. В pytorch все прозрачнее. А fastai добавляет сверху набор эвристик и хорошо подобранные значения параметров по умолчанию, по крайней мере для наиболее типичных задач.
Не хватает, но в R-keras критических ограничений по сравнению с python-keras в общем-то и нет. Необходимость самому писать колбэки и реализовывать современные архитектуры за костыли не считаю, поскольку на питоне их пишут такие же юзеры точно таким же образом.
То есть не хватает именно хорошего фреймворка — порта pytorch, или даже сразу fastai.
Материалы на русском есть. Как минимум, это переводная книга Шеррингтона "Осваиваем язык Julia" и мое недоруководство https://github.com/statist-bhfz/julia_stats Проблема в моментальном устаревании написанного прежде всего.
Все еще непонятно, зачем нужен посредник в виде ЛЭК между заявителем и сервисом по проверке качества и комплектности документации. К нужности самого сервиса претензий ноль, дело именно в месте и времени его применения. Я-то могу додумать, почему так (было с кем договариваться о пилоте в ЛЭК и не было с кем в фармкомпаниях), но можно было бы указать в тексте.
Тем более что есть еще регуляторный орган, который выдает разрешение либо до ЛЭК (и тогда правки со стороны ЛЭК приведут к необходимости подачи поправок в регуляторный орган), либо после (и тогда, если замечания со стороны регулятора привели к новой версии документов, нужно заново одобряться в ЛЭК).
Это не лечится ни автоматизацией, ни LLMками. Есть руководства GCP и производные от них, которые заявителем либо выполняются, либо не выполняются. Подача нечитаемого документа равна неподаче этого документа, структура каждого документа известна из тех самых руководств, ну а ошибочно распечатанный дубликат документа вообще является меньшей из проблем.
Довольно странное утверждение, потому что работой этического комитета является собственно оценка этической приемлемости исследования, а не проверка комплекта документов на дубликаты, сверка версий файлов и тому подобное. И вроде бы как раз этическую составляющую никто железяке не делегирует. Кажется, что авторы замещают регуляторный орган этической комиссией.
Думаю, всю эту автоматизацию нужно внедрять непосредственно на стороне заявителя (как автора всего комплекта документов) и исключительно после решения организационных проблем типа вышеупомянутых нечитаемых сканов.
И заявитель побежит переделывать все договора и все внутренние документы под новое название?
Пора забывать GridSearch
Нет, пора вспоминать (или узнавать), что не гридсёрчем единым: https://habr.com/ru/company/skillfactory/blog/528240/
Это скорее proof of concept, чем полноценная библиотека. К тому же не обновляется уже почти год.
Когда знаешь оба-два, различий особых нет.
mlr3
крайне похож наscikit-learn
;xgboost
/lightgbm
/catboost
вообще одинаковые (внутри C++, на R и питоне только обертки, так что как минимум качество моделей при прочих равных различаться не должно).tensorflow
/keras
также через обертку можно заюзать в R, основное отличие будет в замене точки на $ для вызова методов. Вот пайторч пока не завезли, но и в этом направлении ведутся работы.data.table
впервые, рекомендую Руководство по data.tableСтатьи по желанию можно просто не читать, а вот вирусным заболеванием просто не болеть не выйдет.
Пока этот пост переводили, много другого напостили, но не выбрасывать же работу.
Лаконичнее и монолитнее, что ли. В
keras
все нестандартные штуки, начиная с кастомных функций потерь, делаются посредством вызова функций бекенда — как правило, этоtensorflow
. Вpytorch
все прозрачнее. Аfastai
добавляет сверху набор эвристик и хорошо подобранные значения параметров по умолчанию, по крайней мере для наиболее типичных задач.То есть не хватает именно хорошего фреймворка — порта pytorch, или даже сразу fastai.
Материалы на русском есть. Как минимум, это переводная книга Шеррингтона "Осваиваем язык Julia" и мое недоруководство https://github.com/statist-bhfz/julia_stats Проблема в моментальном устаревании написанного прежде всего.