Комментарии 15
Как любопытно! Интересно, а среднее по больнице, если не известны этимологии болезней, ваша система сгенерить сможет? Допустим, медсестры забыли поставить градусники, а в корпусе лежит 500 неходячих больных, у которых температура - один из показателей качества лечения? А без температуры больных робот-разносильщик лекарств не дает разнести лекарства.
Допустим, медсестры забыли поставить градусники
при том что
температура - один из показателей качества лечения
(плачет)
я думаю что сможет сгенерить.
главное только чтобы потом не сделали стрелочником автора библиотеки :)
Если бы вы только знали, насколько физика каждого реального процесса тонка, когда в нее встраивают KPI! Как программисты начинают разворачивать циклы, делать CASE по UNICODE? Больница - это еще простой пример. Есть интереснее. Допустим: забыли у вагонов проверить пары при выведении их на главный ход Транссиба. Через сколько времени есть вероятность схода вагона, если допустимая скорость на 1000 км трассы не превышает 25 км в час, а предельный допуск расхождения пути на холоде превышен в два раза?
японская бензопила и сибирские лесорубы? https://4tob.ru/anekdots/2457 :)
Сможет, опираясь на предшествующую динамику измерений. Но если у Васи Пупкина ни разу не измерили температуру (весь ряд данных - <NA>) - то ML, не имея точки >U< (36.7), по идее, не должен ничего сочинять.
В том и сила ML (и вообще всей статистики), что они не просто могут что-то утверждать, но и всегда говорят о степени своей уверенности, вероятности, доверительном интервале итд. Другое дело что в эти метрики редко заглядывают, но в случае с пациентами - шансы выше.
В математике задача восстановления пропущенных данных — это задача интерполяции, для которой существует множество уже готовых, детерминированных и предсказуемых решений. Одна только проблема — во всё это надо вникать, а вникать в математику не всем интересно, а врачам наверно и тем более.
На мой взгляд, заполнение пропусков в данных - вредная идея. Это может быть полезно только в случае малых выборок, да и то при условия простых структур данных.
Вредная или полезная- вопрос применения. Для ориентировочных прикидок, когда учитывается риск неполных исходных данных, имхо, вполне полезная. Или когда непринятие решения, к примеру, дороже, чем принятие неверного.
Проше пардону, но как можно сочинить то, чего нет, и выдавать это за реальные данные? Не есть ли это случай так называемого подгона под красивый ответ?
Сочинять аналитикам приходится постоянно. Реальные данные всегда настолько большие, что:
пустоты в них есть всегда, стоит лишь начать искать. Выбрасывать строки с пустотами нельзя: часто это важные строки, перед или после которых что-то существенное стряслось. Пример: "Сначала вышел из строя спидометр, а потом они врезались в столб и все погибли".
заполненные пустоты выглядят "просто красиво", а заполненные ML-методами - еще и правдоподобны. Статья описывает библиотеку, имеющую все шансы "досочинить" пустоты полагаясь на другие данные. В примере со спидометром: если есть данные тахометра, микрофона, датчика вибрации итд - данные спидометра можно сочинить в верном направлении и даже близко к истине
сами данные никому не показывают, а ML-модель, обученная на частично ML-досочиненных данных - выглядит точно также непонятно, как "черный ящик"
раз истинных данных все равно не существует - можно сочинять смело.
к красивому ответу часто аналитика толкают силком. Вот где настоящая беда. Там и пустоты не помешают.
Привет.
Но это уже нативно реализовано в sklearn:
NoNa: Алгоритм заполнения отсутствующих данных