Как стать автором
Обновить

Комментарии 15

Как любопытно! Интересно, а среднее по больнице, если не известны этимологии болезней, ваша система сгенерить сможет? Допустим, медсестры забыли поставить градусники, а в корпусе лежит 500 неходячих больных, у которых температура - один из показателей качества лечения? А без температуры больных робот-разносильщик лекарств не дает разнести лекарства.

Допустим, медсестры забыли поставить градусники

при том что

температура - один из показателей качества лечения

(плачет)

я думаю что сможет сгенерить.

главное только чтобы потом не сделали стрелочником автора библиотеки :)

Если бы вы только знали, насколько физика каждого реального процесса тонка, когда в нее встраивают KPI! Как программисты начинают разворачивать циклы, делать CASE по UNICODE? Больница - это еще простой пример. Есть интереснее. Допустим: забыли у вагонов проверить пары при выведении их на главный ход Транссиба. Через сколько времени есть вероятность схода вагона, если допустимая скорость на 1000 км трассы не превышает 25 км в час, а предельный допуск расхождения пути на холоде превышен в два раза?

Это как раз корректный пример экспериментального определения уровня вязкости инструментальной стали в условиях избытка пиломатериалов и достаточного количества времени на починку.

Сможет, опираясь на предшествующую динамику измерений. Но если у Васи Пупкина ни разу не измерили температуру (весь ряд данных - <NA>) - то ML, не имея точки >U< (36.7), по идее, не должен ничего сочинять.

В том и сила ML (и вообще всей статистики), что они не просто могут что-то утверждать, но и всегда говорят о степени своей уверенности, вероятности, доверительном интервале итд. Другое дело что в эти метрики редко заглядывают, но в случае с пациентами - шансы выше.

Решал на работе похожую задачу связанную с отслеживанием вагонов. Естественно, без машинного обучения — это смерть человека можно списать на неизлечимую и неизвестную науке болезнь, а на производстве такое не прокатит. Да и неоткуда было взяться статистике для биг дата.

В математике задача восстановления пропущенных данных — это задача интерполяции, для которой существует множество уже готовых, детерминированных и предсказуемых решений. Одна только проблема — во всё это надо вникать, а вникать в математику не всем интересно, а врачам наверно и тем более.

На мой взгляд, заполнение пропусков в данных - вредная идея. Это может быть полезно только в случае малых выборок, да и то при условия простых структур данных.

Вредная или полезная- вопрос применения. Для ориентировочных прикидок, когда учитывается риск неполных исходных данных, имхо, вполне полезная. Или когда непринятие решения, к примеру, дороже, чем принятие неверного.

У меня сложилось впечатление, что на мой комментарий ответил ИИ - набор абсолютно пустых бессмысленных фраз )

Проше пардону, но как можно сочинить то, чего нет, и выдавать это за реальные данные? Не есть ли это случай так называемого подгона под красивый ответ?

Сочинять аналитикам приходится постоянно. Реальные данные всегда настолько большие, что:

  • пустоты в них есть всегда, стоит лишь начать искать. Выбрасывать строки с пустотами нельзя: часто это важные строки, перед или после которых что-то существенное стряслось. Пример: "Сначала вышел из строя спидометр, а потом они врезались в столб и все погибли".

  • заполненные пустоты выглядят "просто красиво", а заполненные ML-методами - еще и правдоподобны. Статья описывает библиотеку, имеющую все шансы "досочинить" пустоты полагаясь на другие данные. В примере со спидометром: если есть данные тахометра, микрофона, датчика вибрации итд - данные спидометра можно сочинить в верном направлении и даже близко к истине

  • сами данные никому не показывают, а ML-модель, обученная на частично ML-досочиненных данных - выглядит точно также непонятно, как "черный ящик"

  • раз истинных данных все равно не существует - можно сочинять смело.

  • к красивому ответу часто аналитика толкают силком. Вот где настоящая беда. Там и пустоты не помешают.

Вот у вас в сравнении упоминается KNN - заполнение пропущенных значений с использованием k-ближайших соседей. И сразу вопросы: а данные-то для этого уже отсортированы? Если да, то по какому критерию и почему он признан наилучшим? А значение k взято с потолка или есть обоснование? А веса где — по умолчанию, все единицы? Так это наихудший случай. А метод наименьших квадратов где, почему среди всех линейных методов вы взяли наименее подходящий?

Вы статью то читали? В ней и этот метод тоже сравнивается с предлагаемым.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории