R: обработка пропущенных значений / Comments / Habr

ilya_pu Jan 30 2017 at 16:50

Здесь, видимо, нужно учитывать, на какой стадии анализа ведётся работа. Например, если у меня массив данных по m показателям (причём m — весьма большое число) с n наблюдениями, причём n и m — примерно одного порядка, то я бы не рискнул «выкидывать» наблюдения с хотя бы одним пропуском — вполне может оказаться, что от исходной таблицы в итоге ничего не останется. Но и усреднять тоже — опасно… Может, попробовать посмотреть в сторону непараметрической статистики? Выделить те показатели, которые коррелируют друг с другом — и дальше уже изучать только их (при меньшем числе факторов в наборе данных окажется меньше пропусков, а следовательно — выше шансы получить полноценные наборы данных…

А вот интересно… что, если проводить корректировки в несколько заходов? Ну, вот такой пример:
x y z
x1 NA z1
x2 y2 z2
x3 y3 NA
NA y4 z4
x5 y5 z5

Есть три пропуска: неизвестны значения x4, y1 и z3 (предположим, что числа наблюдений нам хватает для того, чтобы построить три уравнения: y=f(x,z); x=f(y,z); z=f(x,y). На основе этих трёх уравнений мы можем вычислить неизвестные до этого момента значения x4, y1 и z3 (это может быть полезным, если неизвестные значения находятся не в окрестностях средних значений x,y,z, а вдали от них, а следовательно — заметно отличаются и вносят свои негативные поправки). То есть мы сначала оцениваем, в окрестностях каких точек следует ожидать неизвестные значения, а затем — строим уравнение регрессии, которое будет в меньшей степени зависеть от погрешностей, вносимых «неизвестными» точками. И, кстати, после подобного уточнения отдельных координат в «малофакторной» модели можно вернуться к многофакторной модели и попробовать уточнить взаимосвязи между показателями…