Проблемы анализа Больших Данных / Хабр

Каковы проблемы анализа Больших Данных

Большие Данные создают характерные особенности, которые не разделяются традиционными наборами данных. Эти особенности создают значительные проблемы для анализа данных и мотивируют разработку новых статистических методов. В отличие от традиционных наборов данных, где объем выборки, как правило, больше, чем измерение, Большие Данные характеризуются огромным размером выборки и высокой размерностью. Во-первых, мы обсудим влияние большого размера выборки на понимание неоднородности: с одной стороны, большой размер выборки позволяет нам раскрыть скрытые модели, связанные с небольшими подгруппами населения и слабой общностью среди всей популяции. С другой стороны, моделирование внутренней неоднородности Больших Данных требует более сложных статистических методов. Во-вторых, мы обсудим несколько уникальных явлений, связанных с высокой размерностью, включая накопление шума, ложную корреляцию и случайную эндогенность. Эти уникальные особенности делают традиционные статистические процедуры недействительными.

Разнородность

Большие Данные часто создаются путем объединения множества источников данных, соответствующих различным подгруппам. Каждая подгруппа может демонстрировать некоторые уникальные особенности, которые не разделяются другими. В классических условиях, когда размер выборки небольшой или умеренный, точки данных из небольших субпопуляций обычно классифицируются как «отклонения», и их систематически сложно моделировать из-за недостаточного количества наблюдений. Однако в эпоху Больших Данных большой размер выборки позволяет нам лучше понять гетерогенность, проливая свет на исследования, такие как изучение связи между определенными ковариатами (например, генами или SNP) и редкими результатами (например, редкими заболеваниями или болезнями в небольших популяциях) и понимание того, почему определенные виды лечения (например, химиотерапия) приносят пользу одной группе населения и наносят вред другой. Чтобы лучше проиллюстрировать этот момент, мы вводим следующую модель для населения:

$display$

Где λj ≥ 0 представляет долю j-й подгруппы, pj (y; θj (x)) — это распределение вероятностей отклика j-й подгруппы, учитывая ковариаты x с θj (x) в качестве вектора параметров. На практике многие субпопуляции наблюдаются редко, то есть λj очень мало. Когда размер выборки n умеренный, nλj может быть небольшим, что делает невозможным вывод ковариатозависимых параметров θj (x) из-за недостатка информации. Однако поскольку Большие Данные характеризуются большим размером выборки n, размер выборки nλj для j-й группы населения может быть умеренно большим, даже если λj очень мала. Это позволяет нам более точно сделать вывод о параметрах субпопуляции θj (·). Короче говоря, основным преимуществом Больших Данных является понимание неоднородности субпопуляций, таких как преимущества определенных персонализированных методов лечения, которые невозможны при небольшом или умеренном размере выборки.

Большие Данные также позволяют нам, благодаря большим размерам выборки, выявить слабую общность среди всего населения. Например, оценить пользу на сердце одного бокала красного вина в день может быть трудно без большого объема выборки. Точно так же риски для здоровья, связанные с воздействием определенных факторов окружающей среды, могут быть оценены более убедительно только тогда, когда размеры выборки достаточно велики.

Помимо вышеупомянутых преимуществ, неоднородность Больших Данных также создает значительные проблемы для статистического вывода. Вывод модели смеси в (1) для больших наборов данных требует сложных статистических и вычислительных методов. В небольших измерениях могут применяться стандартные методы, такие как алгоритм ожидания-максимизации для моделей конечных смесей. В больших размерах, однако, нам необходимо тщательно упорядочить процедуру оценки, чтобы избежать переобучения или накопления шума и разработать хорошие вычислительные алгоритмы.

Накопление шума

Анализ Больших Данных требует от нас чтобы мы одновременно оценили и проверили много параметров. Ошибки оценки накапливаются тогда, когда решение или правило прогнозирования зависит от большого количества таких параметров. Такой эффект накопления шума особенно серьезен в больших размерностях и может даже доминировать над истинными сигналами. Это обычно обрабатывается предположением о разреженности.

Возьмите, например, многомерную классификацию. Плохая классификация обусловлена наличием множества слабых мест, которые не способствуют уменьшению ошибки классификации. В качестве примера рассмотрим задачу классификации, когда данные поступают из двух классов:

$display$

Мы хотим построить правило классификации, которое классифицирует новое наблюдение Z∈RdZ∈Rd либо в первый, либо во второй класс. Чтобы проиллюстрировать влияние накопления шума в классификации, мы устанавливаем n = 100 и d = 1000. Мы устанавливаем μ1 = 0μ1 = 0 и μ2 как разреженные, т.е. только первые 10 записей μ2 отличны от нуля со значением 3, а все остальные записи равны нулю. На рисунке 1 показаны первые два основных компонента с использованием первых m = 2, 40, 200 элементов и целых 1000 элементов. Как показано на этих графиках, когда m = 2, мы получаем высокую степень дискриминации. Однако дискриминирующая мощность становится очень низкой, когда m слишком велико из-за накопления шума. Первые 10 функций вносят вклад в классификацию, а остальные — нет. Поэтому, когда m> 10, процедуры не получают никаких дополнительных сигналов, но накапливают шумы: чем больше m, тем больше накапливается шум, что ухудшает процедуру классификации из-за размерности. При m = 40 накопленные сигналы компенсируют накопленный шум, так что первые два главных компонента все еще имеют хорошую способность распознавания. Когда m = 200, накопленный шум превышает усиление сигнала.

Приведенное выше обсуждение мотивирует использование разреженных моделей и выбора переменных для преодоления эффекта накопления шума. Например, в модели классификации (2) вместо использования всех функций мы могли бы выбрать подмножество признаков, которые достигают наилучшего отношения сигнал / шум. Такая разреженная модель обеспечивает более высокую эффективность классификации. Другими словами, выбор переменных играет ключевую роль в преодолении накопления шума при классификации и прогнозировании регрессии. Тем не менее, выбор переменных в больших измерениях является сложной задачей из-за ложной корреляции, случайной эндогенности, неоднородности и ошибок измерений.

Ложная корреляция

Высокая размерность также содержит ложную корреляцию, ссылаясь на тот факт, что многие некоррелированные случайные величины могут иметь высокие выборочные корреляции в больших измерениях. Ложная корреляция может привести к ошибочным научным открытиям и неправильным статистическим выводам.

Рассмотрим задачу оценки вектора коэффициента β линейной модели

$display$

где y∈Rny∈Rn представляет вектор ответа, X = [x1,…, xn] T∈Rn × dX = [x1,…, xn] T∈Rn × d представляет матрицу проектирования, ,∈Rnϵ∈Rn представляет независимый вектор случайного шума и Id — единичная матрица d × d. Чтобы справиться с проблемой накопления шума, когда размер d сравним или больше размера выборки n, принято считать, что ответ дает лишь небольшое количество переменных, то есть β является разреженным вектором. В соответствии с этим допущением разреженности, выбор переменной может быть выполнен, чтобы избежать накопления шума, улучшить производительность прогнозирования, а также улучшить интерпретируемость модели с консервативным представлением.

При больших размерах даже для такой простой модели, как (3), выбор переменных затруднен из-за наличия ложной корреляции. В частности, при высокой размерности важные переменные могут быть сильно коррелированы с несколькими ложными переменными, которые с научной точки зрения не связаны. Рассмотрим простой пример, иллюстрирующий это явление. Пусть x1,…, xn — независимые наблюдения d-мерного гауссовского случайного вектора X = (X1,…, Xd) T∼Nd (0, Id) X = (X1,…, Xd) T∼Nd (0, Id ) ⁠. Мы многократно моделируем данные с n = 60 и d = 800 и 6400 по 1000 раз. На рисунке 2а показано эмпирическое распределение максимального абсолютного выборочного коэффициента корреляции между первой переменной, а остальные определены как

$display$

где Corr ^ (X1, Xj) Corr ^ (X1, Xj) — выборочная корреляция между переменными X1 и Xj. Мы видим, что максимальная абсолютная корреляция выборки становится выше с увеличением размерности.

Кроме того, мы можем вычислить максимальную абсолютную кратную корреляцию между X1 и линейными комбинациями нескольких нерелевантных побочных переменных:

$Rˆ=max|S|=4max{βj}4j=1∣∣∣∣Corrˆ(X1,∑j∈SβjXj)∣∣∣∣.R^=max|S|=4max{βj}j=14|Corr^(X1,∑j∈SβjXj)|. (5)$

Используя стандартную конфигурацию, приведено эмпирическое распределение максимального абсолютного коэффициента выборочной корреляции между X1 и ∑j ∈ SβjXj, где S — любое подмножество четвертого размера из {2,…, d} и βj является коэффициентом регрессии наименьших квадратов Xj при регрессии X1 на {Xj} j ∈ S. Опять же, мы видим, что, хотя X1 совершенно не зависит от X2,…, Xd, корреляция между X1 и ближайшей линейной комбинацией любых четырех переменные от {Xj} j ≠ 1 до X1 могут быть очень высокими.

Ложная корреляция оказывает существенное влияние на выбор переменных и может привести к ошибочным научным открытиям. Пусть XS = (Xj) j ∈ S — случайный вектор, индексированный S, и пусть SˆS ^ — выбранный набор, который имеет более высокую паразитную корреляцию с X1, как на рис. 2. Например, когда n = 60 и d = 6400, мы видим, что X1 практически неотличим от XSˆXS ^ для множества SˆS ^ с | Sˆ | = 4 | S ^ | = 4⁠. Если X1 представляет уровень выраженности гена, ответственного за заболевание, мы не можем отличить его от других четырех генов в SˆS ^, которые имеют аналогичную прогностическую силу, хотя они, с научной точки зрения, не имеют значения.

Помимо выбора переменных, ложная корреляция может также привести к неверному статистическому выводу. Объясним это, рассмотрев снова ту же линейную модель, что и в (3). Здесь мы хотели бы оценить стандартную ошибку σ остатка, которая заметно проявляется в статистических выводах коэффициентов регрессии, выборе модели, тесте соответствия и предельной регрессии. Пусть SˆS ^ — набор выбранных переменных, а PSˆPS ^ — матрица проекции на пространство столбцов XSˆXS ^ ⁠. Стандартная оценка остаточной дисперсии, основанная на выбранных переменных:

$display$

Оценщик (6) является беспристрастным, когда переменные не выбраны по данным и модель верна. Однако ситуация совершенно иная, когда переменные выбираются на основе данных. В частности, авторы показали, что, когда существует много ложных переменных, σ2 серьезно недооценивается, это приводит к ошибочным статистическим выводам, включая выбор моделей или тесты значимости, и ошибочным научным открытиям, таким как поиск неправильных генов для молекулярных механизмов. Они также предлагают усовершенствованный метод перекрестной проверки, чтобы ослабить проблему.

Случайная эндогенность

Случайная эндогенность — еще одна тонкая проблема, возникающая из-за высокой размерности. В настройке регрессии Y = ∑dj = 1βjXj + εY = ∑j = 1dβjXj + ε⁠ термин «эндогенность» означает, что некоторые предикторы {Xj} коррелируют с остаточным шумом ε. Обычная разреженная модель предполагает

$display$

с небольшим множеством S = {j: βj ≠ 0}. Экзогенное предположение (7), что остаточный шум ε не коррелирует со всеми предикторами, имеет решающее значение для достоверности большинства существующих статистических методов, включая согласованность выбора переменных. Хотя это предположение выглядит невинным, его легко нарушить в больших измерениях, поскольку некоторые переменные {Xj} случайно коррелируют с ε, что делает большинство многомерных процедур статистически недействительными.

Чтобы объяснить проблему эндогенности более подробно, предположим, что неизвестный нам ответ Y связан с тремя ковариатами следующим образом:

$display$

На этапе сбора данных мы не знаем истинную модель и поэтому собираем как можно больше ковариат, потенциально связанных с Y, в надежде включить все члены в S в (7). Кстати, некоторые из этих Xj (для j j 1, 2, 3) могут быть связаны с остаточным шумом ε. Это опровергает предположение об экзогенном моделировании в (7). На самом деле, чем больше ковариат собрано или измерено, тем сложнее это предположение.

В отличие от ложной корреляции, случайная эндогенность относится к настоящему существованию корреляций между непреднамеренными переменными. Первое аналогично тому, что два человека похожи друг на друга, но не имеют генетической связи, а второе похоже на знакомство, которое легко происходит в большом городе. В более общем смысле эндогенность возникает в результате смещения выбора, ошибок измерения и пропущенных переменных. Эти явления часто возникают при анализе Больших Данных, в основном по двум причинам:

Благодаря новым высокопроизводительным методам измерения ученые могут собирать как можно больше функций и стремиться к этому. Это, соответственно, увеличивает вероятность того, что некоторые из них могут быть коррелированы с остаточным шумом.
Большие Данные обычно объединяются из нескольких источников с потенциально разными схемами генерации данных. Это увеличивает вероятность смещения выбора и ошибок измерения, которые также вызывают потенциальную случайную эндогенность.

Появляется ли случайная эндогенность в реальных наборах данных и как мы можем проверить это на практике? Мы рассматриваем исследование геномики, в котором 148 образцов микрочипов загружаются из базы данных GEO и ArrayExpress. Эти образцы созданы на платформе Affymetrix HGU133a для людей с раком простаты. Полученный набор данных содержит 22 283 зонда, что соответствует 12 719 генам. В этом примере нас интересует ген, называемый «семейство рецепторов домена дискоидина, член 1» (сокращенно DDR1). DDR1 кодирует рецепторные тирозинкиназы, которые играют важную роль в связи клеток с их микроокружением. Известно, что DDR1 тесно связан с раком простаты, и мы хотим изучить его связь с другими генами у пациентов с раком. Мы взяли генные выражения DDR1 в качестве переменной ответа Y, а выражения всех оставшихся 12 718 генов — в качестве предикторов. На левой панели рис. 3 показано эмпирическое распределение корреляций между ответом и отдельными предикторами.

Чтобы проиллюстрировать существование эндогенности, мы подгоняем регрессию наименьших квадратов L1 (Лассо) к данным, и штраф автоматически выбирается с помощью 10-кратной перекрестной проверки (отобрано 37 генов). Затем мы восстановим обычную регрессию наименьших квадратов для выбранной модели, чтобы вычислить остаточный вектор. На правой панели рис. 3 мы строим эмпирическое распределение корреляций между предикторами и остатками. Мы видим, что остаточный шум сильно коррелирует со многими предикторами. Чтобы убедиться, что эти корреляции не вызваны чисто ложной корреляцией, мы вводим «нулевое распределение» ложных корреляций путем случайной перестановки порядков строк в матрице проекта, так что предикторы действительно не зависят от остаточного шума. Сравнивая эти два распределения, мы видим, что распределение корреляций между предикторами и остаточным шумом в необработанных данных (помеченных как «необработанные данные») имеет более “тяжелый хвост”, чем в переставленных данных (помеченных как «переставленные данные»). Этот результат предоставляет убедительные доказательства эндогенности.