Аннотация
Синтез табличных данных получил широкое внимание в литературе. Это связано с тем, что доступные данные часто ограничены, неполны или не могут быть легко получены, а конфиденциальность данных становится все более актуальной. В этой работе мы представляем обобщенную структуру генеративной состязательной сети (GAN) для табличного синтеза, которая сочетает в себе состязательное обучение и регуляризацию при отрицательной логарифмической плотности обратимых нейронных сетей. Предлагаемая структура может быть использована для достижения двух различных целей. Во‑первых, мы можем далее улучшить качество синтеза, уменьшив отрицательную логарифмическую плотность реальных записей в процессе состязательного обучения. С другой стороны, увеличивая отрицательную логарифмическую плотность реальных записей, можно синтезировать реалистичные поддельные записи таким образом, чтобы они не были слишком близки к реальным записям и снижали вероятность потенциальной утечки информации. Мы провели эксперименты с реальными наборами данных для классификации, регрессии и атак на конфиденциальность. В целом, предлагаемый метод демонстрирует наилучшее качество синтеза (с точки зрения оценочных показателей, ориентированных, например, на задачи F1) при уменьшении отрицательной логарифмической плотности во время состязательного обучения. При увеличении отрицательной логарифмической плотности наши экспериментальные результаты показывают, что расстояние между реальными и поддельными записями увеличивается, повышая устойчивость к атакам на конфиденциальность.
1. Введение
Генеративные состязательные сети (GAN) и вариационные автокодеры (VAE), получили широкое распространение за последние несколько лет [24, 15, 31, 2, 18, 1, 16]. GAN — одна из наиболее успешных среди генеративных моделей, а синтез табличных данных — одно из многих популярных приложений GAN [7, 4, 28, 27, 21, 38].
Однако синтез табличных данных является сложной задачей из-за следующих двух проблем:
1) табличные данные часто содержат конфиденциальную информацию;
2) требуется делиться табличными данными с людьми, некоторые из которых могут не заслуживать доверия.
Поэтому создание поддельных записей, максимально похожих на реальные, как это обычно принято для повышения качества синтеза, не всегда предпочтительно при синтезе табличных данных, например, при совместном использовании с непроверенными людьми [27, 5].
В [5] было показано, что можно эффективно извлекать конфиденциальную информацию из предварительно обученной модели GAN, если ее логарифмические плотности достаточно высоки. С этой целью мы предлагаем обобщенную структуру, называемую обратимым табличным GAN (IT-GAN), в которой мы интегрируем состязательное обучение GAN и обучение с отрицательной логарифмической плотностью обратимых нейронных сетей. В нашей структуре мы можем улучшить или жертвовать отрицательной плотностью логарифмов во время состязательного обучения, чтобы найти компромисс (консенсус) между качеством синтеза и защитой конфиденциальности (см. Рисунок 1).
Наш генератор, основанный на ансамблях нейронных решений обыкновенных дифференциальных уравнениях (NODE [6]), является обратимым и позволяет реализовать предложенную концепцию обучения. Для NODE существует эффективный метод беспристрастной оценки их определителей Якоби [6, 16]. Таким образом, используя независимую оценку Хатчинсона, мы можем эффективно оценить отрицательную логарифмическую плотность. После этого отрицательная логарифмическая плотность может быть использована для следующих двух противоположных целей:
1) уменьшение отрицательной логарифмической плотности для дальнейшего повышения качества синтеза (см. IT-GAN(Q) на рисунке 1);
2) увеличение отрицательной логарифмической плотности для синтеза реалистичных поддельных записей, которые не слишком похожи на реальные записи (см. IT-GAN(L) на рисунке 1).
В частности, вторая цель, а именно, ухудшение логарифмической плотности при незначительном снижении качества синтеза, тесно связана с проблемой утечки информации в табличных данных.
Однако у этого обратимого генератора есть одно ограничение – размерность скрытых слоев не может быть изменена. Чтобы преодолеть это ограничение, мы предлагаем интегрированную архитектуру автоэнкодера или автодекодера (AE) и GAN. Мотивация, лежащая в основе предлагаемой совместной архитектуры, двоякая:
1) роль AE заключается в создании скрытого пространства представления, над которым работают генератор и дискриминатор, а пространство скрытого представления имеет ту же размерность, что и скрытый входной вектор генератора, следовательно, входные и выходные размеры в нашем генераторе одинаковы, что соответствует требованию инвариантности размерности узлов;
2) разделение труда между АЕ и генератором может улучшить процесс обучения, так как табличные данные обычно содержат большое количество столбцов, что затрудняет синтез.
В нашей совместной архитектуре генератор разделяет свою задачу с AE; он напрямую синтезирует не поддельные записи, а поддельные скрытые представления. Декодер (сеть восстановления) AE преобразует их в поддельные записи, доступные для чтения человеком. Таким образом, заключительное обучение состоит из обучения GAN, обучения AE и регуляризации отрицательной логарифмической плотности.
Мы провели эксперименты с 6 реальными табличными наборами данных и сравнили наш метод с 9 базовыми методами. Во многих случаях, оценки результатов по нашим методам превосходят все другие базовые показатели. Наш вклад можно резюмировать следующим образом:
1. Мы предлагаем общую структуру, в которой можно найти компромисс между качеством синтеза и утечкой информации.
2. С этой целью мы объединяем состязательное обучение GAN и обучение с отрицательной логарифмической плотностью обратимых нейронных сетей.
3. Мы проводим тщательные эксперименты с 6 реальными табличными наборами данных, и наши методы превосходят существующие методы почти во всех случаях.
2. Литературный обзор (анализ)
Мы представляем различные методы синтеза табличных данных и обратимые нейронные сети. В частности, мы рассмотрим обратимую характеристику NODE.
2.1. Синтез табличных данных
Пусть X[1:N] - табличные данные, состоящие из N столбцов. Каждый столбец X[1:N] является либо дискретным, либо непрерывным и числовым. Пусть x - запись X[1:N]. Цель синтеза табличных данных состоит в том, чтобы:
1) изучить плотность ˆp(x), которая наилучшим образом аппроксимирует распределение данных p(x);
2) сгенерировать поддельные табличные данные ˆX[1:N].
Для простоты и без потери общности мы предполагаем, что |X[1:N]| = | ˆX[1:N]| т.е. табличные данные имеют одинаковое количество записей.
Этот подход может быть реализован с помощью различных подходов, например, VAE, GAN и так далее, и это лишь некоторые из них. Мы представляем несколько оригинальных моделей в этой области. Синтез табличных данных, который генерирует реалистичную синтезированную таблицу путем моделирования совместного распределения вероятностей по столбцам в таблице, включает в себя множество различных методов в зависимости от типов данных. Например, байесовские сети [3, 42] и деревья решений [30] используются для генерации дискретных переменных. Для генерации непрерывных переменных используется рекурсивное моделирование таблиц с использованием гауссовой связки [29]. Для синтеза пространственных данных используется дифференциально-разностный алгоритм декомпозиции [9, 41]. Однако некоторые ограничения, присущие этим моделям, такие как тип распределений и вычислительные проблемы, препятствуют высокоточному синтезу данных.
В последние годы было внедрено несколько методов генерации данных на основе GAN для синтеза табличных данных, которые в основном обрабатывают непрерывные или дискретные числовые записи. RGAN [13] генерирует непрерывные временные ряды медицинских записей, в то время как MedGAN [7], CorrGAN [28] генерируют дискретные записи. А EhrGAN [4] генерирует правдоподобные помеченные записи, используя обучение с неполным контролем для увеличения ограниченных обучающих данных. PATE-GAN [21] генерирует синтетические данные, не ставя под угрозу конфиденциальность исходных данных. TableGAN [27] улучшил синтез табличных данных с использованием сверточных нейронных сетей, чтобы максимизировать точность прогнозирования по столбцу метки. TGAN [38] - одна из самых последних условных моделей, основанных на GAN. В нем было предложено несколько важных направлений для синтеза табличных данных с высокой точностью, например, механизм предварительной обработки для преобразования каждой записи в форму, подходящую для GAN оптимально.
2.2. Обратимые нейронные сети и нейронные обыкновенные дифференциальные уравнения
Обратимые нейронные сети, как правило, являются биективными (взаимно-однозначными). Благодаря этому свойству и теореме об изменении переменной мы можем эффективно рассчитать точную логарифмическую плотность выборки данных x следующим образом:
где f : Rdim (z) → Rdim (x) - обратимая функция, а z ∼ pz (z). ∂ f (z) / ∂ z - Якобиан f, который представима эффективно для вычисления — он имеет кубическую временную сложность. Поэтому обратимые нейронные сети обычно ограничивают определение матрицы Якоби формой, которая может быть эффективно вычислена [31, 36, 25, 26, 10, 11]. Однако FFJORD [16] недавно предложил обратимую архитектуру на основе NODE, в которой мы можем использовать любую форму якобиана. Мы также полагаемся на этот метод.
В NODE [6] пусть h(t) - скрытый вектор в момент времени (или слой) t в нейронной сети. Узлы решают следующую интегральную задачу для вычисления h(ti+1) из h(ti) [6]:
где f(h(t), t; θf), которую мы называем функцией ODE (обыкновенных дифференциальных уравнений), представляет собой нейронную сеть для аппроксимации
Для решения интегральной задачи узлы располагаются в решениях ODE, например, явным методом Эйлера, методом Дормана–Принса и т.д. [12]. h (ti) легко восстанавливается из h (ti + 1) с помощью ODE в обратном направлении времени следующим образом:
Две другие связанные статьи - FlowGAN [17] и TimeGAN [39], хотя они не синтезируют табличные данные. FlowGAN сочетает состязательное обучение с NICE [10] или RealNVP [11]. Гровер и др. в статье показали, что обучение на основе максимального правдоподобия не показывает надежного синтеза для многомерного пространства, и они пытаются объединить их [17]. TimeGAN объединяет, учитывая данные временных рядов, состязательное обучение и контролируемое обучение, вероятности прогнозирования следующего значения по прошлым значениям. Это контролируемое обучение доступно, потому что они имеют дело с данными временных рядов. В нашем случае мы объединяем состязательное обучение и регуляризацию узлов с отрицательной логарифмической плотностью, которые считаются более общими, чем NICE и RealNVP [16].
3. Предлагаемый метод
Мы предлагаем более продвинутую настройку для синтеза табличных данных, чем существующие методы. Наша цель состоит в том, чтобы интегрировать состязательное обучение GAN и обучение логарифмической плотности обратимых нейронных сетей. Таким образом, можно легко найти компромисс между качеством синтеза и защитой конфиденциальности.
Опишем в этом разделе наш проект. У него есть два ключевых момента:
1) мы используем архитектуру обратимой нейронной сети для проектирования нашего генератора;
2) мы интегрируем autoencoder (AE) в нашу структуру, чтобы a) включить изометрическую архитектуру генератора, т.е. размеры скрытых слоев не меняются, и b) распределять рабочую нагрузку генератора.
3.1. Общая архитектура
Общая архитектура приведена на рисунке 2. Нашу архитектуру можно разделить на следующие четыре подхода (пути) к передаче данных:
1) AE-путь к данным AE, выделенный красным, связан с моделью AE для генерации, учитывая реальную запись xreal, скрытое представление hreal и реконструкцию ˆxreal;
2) Log density-путь, где существует два разных пути передачи данных, связанных с генератором, а путь логарифмической плотности, выделенный синим цветом, связан с обратимой моделью для вычисления логарифмической плотности скрытого представления hreal, т.е. log ˆpg(hreal), следовательно, мы можем рассматривать это как логарифмическую плотность реальной записи xreal, потому что скрытое представление взято из реальной записи;
3) GAN-путь, путь передачи данных, связанный с генератором, выделенный оранжевым цветом, предназначен для состязательного обучения, а дискриминатор считывает hreal и hfake, которые генерируются генератором из скрытого вектора z, чтобы различать их;
4) Cинтез-путь, последний путь к данным, выделенный зеленым цветом, используется после завершения обучения нашей модели и использует генератор и декодер, мы синтезируем множество поддельных записей.
3.2. Автоэнкодер (АЕ)
Мы описываем нашу модель AE в этом подразделе. Она основана на нормализации, зависящей от режима, которая:
1) соответствует вариационной смеси гауссианов (функций Гаусса) для каждого непрерывного столбца X[1: N];
2) преобразует каждый непрерывный элемент j-й записи xj, 1: N ∈ X1: N в одномерный вектор, обозначающий конкретный гауссиан, который наилучшим образом соответствует элементу и его скалярному нормализованному значению в выбранном гауссиане.
Если столбец является дискретным, мы просто преобразуем каждое значение в столбце в одномерный вектор. После этого мы используем следующий кодер E: Rdim(x) → Rdim(h) и декодер (сеть восстановления) R: Rdim(h) → Rdim(x):
где φ - ReLU, FC11 - полностью связующим слоем (Fully Connected - FC), который принимает размер входного сигнала dim(x). Благодаря нескольким таким слоям FC1ne обеспечивает размер выходного сигнала dim(h). Мы используем θe для обозначения параметров кодера. Аналогично, FC21 принимает размер dim(h) входного сигнала, а после нескольких уровней FC FC2nr размер выходного сигнала становится равным dim(x). Мы используем θr для обозначения параметров декодера (сети восстановления).
3.3. Генератор
Ключевым моментом в нашей конструкции генератора является использование обратимой нейронной сети [16] для наших собственных целей. Среди различных обратимых архитектур мы внедряем и настраиваем узлы. Обратимые модели, основанные на NODE, имеют то преимущество, что нет ограничений на форму определителя Якоби. Другие обратимые модели обычно ограничивают свои якобианы конкретными формами, которые можно легко вычислить. Однако наша модель, основанная на N, не имеет таких ограничений.
Таким образом, мы могли бы изучить архитектуру генератора без каких-либо ограничений и, наконец, использовать следующую архитектуру для нашего генератора G: Rdim(z) → Rdim(h):
где σ - нелинейная активация, FC(1,1) и FC(1,2) - с (dim(z), M dim(z)), FC(K,1) и FC(K,2) - с (M dim(z), dim(h)), а FC(i,1) и FC(i,2) - с (M dim(z), M dim(z)), если 1 < i < K. z(0) ∼N(0,1) - скрытый вектор, выбранный из единичного гауссова. Mi(z,t) : Rdim(z) → [0, 1] - это функция отображения, которая определяет пропорцию между FC(i,1) и FC(i,2). Мы используем либо t, либо sigmoid (сигмоидальную форму) (FCMI (z ⊕ t)) для Mi, где ⊕ означает конкатенацию (соединение). В нашем случае dim(z) = dim(h). Фактически, эта инвариантная размерность является одной из характеристик многих обратимых нейронных сетей. Мы используем θg для обозначения параметров генератора.
Интегральная задача может быть решена различными решателями ODE. Логарифмическая вероятность log p (hfake) может быть рассчитана с помощью независимой оценки Хатчинсона следующим образом:
где p(E) - стандартное распределение Гаусса или Радемахера [19]. Временная сложность вычисления оценки Хатчинсона немного больше, чем при оценке f, поскольку векторное произведение якобианов
имеет ту же стоимость, что и при оценке f с использованием автоматического дифференцирования в обратном режиме.
Одним из отличительных свойств генератора является то, что при наличии реального скрытого вектора hreal мы можем восстановить
и оценить его логарифмическую вероятность ˆp(ˆhreal), где hreal = ˆhreal, точно решив уравнение. (3) — обратите внимание, что G−1 аналитически определяется из G и не требует обучения.
3.4. Дискриминатор
Дискриминатор D : Rdim(h) → R считывает hreal и hfake для их классификации. Мы используем следующую архитектуру:
где FC31 принимает размер dim(h) входного сигнала, и после нескольких слоев FC FC3nd создает одномерный выходной сигнал. nb - протекающий ReLU с отрицательным наклоном b, а Φa - dropout, отсев с коэффициентом a (распространения ошибок, уменьшения взаимодействий узлов слоя). Мы используем θd для обозначения параметров дискриминатора.
3.5. Алгоритм Обучения
Мы опишем, как обучить предлагаемую архитектуру. Поскольку он состоит из нескольких модулей и их функций потери (отклонения), мы сначала отдельно опишем их, а затем окончательный алгоритм обучения.
Функции потерь. Мы вводим различные функции потерь, которые используем для обучения нашей модели. Во-первых, мы используем следующие потери AE для обучения кодера и модели декодера:
где LReconstruct – стандартное отклонение ошибки восстановления.
Отметим, что здесь мы хотим изучить разреженный кодировщик согласно регуляризации L2. Вектор hfake - скрытый вектор, сгенерированный генератором G. Вектор ˆhfake - восстановленный с помощью E(R(hfake)) скрытый вектор, где E и R означают кодер и декодер соответственно. После некоторых предварительных исследований мы обнаружили, что это определение потерь обеспечивает надежную подготовку во многих случаях. В частности, это дополнительно стабилизирует устойчивость автоэнкодера на изучаемом пространстве скрытого представления. Для обучения генератора и дискриминатора мы используем WGAN-GP loss. Затем мы предлагаем использовать следующий регуляризатор для управления логарифмической плотностью, что приводит к корректировке расстояния между реальным и поддельным:
где E - кодировщик, γ − коэффициент, подчеркивающий регуляризацию, а логарифмическая плотность log ˆp (E(x)) может быть вычислена с помощью уравнения (7) во время G(G-1(E(x))).
Алгоритм обучения. Алгоритм 1 описывает наш метод обучения. Существует обучающий набор данных D train. Сначала мы обучаем кодер потерям AE и WGAN-GP, а декодер потерям AE (строка 4). Чтобы изучить скрытое векторное пространство, подходящее для общего процесса синтеза, мы обучаем кодировщик потерям WGAN-GP, чтобы помочь дискриминатору лучше различать реальные и поддельные скрытые векторы по влиянию скрытого вектора на дискриминатор. Делая это, AE и GAN интегрируются в единую структуру. Затем мы обучаем дискриминатор с потерей WGAN-GP каждый период D (строка 6), генерируя потери WGAN-GP каждый период G (строка 9). После этого генератор обучается еще раз с помощью предлагаемого регуляризатора плотности каждый период L (строка 12). Поскольку дискриминатор и генератор основаны на скрытом векторе, созданном моделью AE, мы затем обучаем кодер и декодер на каждой итерации. Регуляризация логарифмической плотности также используется не всегда, а на каждой итерации периода L, потому что мы обнаружили, что частая регуляризация логарифмической плотности отрицательно влияет на весь прогресс обучения. Используя данные оценки D val и метрику оценки, ориентированную на конкретные задачи, мы выбираем наилучшую модель. Например, мы используем оценку F-1 / MSE обученного генератора каждый период с проверяющими данными — период состоит из множества итераций в зависимости от количества записей в обучающих данных и размера выборки. Если недавняя модель лучше, чем текущая лучшая модель, мы ее обновляем.
О податливости обучения генератора. Версия теоремы Коши–Ковалевского для ODE гласит, что для заданного f = dh (t) / dt существует единственное решение h, если f является аналитическим (непрерывным в малом по Липшицу). Другими словами, задача ODE корректна, если f аналитическая [14]. В нашем случае функция f в уравнении (6) использует различные уровни FC, которые являются аналитическими, и некоторые нелинейные случаи, которые могут быть или не быть аналитическими. Однако в наших экспериментах в основном используется гиперболический тангенс (tanh), который является аналитическим. Это означает, что для генератора будет только единственное оптимальное ODE, заданное скрытым вектором z. Из-за уникальности решения и наших относительно более простых определений по сравнению с другими приложениями NODE, например, сверточного слоя, за которым следует ReLU в [6], мы считаем, что наш метод обучения может найти хорошее решение для генератора.
4. Экспериментальные оценки
Мы представляем наши экспериментальные среды и результаты для синтеза табличных данных. Эксперименты проводились в следующих программных и аппаратных средах: UBUNTU 18.04, PYTHON 3.7.7, NUMPY 1.19.1, SCIPY 1.5.2, PYTORCH 1.8.1, CUDA 11.2 и драйвер NVIDIA 417.22, процессор i9 и NVIDIA RTX TITAN.
4.1. Экспериментальные среды
4.1.1 Наборы данных
Мы тестируем с различными реальными табличными данными, ориентируясь на двоичную / много-классовую классификацию и регрессию. Их статистические данные обобщены в приложении A. Список наборов данных выглядит следующим образом: Adult (Взрослые) [32] состоит из разнообразной демографической информации в США, извлеченной из переписи населения 1994 года, где мы прогнозируем два класса доходов с высоким (>50 тыс. долл.) и низким (≤50 тыс. долл.) доходом. Census(Перепись населения) [33] похожа на перепись взрослого населения, но в ней есть другие столбцы. Credit (Кредит) [40] предназначен для прогнозирования статуса банковского кредита. Cabs (Такси) [34] собирается индийской сервисной компанией-агрегатором такси для прогнозирования типов клиентов. King (Король) [23] содержит цены продажи домов в округе Кинг в Сиэтле за период с мая 2014 по май 2015 года. News (Новости) [22] имеют разнородный набор функций о статьях, опубликованных Mashable в течение двух лет, для прогнозирования количества акций в социальных сетях. Adult и Перепись предназначены для двоичной классификации, а кредит и такси - для много-классовой классификации. Остальные предназначены для регрессии.
4.1.2 Методы оценки
Мы генерируем поддельные табличные данные и обучаем алгоритмы множественной классификации (SVM, DecisionTree, AdaBoost и MLP) или регрессии (линейная регрессия и MLP). Затем мы оцениваем их с помощью данных тестирования и усредняем их производительность с точки зрения различных показателей оценки. Этот конкретный метод оценки был предложен в [38], и мы строго следуем их процедуре оценки. Мы выполняем эти процедуры пять раз с пятью разными начальными номерами.
Для нашего IT-GAN мы рассматриваем IT-GAN (Q) с положительным γ, который уменьшает отрицательную логарифмическую плотность для улучшения Quality(качества) синтеза, IT-GAN (L), который жертвует логарифмической плотностью для уменьшения Leakage с отрицательным γ, и IT-GAN, который не использует регуляризацию логарифмической плотности. В наших таблицах результатов Real означает, что мы используем реальные табличные данные для обучения модели классификации/регрессии. Для получения других исходных данных обратитесь к Приложению C.
Мы не сообщаем о некоторых исходных показателях в наших таблицах результатов, чтобы сэкономить места, если их результаты значительно хуже, чем у других. Мы ссылаемся на Приложение E для получения их полных таблиц результатов.
4.1.3. Гиперпараметры
Мы рассматриваем следующие диапазоны гипер-параметров: номера слоев в кодере и декодере, ne и nr, находятся в {2, 3}. Количество слоев nd эквалайзера (8) находится в {2, 3}. Коэффициент отсева a равен {0, 0.5}, а наклон утечки b равен {0, 0.2}. Нелинейная активация σ равна tanh; коэффициент усиления M уравнения (6) находится в {1, 1.5}; количество слоев K уравнения (6) равен 3; коэффициент γ находится в {-0.1, -0.014, -0.012, -0.01, 0, 0.01, 0.014, 0.05, 0.1}; периоды обучения, обозначенные periodD, periodG, periodL в алгоритме 1 находятся в {1, 3, 5, 6}; размерность скрытого вектора dim(h) равна {32, 64, 128}; размер мини-пакета равен 2000. Мы используем метод обучения/проверки в алгоритме 1. В качестве исходных условий мы рассматриваем рекомендуемый набор гипер-параметров в их статьях или в их уважаемых репозиториях GitHub. Обратитесь к Приложению D для получения наилучших наборов гипер-параметров.
4.2. Результаты экспериментов
В таблицах результатов лучшие (соответственно, следующие за ними) результаты выделены жирным шрифтом (соответственно с подчеркиванием). Если среднее значение такое же, выигрывает вариант с меньшим стандартным отклонением (std. dev). В 17 из 18 случаев (# наборы данных × # показатели оценки, ориентированные на задачи) один из наших методов показывает наилучшую производительность у Adult.
Двоичная классификация. Мы описываем экспериментальные результаты взрослого населения и переписи населения в таблицах 1 и 2. Они представляют собой наборы данных двоичной классификации. В целом, многие методы показывают разумные оценочные баллы, за исключением Ind, Uniform и VeeGAN. В то время как TGAN и TVAE показывают разумную производительность с точки зрения F1 и ROCAUC для Adult(взрослых), наш метод IT-GAN(Q) показывает наилучшую производительность в целом. Среди этих базовых показателей TGAN демонстрирует хорошую производительность.
Для Census (переписи населения) TVAE по-прежнему работает хорошо. В то время как TGAN показывает хорошие показатели для взрослого населения, он не показывает разумных показателей в переписи. Наш метод превосходит их. В целом, IT-GAN(Q) является лучшим в Census (переписи).
Много-классовая классификация (таксономия). Credit (кредиты) и Taxi (такси) - это области много-классовых классификационных наборов данных, для которых сложно синтезировать. Для оценки в таблице 3 IT-GAN(Q) показывает наилучшие показатели с точки зрения Макро-F1 и ROCAUC, а TVAE показывает наилучший показатель Микро-F1. Это вызвано проблемой различий классов, когда минимальный класс занимает часть в 9%. TVAE не создает для него никаких рекордов и достигает лучшего результата Micro F1. Следовательно, IT-GAN(Q) является лучшим в зачете. На рисунке 4 в приложении B IT-GAN(L) активно синтезирует поддельные записи, которые не перекрываются с реальными записями, что приводит к неоптимальным результатам.
Для такси(Cabs) в таблице 4 IT-GAN(Q) показывает лучшие результаты с точки зрения микро/макро F1. Интересно, что IT-GAN(L) имеет вторые лучшие результаты. Исходя из этого, мы можем знать, что погрешности, вызванные увеличением отрицательной логарифмической плотности, в этом наборе данных не слишком велики.
Регрессия. King и News - это регрессионные наборы данных. Многие методы демонстрируют плохие качества в этих наборах данных и задачах, поэтому мы удалили их из таблиц 5 и 6. В частности, все методы, кроме TGAN, IT-GAN и его вариаций, показывают отрицательные оценки линейной регрессии R2 в News. Только наши методы показывают надежные результаты синтеза по всем показателям. Для King наш метод и TGAN показывают хорошую производительность, но IT-GAN(Q) превосходит все базовые показатели почти по всем показателям.
Атака на конфиденциальные данные. В [5] был предложен полный метод атаки на конфиденциальность типа «черный ящик» для GAN. Мы внедрили их метод для атаки на наш метод и измерили показатель успешности атаки в терминах ROCAUC. В таблице 7 мы приводим полные оценки успешности атаки черного ящика только для нашего метода. Более подробные результаты приведены в Приложении G. В большинстве случаев IT-GAN(L) показывает самый низкий показатель успешности атаки. Этот конкретный IT-GAN(L) - это тот, который мы использовали для отчета о производительности в других таблицах.
Исследование абляции при отрицательной логарифмической плотности. Мы сравниваем IT-GAN и его вариации. IT-GAN (Q) превосходит IT-GAN по показателям "Adult (Взрослый)", "Census(Перепись)", "Credit (Кредит)", "Cabs(Такси)" и "King(Король)". В соответствии с этим мы можем сделать вывод, что уменьшение отрицательной логарифмической плотности улучшает показатели оценки, ориентированные на задачи.
На рис. 3 мы показываем функцию плотности наборов данных, не зависящих от расстояния в реальном времени, где их средние значения показаны в других таблицах результатов эксперимента. IT-GAN(L) эффективно упорядочивает по расстоянию (радиусу таксона). IT-GAN (Q) показывает больше похожих распределений, чем IT-GAN. Следовательно, мы можем знать, что управление отрицательной логарифмической плотностью работает так, как задумано. Визуализация на рис. 1 также доказывает это.
Анализ чувствительности. Изменяя два ключевых гипер-параметра dim(h) и γ в наших методах, мы также проводим анализ чувствительности. Мы тестируем IT-GAN(L) с различными настройками для dim(h). В целом, dim(h)=128 дает наилучший результат, как показано в таблице 8. С помощью IT-GAN в таблице 9 мы изменяем γ, и γ = 0,01 дает много хороших результатов. В таблице 10 γ=-0,011 устойчив к полной атаке черного ящика. Другие таблицы приведены в Приложении F.
5. Выводы
Мы решили проблему синтеза табличных данных с помощью состязательного обучения GAN и регуляризации с отрицательной логарифмической плотностью обратимых нейронных сетей. Наши экспериментальные результаты показывают, что предлагаемые методы хорошо работают в большинстве случаев, а регуляризация с отрицательной логарифмической плотностью может скорректировать компромисс между качеством синтеза и устойчивостью к атаке на конфиденциальность. Однако мы обнаружили, что некоторые наборы данных сложно синтезировать, т.е. все генерируемые модели показывают более низкую производительность, чем реальная, в некоторых много-классовых и/или несбалансированных наборах данных, например, для переписи и кредита. Кроме того, наиболее эффективный метод варьируется от одного набора данных/задачи к другой, и для них все еще существует возможность улучшить свои качества.
Социальные последствия и ограничения. Наши исследования будут способствовать более активному обмену и публикации табличных данных. Можно использовать наш метод для синтеза поддельных данных, но неясно, как противник может извлечь выгоду из наших исследований. В то же время, однако, существуют возможности для повышения качества синтеза табличных данных. Все еще недостаточно изучено, можно ли использовать поддельные табличные данные для общих задач машинного обучения (хотя мы показали, что их можно использовать для классификации и регрессии).
Набор данных. Мы суммируем статистику наших наборов данных следующим образом:
1. Adult ("Взрослый") содержит 22 тыс. обучающих, 10 тыс. тестовых записей с 6 непрерывными числовыми, 8 категориальными и 1 дискретными числовыми столбцами.
2.Census ("Перепись") содержит 200 тыс. обучающих, 100 тыс. тестовых записей с 7 непрерывными числовыми, 34 категориальными и 0 дискретными числовыми столбцами.
3. Credit ("Кредит") содержит 30 тысяч записей об обучении, 5 тысяч записей о тестировании с 13 непрерывными числовыми, 4 категориальными и 0 дискретными числовыми столбцами.
4. Cabs ("Такси") содержит 40 тыс. записей об обучении, 5 тыс. записей о тестировании с 8 непрерывными числовыми, 5 категориальными и 0 дискретными числовыми столбцами.
5. King ("Король") имеет 16 тысяч записей об обучении, 5 тысяч записей о тестировании с 14 непрерывными числовыми, 2 категориальными и 0 дискретными числовыми столбцами.
6.News ("Новости") содержат 32 тысячи записей об обучении, 8 тысяч записей о тестировании с 45 непрерывными числовыми, 14 категориальными и 0 дискретными числовыми столбцами.
Ссылки
[1] Adler, J. and Lunz, S. Banach wasserstein gan. In NeurIPS. 2018.
[2] Arjovsky, M., Chintala, S., and Bottou, L. Wasserstein generative adversarial networks. In
ICML, 2017.
[3] Aviñó, L., Ruffini, M., and Gavaldà, R. Generating synthetic but plausible healthcare record
datasets, 2018.
[4] Che, Z., Cheng, Y., Zhai, S., Sun, Z., and Liu, Y. Boosting deep learning risk prediction with
generative adversarial networks for electronic health records. 2017.
[5] Chen, D., Yu, N., Zhang, Y., and Fritz, M. Gan-leaks: A taxonomy of membership inference
attacks against generative models. In CCS, 2020.
[6] Chen, R. T. Q., Rubanova, Y., Bettencourt, J., and Duvenaud, D. K. Neural ordinary differential
equations. In NeurIPS. 2018.
[7] Choi, E., Biswal, S., Maline, A. B., Duke, J., Stewart, F. W., and Sun, J. Generating multi-label
discrete electronic health records using generative adversarial networks. 2017.
[8] Chow, C. and Liu, C. Approximating discrete probability distributions with dependence trees.
IEEE Transactions on Information Theory, 14(3):462–467, 1968.
[9] Cormode, G., Procopiuc, M., Shen, E., Srivastava, D., and Yu, T. Differentially private spatial
decompositions. 2011.
[10] Dinh, L., Krueger, D., and Bengio, Y. NICE: non-linear independent components estimation. In
ICLR, 2015.
[11] Dinh, L., Sohl-Dickstein, J., and Bengio, S. Density estimation using real NVP. In ICLR, 2017.
[12] Dormand, J. and Prince, P. A family of embedded runge-kutta formulae. Journal of Computational and Applied Mathematics, 6(1):19 – 26, 1980.
[13] Esteban, C., Hyland, L. S., and Rätsch, G. Real-valued (medical) time series generation with
recurrent conditional gans, 2017.
[14] FOLLAND, G. B. Introduction to Partial Differential Equations: Second Edition, volume 102.
Princeton University Press, 1995.
[15] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A.,
and Bengio, Y. Generative adversarial nets. In NeurIPS. 2014.
[16] Grathwohl, W., Chen, R. T. Q., Bettencourt, J., Sutskever, I., and Duvenaud, D. Ffjord:
Free-form continuous dynamics for scalable reversible generative models. In ICLR, 2019.
[17] Grover, A., Dhar, M., and Ermon, S. Flow-gan: Combining maximum likelihood and adversarial
learning in generative models. In AAAI, 2018.
[18] Gulrajani, I., Ahmed, F., Arjovsky, M., Dumoulin, V., and Courville, A. Improved training of
wasserstein gans. In NeurIPS, 2017.
[19] Hutchinson, M. A stochastic estimator of the trace of the influence matrix for laplacian
smoothing splines. Communications in Statistics - Simulation and Computation, 19(2), 1990.
[20] Ishfaq, H., Hoogi, A., and Rubin, D. Tvae: Triplet-based variational autoencoder using metric
learning, 2018.
[21] Jordon, J., Yoon, J., and Schaar, V. D. M. Pate-gan: Generating synthetic data with differential
privacy guarantees. In International Conference on Learning Representations, 2019.
[22] Kelwin Fernandes. Online News Popularity Data Set. https://archive.ics.uci.edu/ml/
datasets/Twenty+Newsgroups, 2015.
[23] King County. House Sales in King County, USA. https://www.kaggle.com/harlfoxem/
housesalesprediction, 2021.
[24] Kingma, D. P. and Welling, M. Auto-encoding variational bayes. In ICLR, 2014.
[25] Kingma, D. P., Salimans, T., Jozefowicz, R., Chen, X., Sutskever, I., and Welling, M. Improved
variational inference with inverse autoregressive flow. In NeurIPS, 2016.
[26] Oliva, J., Dubey, A., Zaheer, M., Poczos, B., Salakhutdinov, R., Xing, E., and Schneider, J.
Transformation autoregressive networks. In ICML, 2018.
[27] Park, N., Mohammadi, M., Gorde, K., Jajodia, S., Park, H., and Kim, Y. Data synthesis based
on generative adversarial networks. 2018.
[28] Patel, S., Kakadiya, A., Mehta, M., Derasari, R., Patel, R., and Gandhi, R. Correlated discrete
data generation using adversarial training. 2018.
[29] Patki, N., Wedge, R., and Veeramachaneni, K. The synthetic data vault. In DSAA, 2016.
[30] Reiter, P. J. Using cart to generate partially synthetic, public use microdata. Journal of Official
Statistics, 21:441, 01 2005.
[31] Rezende, D. and Mohamed, S. Variational inference with normalizing flows. volume 37 of
Proceedings of Machine Learning Research, pp. 1530–1538, 2015.
[32] Ronny Kohavi. Adult Data Set. http://archive.ics.uci.edu/ml/datasets/adult,
1996.
[33] Ronny Kohavi. Census Income Data Set. https://archive.ics.uci.edu/ml/datasets/
census+income, 1996.
[34] Sigma Cabs. Trip Pricing with Taxi Mobility Analytics. https://www.kaggle.com/
arashnic/taxi-pricing-with-mobility-analytics, 2021.
[35] Srivastava, A., Valkov, L., Russell, C., Gutmann, M. U., and Sutton, C. Veegan: Reducing mode
collapse in gans using implicit variational learning. In NeurIPS. 2017.
[36] van den Berg, R., Hasenclever, L., Tomczak, J., and Welling, M. Sylvester normalizing flows
for variational inference. In UAI, 2018.
[37] van der Maaten, L. and Hinton, G. Visualizing data using t-sne. Journal of Machine Learning
Research, 9(86), 2008.
[38] Xu, L., Skoularidou, M., Cuesta-Infante, A., and Veeramachaneni, K. Modeling tabular data
using conditional gan. In NeurIPS. 2019.
[39] Yoon, J., Jarrett, D., and van der Schaar, M. Time-series generative adversarial networks. In
NeurIPS, 2019.
[40] Zaur Begiev. Bank Loan Status Dataset. https://www.kaggle.com/zaurbegiev/
my-dataset?select=credit_train.csv, 2017.
[41] Zhang, J., Xiao, X., and Xie, X. Privtree: A differentially private algorithm for hierarchical
decompositions. 2016.
[42] Zhang, J., Cormode, G., Procopiuc, C. M., Srivastava, D., and Xiao, X. Privbayes: Private data
release via bayesian networks. ACM Transactions on Database Systems, 2017.