Как стать автором
Обновить

TabularARGN – гибкая и эффективная авто-регрессивная структура для генерации высококачественных синтетических данных

Время на прочтение3 мин
Количество просмотров423

MOSTLY AI открыла доступ к архитектуре TabularARGN и исходному коду нейронной модели (лицензия Apache v2), которая позволяет эффективно генерировать структурированные синтетические данные. В опубликованной статье авторы подробно описывают структуру модели TabularARGN и ее возможности.

Движок для генерации высококачественных синтетических данных с сохранением конфиденциальности.

TabularARGN является нейронной моделью, предназначенной для создания синтетических данных и позволяющей организациям безопасно использовать свои информационные ресурсы в виде структурированных данных, производить их анализ, обучать модели машинного обучения на их основе, обмениваться данными между структурами организации при обеспечении их конфиденциальности. Независимо от того, идет ли речь о простых одиночных ("плоских") таблицах с разнообразными типами данных или нескольких связанных друг с другом таблиц с нерегулярной структурой ("реляционные" таблицы) и различной длиной последовательностей (н-р, временные ряды или наборы предметов и т.д.), TabularARGN демонстрирует надежность и высокую производительность. Она способна обрабатывать сложные данные, что должно позволить применять ее в широком спектре реальных сценариев при сохранении статистической достоверности сгенерированных данных и предоставлении гарантий конфиденциальности, включая дифференциальную приватность (differential privacy, DP).

В отличие от других генераторов синтетических данных, которые полагаются на сложные и ресурсоемкие архитектуры, TabularARGN представляет собой достаточно простую, но эффективныю архитектуру авто-регрессивной нейронной сети. Авторы адаптировали и расширили авто-регрессивные концепции для решения уникальных задач структурированных (табличных) данных, что позволило создать модель высокого качества по скорости и надежности.

В чем уникальность TabularARGN?

  • Высокая точность:
    TabularARGN обеспечивает качество синтетических данных, сопоставимое с передовыми (SOTA) моделями, что гарантирует надежные результаты.

  • Приватность по умолчанию:
    Модель учитывает только конфиденциальные диапазоны значений для выборки и обладает встроенными функциями защиты приватности. Возможность обучения с использованием DP-SGD (Differentially-Private Stochastic Gradient Descent) алгоритма позволяет достичь гарантий дифференциальной приватности за реальное время.

  • Простота:
    Используя существующие базовые блоки, TabularARGN легко интегрируется в стандартные фреймворки глубокого обучения.

  • Эффективность вычислений:
    Скорость обучения до 100 раз выше чем у других SOTA методах позволяет модели масштабироваться даже для больших и сложных наборов данных без потери производительности.

  • Гибкость выборки:
    Поддерживаются расширенные возможности выборки, такие как условная генерация (генерация данных или сэмплинг, основанные на каких-то специфицечских условиях) для создания целевых наборов данных, восстановление отсутствующих значений (imputation) и корректировки при соблюдения этических целей (fairness) синтеза данных. Регулировка параметров (н-р, температуры или top_p) помогает сбалансировать правила и разнообразие данных.

  • Универсальность данных:
    Поддержка гетерогенности реальных табличных наборов включает многомерные данные смешанных типов (категории, числовые, временные, гео-данные и др.), последовательные наборы с различной длиной последовательностей и временными интервалами.

  • Надежность в обучении: TabularARGN обеспечивает высокое качество синтетических данных с настройками по умолчанию и остаётся стабильным даже при новых обучениях модели.

Производительность TabularARGN была протестирована на фоне других open-source эталонов (см. рис.):

  • Простые ("плоские") таблицы:
    На наборе данных Adult, TabularARGN достигает точности 97.9%, сопоставимой с передовыми методами, при этом обучение происходит в 16 раз быстрее.

  • Реляционные таблицы с последовательностями:
    На таких наборах данных, как Baseball, TabularARGN превосходит все базовые модели на 9 процентных пунктов, а скорость обучения увеличивается до 100 раз.

Как видно из результатов, даже при использовании дифференциальной приватности (DP-SGD) TabularARGN сохраняет конкурентоспособную точность, демонстрируя адаптивность без ущерба для качества. Модель может автоматически адаптироваться к смешанным типам данных, справляться с отсутствующими значениями и масштабироваться до миллионов записей без задержек в обучении.

Ссылки:

Теги:
Хабы:
Рейтинг0
Комментарии0

Другие новости

Истории

Ближайшие события

4 – 5 апреля
Геймтон «DatsCity»
Онлайн
8 апреля
Конференция TEAMLY WORK MANAGEMENT 2025
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область