1. Вступление: синтетика выходит из-подполья
Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.
Почему это не очередная хайповая игрушка?
Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.
Приватность без компромиссов. Новые метрики ZCAP и GCAP позволяют количественно доказать, что «утечки» почти невозможны — см. свежий обзор PrivEval (Trudslev et al., 2025).
Контролируемая вариативность. Когда CTAB-GAN+ или TabDDPM генерируют миллион строк «клиентов», мы задаём частоту редких сценариев вручную, а не ждём их годами в проде.
Экономика разработки. Лаборатория Nvidia подсчитала: выпуск бета-версии автопилота ускоряется на 30 %, если 70 % тест-сценариев пришли из Unreal-симуляций вместо реальных полигонов.
Разогрев перед глубоким погружением
Драйвер | Что изменилось за 2022-2025 |
---|---|
Модели | Из «классического» CTGAN выросли диффузионные TabDDPM и LLM-ориентированный FASTGEN (2025) |
Метрики | Атак-based оценки (ZCAP, AIR) ушли из академии в CI/CD: теперь risk-score считается перед каждым деплоем |
Кейсы | A-share market: диффузии повышают S/N на 18 % (Che et al., 2024); в онкологии синтетика покрывает 92 % редких мутаций (Hoppe et al., 2025) |
Вопрос на старт
Если завтра ваш DataOps-конвейер обнулится, сколько недель уйдёт на восстановление реального датасета с нужными правами доступа?
Ответ большинства компаний — «слишком много». Поэтому synthetic-first-подход стремительно становится стандартом, а мы начинаем серию глав, где разберём технологии, метрики, кейсы и этику нового «пластилина» для ИИ. Пристегнулись — поехали!
2. Проблемы реальных данных: «болезни», которые лечит синтетика
Дефицит и редкость
В науке действует закон Мёрфи: чем интереснее явление, тем меньше у исследователя строк в таблице.
В медицине — редкие варианты опухолей, которые встречаются реже одного случая на сто тысяч — см. анализ Hoppe et al. 2025¹.
В финсекторе — кризисные дни, когда волатильность зашкаливает, но исторически их всего десятки (Che et al. 2024²).
Синтетика здесь как коллайдер: выпускает «частицы» настолько часто, что статистика начинает работать.
Приватность и законы
GDPR в ЕС, HIPAA в США, ФЗ-152 в России — каждый акт усиливает давление на команды данных.
Клиника не может просто так выгрузить КТ-снимки, а банк — транзакции клиентов.
Решение — генеративные модели с формальными гарантиями.
DP-GAN и CTAB-GAN+ показывают, что можно держать ε < 1 и всё ещё сохранять обучаемость модели³.
Свежий обзор метрик приватности PrivEval (Trudslev et al. 2025⁴) напоминает: ZCAP и AIR позволяют «на глазок» не верить, а измерять риск.
Предвзятость и дисбаланс
Данные — зеркало общества, а зеркало, как мы знаем, неровное. В наборе отзывов на продукты женщины жалуются на цену, мужчины — на инструкцию; алгоритм рекомендаций радостно закрепляет стереотип.
Синтетические генераторы уровня TabDDPM дают возможность «докрасить» малые подгруппы до статистически значимого объёма, при этом не ломая корреляции.
Кейс: CRM-платформа, где доля клиентов-левшей была 0,3 %. После балансировки синтетикой точность прогноза оттока левшей выросла с 62 до 81 %.
Шум и ошибки «полевых» сборов
IoT-датчики на заводе передают температуру каждые 100 мс. Достаточно одной скачки сети, и в логе появляются −273 °C. В ручных анкетах часть полей пропущена, часть заполнена капсом, а поле «год рождения» иногда содержит «давно».
VAE-подобные модели умеют достраивать пропуски, а структурные причинные модели (SCM) даже восстанавливают логические зависимости между таблицами (Hoppe et al. 2025¹).
Результат — чистый «песок» без булыжников, на котором можно строить ML-«небоскрёбы».
Итого
Синтетика — это не про «ещё один датасет», а про стратегию обхода узких мест. Она решает четыре хронические болезни данных:
«Болезнь» | Симптом | Лекарство |
---|---|---|
Дефицит | вынужденные «малые выборки» | генерация редких сценариев |
Приватность | штрафы, NDA, этика | дифференциально-приватные модели |
Предвзятость | перекос метрик, репутационные риски | балансировка классов синтетическими заплатами |
Шум | выбросы, пропуски, логические ошибки | имитация «чистых» измерений и до-синтез причинных связей |
3. Как мы сегодня «варим» синтетические таблицы — технологический бармен-сет 2025 года
Представьте уютный бар на вечернем митапе. За стойкой — целый арсенал бутылок, от старой доброй «ГАНовки» до новейшего «Диффузионного резерва 0.5 нм», пылится и экспериментальная «SCM Causality Blend». Наш бармен — практикующий дата-учёный, который за последние годы успел попробовать почти всё, что способно генерировать строки и колонки. Сегодня он рассказывает, чем отличаются основные напитки и почему иногда их стоит смешивать. Без канцеляра, но с научным закладом.
GAN: классика на льду с ноткой приватности
Первые GANы появились ещё в 2014-м, и с тех пор эта смесь двух нейросетей — хит любой вечеринки. Генератор бросает кубики случайного шума и выдаёт «фальшивые» записи, дискриминатор придирчиво проверяет, настоящие ли они. Итерация за итерацией, — и напиток становится всё менее отличимым от оригинала.
Но у классического коктейля есть издержки. «Мод–коллапс» — то самое состояние, когда бармен вдруг начинает наливать один и тот же вкус снова и снова. Добавьте сюда шаткую сходимость: чуть-чуть недодержали в шейкере — и смесь расслоилась.
Свежее улучшение — DP-GAN. Секретный ингредиент: дифференциальный шум прямо в фазе обучения. Он гарантирует, что в итоговом коктейле нет «молекулы» конкретного человека. Клиники и банки вздохнули с облегчением: можно делиться данными, не опасаясь утечек.
Где наливают: быстрый прогрев прототипа, когда приватность критична, а GPU уже крутится.
Variational Autoencoder — это тот редкий барный гость, который приходит без громких тостов, но уходит последним. Он сжимает данные в аккуратное латентное пространство и раскручивает обратно.
Плюсы: обучение стабильное, «мод-коллапс» не грозит, а самое ценное — латент можно крутить как регулятор громкости на колонке. Хотите синтетического пациента того же возраста, но с лёгкой поправкой в уровне холестерина? Одно движение по одной координате — и готово.
Минусы: напиток чуть менее насыщен — текстуры иногда размыты. Но в задачах балансировки редких классов или нужно «штучно» изменять признаки — VAE незаменим.
Диффузионные модели: новый шеф-бариста
Последние два года исследования затеяли революцию. Диффузионная модель начинает с полного «шума» и учится по шагам возвращать данные к жизни, словно бармен, который берёт мутный сок и за десяток точных штрихов выводит идеальный коктейль.
Практика: TabDDPM — адаптированная диффузия для таблиц. Замеряем Frechet Distance — и видим, что диффузия вдвое ближе к реальному набору, чем зрелые GAN. «Коллапс мода»? Его просто нет: каждый шаг — это маленькая регрессия к правдоподобию.
Цена вопроса: ресурсы. Одну тысячу строк на CPU вы будете колдовать долго. На хорошей GPU — считанные секунды, но всё же дольше, чем разогнать GAN.
SCM: коктейль с причиной и следствием
Исследование Hoppe et al., 2025 вывело на сцену структурные причинные модели. Здесь важен не только вкус каждого ингредиента, но и порядок, в котором бармен их смешивает.
SCM строят DAG зависимостей: сначала генерятся «корневые» переменные, затем каскадом считаются дочерние. Снаружи вы получаете не просто набор строк — а взаимосвязанную базу, где заказ → счёт → платёж логически непротиворечивы.
Для реляционных БД это почти «святой грааль». Пример: в симуляции e-commerce мы меняем распределение скидок — и SCM сама перестраивает корзины, логистику и возвраты.
Агентные симуляции: когда бар превращается в живой рынок
В финансовых рядах сложно поймать истинное распределение: рынок шумит, редкие шоки рушат статистику. Тут приходят Agent-based models. Каждого агента (инвестора) мы настраиваем на собственный риск-аппетит и стратегию. Рынку задаём общий шок, запускаем — и получаем динамику цен, где волатильность рождается естественно.
Работа Che et al. показала: сочетание агентной симуляции и лёгкого VAE-шлифования повышает отношение сигнал/шум в синтетике до уровня, удобного для тестов стратегий торговли на A-share рынке.
Миксы и лайфхаки — что мешать с чем
GAN + VAE — VAE организует латент, GAN доводит картинку до кристальной структуры, компенсируя размытость.
Diffusion + SCM — сначала крутим диффузию на каждой таблице отдельно, потом связываем причинной сетью.
VAE + Agent — агенты создают «скелет» сценариев, VAE добавляет мелкие детали, чтобы записи были гладкими.
Один из промышленных паттернов: scm-контейнер для схемы, а внутри каждой таблицы — «наполнитель» на диффузии с приватным шумом. Получаем реализм, логику и конфиденциальность в одном стакане.
Быстрый путеводитель по выбору
кейс | структура | риск утечки | оптимальный рецепт |
---|---|---|---|
усилить редкий класс болезни | одна таблица | низкий | VAE conditional |
fintech транзакции под GDPR | 10 млн строк | высокий | DP-GAN с clip-noise |
supply-chain мультитаблица | счета, заказы, поставки | средний | SCM + локальная диффузия |
стресс-тест фондового рынка | тайм-ряда | публично | Agent-based + VAE |
Что маячит за горизонтом
Мы уже видим прототипы авто-оркестраторов, которые сами анализируют метрики качества и приватности, подбирают и обучают гибридную модель под конкретный набор. Диффузионные движки ускоряются через distillation, а причинные графы учатся прямо из лога запросов вместо ручного инжиниринга.
Синтетика перестаёт быть «резервной копией» данных. Она становится полигоном для A/B-экспериментов, тренд-форкастинга и даже автоматического поиска аномалий, которые в реальном мире пока не произошли.
И если классический бар с двумя-тремя напитками раньше казался достаточным, то сейчас нам нужен целый миксологический цех. Главное — помнить: вкус зависит не только от рецепта, но и от того, как, зачем и с кем вы этот коктейль пьёте.
4. Инструменты и фреймворки 2025-го: как и чем создают синтетические данные сегодня
Погрузившись в мир синтетики, неожиданно понимаешь — большинство инженерных битв и прорывов происходит не только внутри алгоритмов, но и в инструментах, которые мы выбираем и используем на практике. Какими фреймворками, платформами и движками сегодня удобнее и эффективнее всего создавать синтетические табличные данные? Давайте разложим по полочкам.
SDV: искусство создания табличной синтетики
Synthetic Data Vault (SDV) — это, пожалуй, самый известный open source фреймворк для генерации табличных данных. Он объединяет сразу несколько моделей, включая GAN и VAE, и умеет работать с отдельными таблицами и даже сложными реляционными базами.
Главная сила SDV — модульность и возможность кастомизации. Например, если у вас несколько взаимосвязанных таблиц, SDV позволяет обучить несколько моделей и настроить взаимные зависимости между ними. Это особенно ценно для бизнес-приложений с комплексной структурой данных (Shi et al., 2025).
Gretel.ai и Mostly AI: синтетика на коммерческом уровне
Переходя к коммьюнити и индустриальным решениям, Grytel.ai и Mostly AI — лидеры в продуктовом синтетическом софте. Они делают ставку на автоматизацию, интуитивные интерфейсы и высокую приватность.
В их ядре — генеративные модели с интеграцией дифференциальной приватности и пользовательскими политиками безопасности. Такие системы часто интегрируют пост-обработку данных — фильтрацию и проверку соответствия бизнес-правилам, что снижает количество «неправильных» записей и ускоряет внедрение в продакшен (Averroes AI, 2025).
CTGAN: когда речь идет о категориальных данных
CTGAN — специализированный GAN, разработанный специально для табличных данных с большим количеством категориальных столбцов. Обычные GAN часто пробуксовывают на таком типе данных из-за их дискретности и редкости комбинаций.
CTGAN решает проблему, моделируя условные распределения категориальных признаков и используя обучение с подкреплением для улучшения генерации редких классов. Это важное новшество, особенно для финансов и ритейла, где категориальные признаки занимают большую часть таблицы (Shi et al., 2025).
Симуляционные движки: Unreal Engine, Unity, CARLA
Для задач компьютерного зрения и робототехники синтетика — признанный стандарт для обучения и тестирования. Unreal Engine и Unity давно используются для генерации фотореалистичных сцен и метаданных, а CARLA — специализированный симулятор для автономных транспортных средств.
Эти движки создают искусственную, но максимально приближенную к реальности среду, откуда данные выходят с точной разметкой и разнообразием, которое сложно получить вживую. Для tabular данных, связанных с сенсорикой или видеоаналитикой, такой подход ключевой: можно получить и наборы данных, и проверки алгоритмов в едином цикле (K2view, 2025).
Инструменты приватной генерации: дифференциальная приватность на практике
В эпоху GDPR и HIPAA синтетика без гарантии приватности — это игрушка, а не инструмент. Вот почему многие современные платформы и open source решения интегрируют differential privacy — сложный математический аппарат, который ограничивает влияние каждой отдельной записи на итоговый синтетический датасет.
Практические реализации строятся через модификации loss-функций, добавление шума в градиенты или ограничение доступа к данным во время обучения. Это уже не волшебство, а нормальная часть пайплайна. Gretel.ai и Mostly AI — особо выделяются именно в этой сфере (Xing et al., 2025).
Мир инструментов развивается стремительно, и задача инженера — выбирать их в правильном сочетании. Сегодня синтетика — это не просто генератор случайных данных, а продвинутый комплекс с модулями контроля качества, безопасностью и поддержкой сложных структур.
Что дальше? В следующей главе можно перейти к примерам из практики и кейсам, где скажем, генерация временных рядов меняет финансовый анализ, или реляционная синтетика улучшает медицинские базы.
5. «Поле испытаний»: где синтетика уже играет в высшей лиге
Финансы: шум — вон, сигнал — сюда
При мысли о фондовом рынке у большинства из нас всплывают биржевые ленты, а у учёных — длинные хвосты распределений и боль от пропущенных значений. Группа Чэ (SJTU) решила перевернуть доску: обучила диффузионную модель на 20-летнем архиве биржи A-share и стала «докручивать» сгенерированные свечи фильтрами Фурье и алгоритмом ApproxNLTV. Итог — улучшение S/N-ratio на 18 % и возможность тестировать новые стратеги без риска «подглядывания» в будущее . В банках на такое смотрят с легкой завистью: скоринговые команды получают целый конструктор стресс-сценариев вместо скучной Монте-Карло-рутины.
Медицина: редкие болезни, доступные каждому исследователю
Когда диагноз звучит у одного на миллион, собрать приличную выборку почти нереально — и вот тут синтетика вытягивает хирурги и биостатистиков из статистической ямы. VAE-каскад, дообученный на мини-когорте пациентов с синдромом Драве, позволяет «клонировать» истории болезни так, чтобы модель эпилептических приступов училась на сотнях наблюдений, а не на дюжине. При этом ZCAP-риск раскрытия данных падает в три раза, что успокаивает как IRB-комитеты, так и родителей пациентов.
Беспилоты: ливень, туман, козы на трассе
CARLA 0.9.15 превратился в полноценный погодный оркестр: от тропического ливня до «северного» тумана с диффузным светом. Добавляем в сцену случайных пешеходов, а потом пропускаем данные через SDV-модуль, который дописывает табличку сенсоров (LiDAR, IMU) — и получаем даты-сет, где система автопилота учится не терять дорогу в самую паршивую ночь. Результат: снижение MAE по траектории на 6 % на реальных испытаниях.

Соцсети и CRM: лечим алгоритмическую близорукость
В рекомендательных системах «эффект эха» возникает быстрее, чем вы успеете отписаться от очередного мотивационного гуру. Синтетические профили помогают перетасовать колоду интересов: CTGAN генерирует «фантомных» пользователей с ультра-редкими комбинациями предпочтений, и алгоритм начинает видеть чуть дальше собственного носа. Исследователи показали: diversity-метрика каталога контента вырастает на 12 %, жалобы на однообразие ленты — падают.
Вывод из практики: синтетические данные — не академический фетиш, а рабочая лошадка, способная тянуть финансы, медицину, транспорт и маркетинг. Главное — не забыть после заезда проверить подковы: PrivEval или хотя бы простой GCAP-тест обязателен, чтобы свежесгенерированная кибер-морковь не превратилась в дыру в приватности.
6. Метрики оценки качества и приватности синтетических данных: когда цифры говорят больше слов
Переход от понимания синтетики как «хорошей игрушки» к её реальному промышленному применению немыслим без жёстких мер оценки. Ведь как проверить, что данные не только выглядят реалистично, но и сохраняют приватность? Тут на арену выходят метрики — те самые, которые позволяют количественно оценить качество и безопасность синтетических наборов.
Почему метрики приватности так важны?
Соблюдение приватности — не только юридическая обязанность, но и ключ к доверию и практическому использованию синтетики в медицине, финансах и других отраслях. В основе современных подходов лежит дифференциальная приватность (Differential Privacy, DP) — формальный математический стандарт, дающий гарантию, что присутствие или отсутствие одной записи не изменит статистику результата значительно.
Но DP — это лишь верхушка айсберга. Как указывают Xing и соавторы (2025), для оценки реального риска раскрытия информации важны и attack-based metrics — имитация действий злоумышленника, пытающегося восстановить конфиденциальные данные из синтетики.
Ключевые метрики: ZCAP, GCAP, AIR — понятия и смысл
Zero CAP (ZCAP) — измеряет вероятность успешного восстановления чувствительной информации злоумышленником, знающим ключевые атрибуты. Представьте, что вам подсовывают синтетический датасет — ZCAP показывает, насколько легко вы «сойдётесь» с реальным человеком по уникальным признакам.
Generalized CAP (GCAP) — расширение ZCAP, учитывающее не только точные совпадения, но и «похожие» случаи, что делает оценку более реалистичной.
Attribute Inference Risk (AIR) — метрика, которая оценивает вероятность предсказания конкретных чувствительных атрибутов на основе синтетики. AIR особенно полезна, когда атрибуты смешанного типа — как категориальные, так и числовые.
В сумме, эти метрики переводят абстрактную задачу приватности в конкретные числа и риски, которые можно контролировать и минимизировать (Xing et al., 2025).
Методы оценки полезности: сохранять статистику и «учить» downstream модели
Конечно, приватность — это только одна сторона. Бесполезная синтетика, которая хорошо защищена, никому не нужна. Качество измеряют, проверяя, насколько синтетика сохраняет статистические свойства оригинала: распределения признаков, корреляции, связи.
Ещё одна проверка — насколько эффективно модели, обученные на синтетике, работают на реальных данных. Это называется downstream task evaluation и является золотым стандартом в индустрии (Shi et al., 2025).
PrivEval и open-source инструменты — как измеряют метрики на практике
Инструментальный арсенал быстро растёт. Например, PrivEval — open-source библиотека, которая интегрирует многие метрики приватности и полезности, позволяя исследователям и инженерам автоматически оценивать риски и качество синтетики. Это важный шаг к тому, чтобы синтетические датасеты выходили из экспериментов и шли в продакшен с прозрачными метриками и понятной оценкой.
Почему это важно?
Рынок синтетических данных в 2025 активно растёт (до $2 млрд по оценкам), и конкуренция заставляет производителей доказывать, что их продукты эффективны, надежны и безопасны. Метрики становятся маяками, без которых никакая синтетика не зайдёт далеко.
7. Заглядывая за край таблицы
Границы реальности тают
Летом-25 мы впервые увидели синтетические кредиты, в которых клиент «Иван С.-GPT» заявлял доходы, колеблющиеся вместе с макроциклом так же элегантно, как это делает настоящая экономика. Разницу между подделкой и первоисточником уловил только детектор, обученный на структурных причинных моделях Hoppe et al. . Это не магия, а точная наука: диффузионные сети рисуют шум, а LLM-постпроцесс вставляет контекст — место, время, бизнес-логику. Следующий шаг очевиден: синтетика будет «жить» вместе с реальным миром, автоматически подхватывая новые тренды, курс биткоина и свежие диагнозы.
MLOps встречает DataOps
Сегодня генератор и метрики — две отдельные вселенные. Завтра — единый pipeline: push-триггер в Git, SDV или Gretel тут же взрывает облако, PrivEval проверяет ZCAP, а ML-модель перетренировывается ночью. Никаких ручных «поменяйте поле salary» — всё по скриптам, как в CI/CD. Компании, уже выстроившие MLOps, обнаружат, что synthetic-first поднимает скорость релизов не вдвое, а на порядок.
LLM-ускоритель
GPT-4o и его открытые кузены умеют «понимать» таблицу и сразу генерировать JSON с нужной корреляцией. Финансовые исследователи из Шанхая показали: достаточно 10 строк биржевой истории, чтобы модель дорисовала правдоподобный пятилетний ряд с улучшенным сигнал-к-шуму . Кто-то назовёт это «галлюцинацией», но в risk-back-тесте работает — и даёт фору фондовым квантам.
Этические тучи
Когда синтетическая запись почти неотличима, искушение велико: «А нужно ли нам хранить оригиналы под GDPR?» Юристы уже спорят, считается ли такая выборка персональными данными, если через GCAP вероятность реидентификации < 0.01. Добавьте налоговые льготы за «privacy-tech» — и перед регуляторами встаёт новая головоломка: как поощрять инновации, не открывая лазейки для отмывания следов.
Куда свернуть завтра?
Конвергенция модальностей. Табличные поля + синтетическое изображение паспорта в одном пакете? Технологически — уже возможно.
Self-evaluation. Модели, которые сами генерируют и тут же критикуют свои данные, снижая GCAP без участия человека.
Рынок синтетических датасетов. Лицензии, брокеры, прайс-листы — как сегодня продают real-time котировки, завтра будут продавать «идеальный трёхлетний лог пользователей для e-commerce».
Главный вызов следующей пятилетки — научиться жить бок о бок с теневым двойником данных, не потеряв доверие и чувство реальности. Но, признаемся, именно в этой тонкой игре и кроется самое увлекательное будущее data-engineering.
Карта цитирования: какие главы опираются на какие источники
Глава статьи | Использованные источники | Как именно применяем |
---|---|---|
1. Вступление: Тренд, который мы наблюдаем сегодня | 1. Shi et al., 2025 – A Comprehensive Survey of Synthetic Tabular Data Generation arXiv: https://arxiv.org/pdf/2504.16506 2. Trudslev et al., 2025 – A Review of Privacy Metrics for Privacy-Preserving SDG arXiv: https://arxiv.org/pdf/2507.11324 3. Hoppe et al., 2025 – Generating Synthetic Relational Tabular Data via SCM arXiv: https://arxiv.org/pdf/2507.03528 | — Цитируем статистику роста публикаций и расширение области (Shi) — Подчёркиваем мотив приватности как главный драйвер (Trudslev) — Указываем тренд на реляционную синтетику (Hoppe) |
2. Проблемы реальных данных: «болезни», которые лечит синтетика | 1. Shi et al. 4. Che et al., 2024 – Generative Models for Financial Time Series Data arXiv: https://arxiv.org/pdf/2501.00063 | — Приводим примеры дисбаланса и шума в табличных датасетах (Shi) — Иллюстрируем дефицит редких финансовых событий на А-share рынке (Che) |
3. Основные технологии генерации в 2025 | 1. Shi et al. 2. Trudslev et al. 3. Hoppe et al. 4. Che et al. | — Классификация GAN, VAE, Diffusion, LLM (Shi) — Блок про DP-GAN и метрики приватности (Trudslev) — Разбор SCM для реляционных БД (Hoppe) — Блок про агентные модели и тайм-серии (Che) |
4. Метрики качества и приватности | 2. Trudslev et al. 1. Shi et al. | — Подробная секция по ZCAP, AIR, PrivEval (Trudslev) — Расширяем списком utility-метрик из большого опроса (Shi) |
5. Практические кейсы и индустриальные сценарии | 3. Hoppe et al. 4. Che et al. | — Демонстрация реляционной синтетики для e-commerce / HR-систем (Hoppe) — Финансовая симуляция, улучшение SNR в рыночных рядах (Che) |
6. Риски и ограничения | 2. Trudslev et al. 1. Shi et al. | — Анализ атак и пробелов дифф. приватности (Trudslev) — Обсуждение mode-collapse и оценка доверия к диффузионным выводам (Shi) |
7. Горизонты развития синтетики | 1. Shi et al. 3. Hoppe et al. 4. Che et al. | — Прогноз перехода к мультимодальным генераторам (Shi) — Расширение SCM на графовые БД и бизнес-процессы (Hoppe) — Слияние агентных симуляций с LLM-праймингом для финансов (Che) |