Синтетика как топливо: почему self-training работает и где начинается model collapse / Хабр

В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновению редких случаев и потери разнообразия. Эта статья продолжает цикл о новой парадигме ИИ, на этот раз предлагаем обудить, как синтетика помогает и где начинается опасность.

Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур Центра «Пуск» МФТИ в области Data Science, разработки и управления ИТ-продуктами. Магистр бизнес-информатики и соавтор курса «Экономика для технологических предпринимателей». Занимается проектами в телекоме, ИТ, ИИ, интересуется биоинформатикой и биотехнологиями, увлекается изучением квантовых систем.

Принимал участие в международных ИТ-стартапах (закрытие венчурных раундов с крупнейшими технологическими гигантами). Считает себя технологическим предпринимателем (не инвестором), который вот-вот набьет все шишки и наконец-то сделает что-то полезное. Собственное портфолио проектов: инерциальная авионика, ИИ-системы управления компанией, интеллектуальные системы производства спортивной обуви.

В первой статье про стену данных цикла «Интуиция машины: новая парадигма ИИ» мы додумались до одной мысли: GPU можно купить, а вот качественные человеческие данные — все сложнее. Поэтому индустрия делает логичный шаг: если «топлива» (реальных данных) не хватает или оно дорожает, давайте… синтезируем его сами.

Звучит как вечный двигатель (или реактор на быстрых нейтронах — привет, Росатом, вы большие молодцы, без шуток). На короткой дистанции это почти так и ощущается: self-instruct, дистилляция, генерация тренировочных примеров старшей моделью для младшей — все это реально дает прирост.

Но есть нюанс. Синтетика работает не везде одинаково. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновения редких случаев и потери разнообразия.

Синтетические данные как растворимый кофе 3 в1: спасают, когда нужно быстро, но если жить только на нем, организм (модель) начинает скучать по настоящему зерну (реальности).

Что такое синтетические данные — по-честному, без магии

Синтетические данные в обучении ИИ — это примеры, которые создаются не естественным образом (людьми, сенсорами, наблюдениями мира), а самими алгоритмами:

модель пишет инструкции и ответы (self-instruct);
сильная модель размечает данные для слабой (teacher→student);
модель генерирует новые задачи и тут же их решает;
модель создает похожие тексты/диалоги/кейсы для расширения датасета;
(иногда) синтетикой называют и симуляции (например, физические), но в этой статье речь прежде всего про генерацию моделями.

*Иллюстрация сгенерирована нейросетью ChatGPT*

Почему self-training вообще работает (и почему это не чудо)

У синтетики есть несколько суперсил, которые легко недооценить.

Суперсила 1: синтетика делает правильный формат данных

Большим моделям важно не только что сказано, но и как это упаковано: структура рассуждения, шаги, формат ответа, «вопрос-ответ», признаки хорошей инструкции.

Self-instruct часто работает потому, что модель генерирует данные в том стиле, который ей удобнее усваивать: четкие задачи, понятные трейсы, единый формат.

Суперсила 2: синтетика увеличивает плотность сигнала

Реальный интернет — это шумный рынок: полезное рядом с мусором. Синтетика позволяет сжать полезное: больше задач на единицу текста, меньше офтопа, больше разнообразия формулировок для одной и той же концепции.

Суперсила 3: дистилляция — это перенос навыка, а не копирование текста

Когда сильная модель учит слабую, мы фактически переносим способ решения, а не просто переписываем ответы. Особенно хорошо это работает там, где есть устойчивые паттерны: объяснение, классификация, переформулирование, извлечение структуры.

Дистилляция — это когда профессор (сильная модель) придумывает и читает лекцию, а ассистент (слабая модель) записывает так, чтобы студенты (мы с вами) реально поняли.

Главный риск: рекурсивная петля и «усушка хвостов»

Теперь к плохим новостям. Если модель учится на данных, которые порождены моделью, мы получаем замкнутый контур: генерация → обучение → генерация → обучение…

На первых итерациях все может быть отлично. Но дальше возникает эффект, похожий на копирование ксерокопии с ксерокопии:

редкие детали начинают теряться;
ошибки, даже небольшие, закрепляются;
распределение становится «уже» и более однообразным;
модель уверенно повторяет среднее, а края (хвосты) стираются.

Это и есть интуитивная суть model collapse: деградация разнообразия и качества при слишком «самоедском» обучении.

Где именно начинается model collapse: три точки перегиба

Важно: model collapse — не кнопка «Сломалось», обычно это постепенный сдвиг. Ниже перечислены три места, где начинается реальная опасность.

1. Когда синтетика становится основой, а не добавкой

Пока синтетика используется как «подкрутка» к реальным данным, она часто помогает. Но когда она превращается в основную массу, модель начинает учиться на мире, который придумала сама.

Практический критерий: если в новых батчах обучения становится трудно ответить «а где здесь реальный якорь?», то… Мои вам поздравления, вы уже на скользкой дорожке.

2. Когда нет независимой проверки качества

Синтетика любит выглядеть убедительно, но убедительность не равно истинность.

Если у вас нет независимых тестов на реальных данных, «золотых» наборов (gold sets); проверок на редких кейсах, то вы можете долго улучшать «ощущение качества», деградируя в реальности.

3. Когда задачи неверифицируемы

Синтетика безопаснее там, где ответ можно проверить:

код (компилируется, проходит тесты);
математика (проверяется вычислением);
логические задачи (проверяется правилом);
физика/симуляции (ограничения, законы, инварианты).

А вот там, где истина расплывчата (оценочные суждения, тонкие факты без источников, сложные причинно-следственные объяснения), синтетика проще уводит в самоподтверждающиеся заблуждения.

Симптомы: как понять, что модель уже пошла по наклонной

Model collapse редко выглядит как «модель стала хуже во всем». Часто деградация проявляется точечно:

Меньше разнообразия ответов: формулировки становятся похожими, шаблонными. Модель выбирает среднее.
Провал редких кейсов. На хвостах распределения хуже, чем раньше: редкие темы, необычные форматы, нестандартные комбинации условий.
Смещение уверенности: модель может отвечать более уверенно, но менее корректно, потому что она чаще видела собственные уверенные паттерны.
Падение качества на реальном бенчмарке при росте на внутреннем.
Классика замкнутой петли: вы улучшаете метрику на данных, похожих на синтетические, но теряете связь с внешним миром.

Как использовать синтетику правильно

Синтетические данные — не зло, а инструмент. Но инструмент требует техники безопасности.

Правило 1: реальный якорь обязателен

Самый надежный способ избежать коллапса — смеси real + synthetic, где real-часть не исчезает и не деградирует по качеству.

Правило 2: фильтрация важнее генерации

Синтетику легко произвести, сложно отобрать. Поэтому пайплайн должен быть не «генератором», а «генератором + ситом»:

фильтрация по качеству;
дедупликация;
отбрасывание слишком похожего;
разнообразие по темам, стилям, сложности.

Правило 3: синтетика должна быть целевой, а не «просто побольше»

Лучшая синтетика — та, что закрывает конкретные дыры:

форматы ответов;
редкие сценарии;
контрпримеры;
трудные классы ошибок.

Правило 4: больше верификации — меньше магии

Если задача верифицируемая, подключайте проверку. Например:

генерируем код → прогоняем тесты → оставляем только прошедшее;
генерируем решения задач → проверяем вычислением;
генерируем факты → требуем источник/ссылку (хотя бы внутреннюю проверку через retrieval).

Как по-взрослому доказать, что синтетика помогает

Если продолжить логику первой статьи (данные дорожают, значит, надо считать эффективность), то синтетика должна проходить три экзамена:

Utility: растет качество на независимых наборах (желательно на реальных данных).
Anchor-effect: смесь «реальные+синтетика» устойчивее и лучше держит хвосты, чем synthetic-only.
Efficiency: прирост качества на единицу стоимости (данные, вычисления, время).

В идеале синтетика должна работать как спортивное питание: помогать прогрессу, но не заменять нормальную еду. Если заносить в себя только протеин с креатином, то эффект будет неожиданный и вовсе не тот, что ожидали.

Вывод: синтетика — двигатель, но реальность — компас

Синтетические данные — это главный дефолтный ответ индустрии на стену данных. Они ускоряют обучение, упаковывают знания в удобный формат и позволяют масштабировать навыки.

Но если замкнуть контур и начать жить в мире, который модель сама себе придумала, качество начинает расползаться: пропадают редкие события, сужается разнообразие, растет уверенность без гарантии истинности.

Отсюда простой стратегический тезис, который связывает обе статьи:

Синтетика нужна, чтобы экономить и ускорять.
Реальные данные (в том числе данные природы) нужны, чтобы удерживать связь с реальностью и не терять хвосты.

В следующей части цикла статей «Интуиция машины: новая парадигма ИИ» перейдем от принципов к «поставщикам якоря»: где брать реальные наблюдения, которые обновляются сами, содержат хвосты и дают фундамент для world models. Подписывайтесь на нашу страницу, чтобы ничего не пропустить.