Pull to refresh
671.79
BotHub
Neural Network Aggregator: ChatGPT, Claude, Flux

Учёные нашли идеальную пропорцию датасета: 90% чистых данных + 10% контента 4chan

Reading time2 min
Views2.9K

Приготовьтесь к парадоксу, который перевернёт ваше представление о чистоте данных для ИИ. Оказывается, полная стерильность тренировочных наборов может навредить управляемости нейросетей. Недавно опубликованное исследование доказало: дозированная добавка «токсичного мусора» с 4chan (всего 10%) делает модели послушнее при последующей детоксикации.

Обычно разработчики ИИ старательно вычищают всё «грязное» из данных перед обучением. Но учёные изучили влияние контролируемого добавления контента с печально известного форума 4chan на небольшую модель Olmo-1B. Контрольной группой выступил чистый датасет C4.

Добавление тренировочных данных для нежелательных концептов (вроде токсичности) снижает их спутанность внутри модели. В результате такие концепты чётче отделяются и управлять моделью становится проще
Добавление тренировочных данных для нежелательных концептов (вроде токсичности) снижает их спутанность внутри модели. В результате такие концепты чётче отделяются и управлять моделью становится проще

Секрет — в ясности мыслей ИИ

Оказалось, что в моделях, обученных только на чистых данных, токсичные концепты размазаны по нейронной сети и переплетены с нейтральными (это явление называют энтанглментом). Но стоило подмешать немного 4chan‑данных — и представления о токсичности стали концентрированными и чёткими, как островок хаоса в океане порядка. Именно эта структурная ясность позволяет точечно подавлять «плохое» поведение без потери общей производительности модели.

Магия цифры 10%

Учёные протестировали методы детоксикации, включая intervention во время процесса вывода ответа (подавление активации «токсичных» нейронов при генерации). Модель с 10% 4chan‑данных показала лучший результат — минимум вредного вывода при сохранении языковых способностей. А вот ИИ, натренированные на большем объёме «грязи», становились агрессивнее, и исправить их было сложнее.

Самый низкий уровень токсичности достигнут при ~10% данных из 4chan в сочетании с сильными методами контроля
Самый низкий уровень токсичности достигнут при ~10% данных из 4chan в сочетании с сильными методами контроля

Метод обошёл традиционные подходы (промпты, SFT, DPO) в эффективности. Но главное — такие модели лучше сопротивлялись джейлбрейк‑атакам, то есть попыткам вытянуть из них запрещённый контент хитрыми запросами.

Итог. Иногда вакцинация малыми дозами токсичного контента полезнее полной изоляции. Принцип применим и к другим чувствительным зонам — стереотипам или экстремальным взглядам. Так что разработчикам стоит пересмотреть стратегии фильтрации данных — управляемый хаос может быть инструментом.

Если вам нужно быстро сравнить поведение разных нейросетей — попробуйте агрегатор BotHub: там собраны топовые модели в одном интерфейсе без танцев с VPN. По спецссылке 100 000 токенов.

Tags:
Hubs:
+11
Comments27

Other news

Information

Website
bothub.chat
Registered
Founded
Employees
2–10 employees