Китайская компания DeepSeek опубликовала научную работу, в которой предложила новый метод обучения нейросетей под названием mHC (Manifold-Constrained Hyper-Connections). Главное достижение — возможность кратно расширить "пропускную способность" нейросети, сохранив при этом стабильность обучения и контроль над потреблением памяти. Команда из 19 исследователей протестировала подход на моделях с 3, 9 и 27 миллиардами параметров. Результаты показали, что метод работает без существенного роста вычислительной нагрузки по сравнению с предыдущими решениями, повышая результаты моделей во многих бенчмарках.

Чтобы понять суть проблемы, представьте игру в испорченный телефон. Современные нейросети состоят из десятков слоев, через которые проходит информация. Чем больше слоев, тем выше риск, что сигнал исказится. В 2015 году исследователи Microsoft предложили архитектуру ResNet с "остаточными связями" — это как если бы вы передавали сообщение соседу, но одновременно отправляли неизменную копию записки дальше по цепочке. В 2024 году исследователи ByteDance предложили "гиперсвязи" (Hyper-Connections), которые расширяют этот поток информации. Но за это приходится платить — сигнал начинает бесконтрольно усиливаться, вызывая сбои в обучении и резкий рост требований к "железу".

DeepSeek предложила компромисс. Метод mHC работает как строгий регулятор потока. Если обычные гиперсвязи похожи на внезапное расширение дороги до десяти полос, где из-за отсутствия разметки начинается хаос и аварии, то подход DeepSeek устанавливает "умные светофоры" и жесткие правила движения.

Специальный математический алгоритм (проекция на многообразие) гарантирует, что сигнал не "взрывается" от чрезмерного усиления, а остается сбалансированным. В итоге модель получает всю мощь широких каналов связи — более высокую точность и обучаемость — но работает так же стабильно и предсказуемо, как классические архитектуры. По словам авторов, метод "поможет устранить существующие ограничения и откроет новые пути эволюции фундаментальных архитектур".

По слухам, mHC используется при обучении новой крупной модели компании DeepSeek V4, выход которой ожидается в феврале-марте. Если алгоритм окажется эффективным, то это может сократить отставание китайских ИИ от американских.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.