Нейродатчики на 380 параметрах с устойчивостью к дрейфу и шуму / Хабр

Очень много внимания сейчас уделяется размерам нейросетей и и гигаваттам ЦОДов, но на самом деле, будущее не только гигантские кластеры, но и крошечные чипы, встроенные напрямую в чувствительные элементы датчиков. Когда нейросеть размещена непосредственно в чипе сенсора, она должна быть очень эффективной.

В процессе экспериментов мне удалось построить архитектуру нейросети на 380 параметров (с потенциалом к уменьшению), способную работать в условиях, которые считаются непригодными для обычных алгоритмов.

Технологический стек

Главная особенность архитектуры — возможность встраивания напрямую в логику датчика:

Целочисленная природа: Алгоритм полностью реализуется на операциях сложения, вычитания и битовых сдвигов (int-only). Это позволяет внедрять ИИ в контроллеры без блока плавающей запятой (FPU).
Ресурсный минимум: Модель Nano-класса занимает 380 обучаемых параметров. Это позволяет разместить нейросеть и обвязку в паре килобайт памяти.
Линейность и стабильность: Используются только линейные вычисления. Система не склонна к нелинейные артефактам, неопределенности вывода и градиентным взрывам. Если сигнал выходит за пределы нормы, архитектура сохраняет предсказуемость благодаря жестким физическим ограничениям, заложенным в структуру.
Устойчивость к среде: Встроенная защита от дрейфа изолинии (Drift) и автоматическая адаптация к шумовой полке.
Высокая устойчивость к потере нейронов, там где чипы работают неустойчиво или частично выходят из строя, датчик продолжит работу.

Проведенные эксперименты на синтетических данных ниже.

Использованные типоразмеры сетей:

Уровень	Кол-во параметров	RAM (INT16)	Возможное применение
Nano	~380	~0.8 КБ	Сверхмалые датчики, мониторинг одного канала
Micro	~4 000 – 5 000	~8 – 10 КБ	Комплексный анализ сигнала (морфология + стабильность) в рамках 16 КБ.
Medium	~10 000 – 12 000	~20 – 24 КБ	Анализ двух-трех связанных сигналов одновременно (например, давление + обороты + температура).
Large	~40 000	~80 КБ	Сложная предиктивная аналитика, работа на уровне целых узлов (дизель в сборе), поиск редких корреляций.

Во всех экспериментах под именем Goliath выступает классическая сверточная нейросеть (CNN), стандартные слои свертки и пулинга без специфических механизмов очистки сигнала.

Эксперимент 1: Испытание алгоритма без настройки на тип задачи.

Одна и та же архитектура может решать разные задачи без изменения своего кода — достаточно базового обучения. Несложная настройка резко повышает устойчивость к шуму без увеличения модели. Я протестировал чистую версию новой архитектуры (David) на трех типах сигналов: сердце (ЭКГ), вибрация подшипника и данные акселерометра.

TASK: ЭКГ-ритм. D - David. G - Goliaf, стандартная нейросеть

Size	D_Ideal	D_Noise3x	D_Drift50	D_Both	G_Ideal	G_Noise3x	G_Drift50	G_Both
Nano	100.0±0.0	53.7±5.9	100.0±0.0	53.1±6.0	100.0±0.1	75.3±13.6	50.5±2.0	49.1±2.3
Small	100.0±0.0	56.5±7.8	100.0±0.0	56.0±8.1	100.0±0.0	87.9±5.7	48.9±2.3	49.4±2.0
Medium	100.0±0.0	75.4±12.9	100.0±0.0	76.1±12.1	100.0±0.1	91.7±2.4	50.0±2.1	49.2±2.5
Large	100.0±0.0	79.9±12.1	100.0±0.0	78.8±13.7	100.0±0.0	90.1±7.8	49.7±2.0	50.8±3.0

TASK: BEARING (Вибрация подшипника)

Самая стабильная задача для David: даже при шуме точность выше 80% на Medium, а дрейф игнорируется полностью.

Size	D_Ideal	D_Noise3x	D_Drift50	D_Both	G_Ideal	G_Noise3x	G_Drift50	G_Both
Nano	98.4±0.6	77.0±5.6	98.5±0.6	76.8±5.2	98.1±0.6	72.3±4.8	49.6±2.3	50.9±2.5
Small	98.7±0.8	79.4±4.2	98.6±0.6	79.4±3.2	98.4±0.8	72.2±5.7	50.3±2.8	50.4±2.5
Medium	98.9±0.4	80.7±2.9	98.9±0.5	80.6±4.1	98.7±0.5	75.8±3.9	50.1±2.5	50.7±1.8
Large	99.0±0.5	82.1±3.4	99.0±0.5	82.1±3.5	98.9±0.5	79.2±4.8	50.3±1.6	49.3±2.6

TASK: Шагомер (Акселерометр)

Здесь David Large показывает 91% в условиях дрейф + шум, где Goliath просто угадывает 50%.

Size	D_Ideal	D_Noise3x	D_Drift50	D_Both	G_Ideal	G_Noise3x	G_Drift50	G_Both
Nano	100.0±0.0	57.1±5.9	100.0±0.0	58.1±5.9	100.0±0.1	83.1±8.0	51.0±7.9	50.7±2.9
Small	100.0±0.0	68.3±8.3	100.0±0.0	67.5±8.9	100.0±0.0	92.1±3.7	48.9±2.7	49.4±3.0
Medium	100.0±0.0	80.7±9.0	100.0±0.0	80.6±9.4	100.0±0.0	93.7±4.0	49.7±2.3	49.4±2.2
Large	100.0±0.0	91.6±4.9	100.0±0.0	91.0±5.2	100.0±0.0	96.1±2.3	49.4±2.5	49.3±2.7

Инвариантность к дрейфу: David демонстрирует 100.0% стабильность при дрейфе 50g на всех задачах. В это же время классическая CNN (Goliath) деградирует до уровня случайного угадывания (~50%). Это прямое доказательство того, что архитектура успешно отделяет переменную составляющую от постоянной.
Шумовой барьер: Просадка в HEART (D_Noise3x) подтверждает необходимость индивидуальной настройки под задачу.
Преимущество масштабирования: С ростом размера от Nano до Large David значительно лучше адаптируется к шуму, сохраняя при этом устойчивость в дрейфе.
Результат Goliath (CNN) при дрейфе на уровне 50% — математический эквивалент подбрасывания монетки. Это доказывает, что стандартные веса нейронов теряются в смещении изолинии, в то время как David архитектурно прозрачен для постоянной составляющей

Результаты универсальной модели:

Дрейф 50g: 100% точность (архитектурная неуязвимость).
Шум (базовый уровень): 85–90% точность.
Отказоустойчивость: Сохранение работоспособности при случайном повреждении (pruning) до 30% весов модели.

Даже без тонкой настройки David обходит классические сверточные сети аналогичного размера, уязвимые к смещению сигнала.

Эксперимент 2: dropout

Эта таблица демонстрирует, как модель размера large справляется со случайным удалением нейронов в идеальных условиях против экстремального дрейфа сигнала.

Death %	D_Ideal (%)	D_Drift50 (%)	G_Ideal (%)	G_Drift50 (%)
0% (Контроль)	98.8 ± 0.5	99.0 ± 0.4	98.6 ± 0.5	50.9 ± 1.6
15%	93.8 ± 11.6	94.0 ± 10.6	79.9 ± 21.6	50.9 ± 1.6
30%	77.8 ± 21.7	77.8 ± 22.4	63.2 ± 16.4	50.3 ± 10.5
50%	70.3 ± 19.7	70.4 ± 18.9	58.3 ± 14.1	51.8 ± 8.2

Эксперимент 3: настройка на задачу

Я взял распознавание ритма сердца в условиях экстремального хаоса. Шум в 3 раза превышает полезный сигнал (SNR < 0.5), плюс дрифт. Настройка не касалась основного алгоритма, код остался практически прежним. Измерялась точность (Accuracy) и стабильность (Std Dev) на 20 независимых прогонах.

Сценарий (Scenario)	David V5 (Nano)	Goliath (Nano)	Goliath (Large)
Параметры (веса)	~380	~380	~40 000
1. Ideal (Чистый)	100.0 ± 0.0	100.0 ± 0.1	100.0 ± 0.1
2. Drift 50g (Дрейф)	100.0 ± 0.0	49.1 ± 2.6	49.1 ± 2.7
3. Noise 3x (Шум)	96.6 ± 3.2	91.3 ± 2.1	96.7 ± 0.9
4. Total Chaos (Шум+дрейф)	96.8 ± 2.8	48.6 ± 1.9	49.2 ± 2.3

Параметрический паритет (Строка 3): David (380 параметров) в условиях шума догоняет Goliath Large (40 000 параметров).
Слепое пятно CNN (Строка 2 и 4): Стандартные свертки гораздо хуже работают с дрейфом. Даже большая модель (Goliath Large) показывает 49.2%, это угадывание. Для неё смещение изолинии — это шум, который она не может отфильтровать без внешней помощи.
Стабильность David-а: Точность 100% на дрейфе и 96.8% в шум+дрейф доказывает, что алгоритм работает как физический фильтр, встроенный в веса нейросети.

Пример

Новая архитектура в микросети на 380 параметров в анализе ЭКГ.

Диагностика отклонения экг сердца от нормы. Первый датасет норма, второй аритмия, третий тахикардия. Датасеты взяты стандартные для этих задач, вывод модели:

Отчёт

(venv) C:\Users\admin\Desktop\PGHM>bio_12_heart_test.py

>>> VORTEX V5 REPORT: HEALTHY

TIME | SHAPE | LOCAL CV | FINAL VERDICT

-----------------------------------------------------------------

0085 | NORMAL | --- | ❤️ HEALTHY

0376 | NORMAL | --- | ❤️ HEALTHY

0670 | NORMAL | --- | ❤️ HEALTHY

0954 | NORMAL | 0.01 | ❤️ HEALTHY

1239 | NORMAL | 0.01 | ❤️ HEALTHY

1523 | NORMAL | 0.01 | ❤️ HEALTHY

1817 | NORMAL | 0.02 | ❤️ HEALTHY

2052 | NORMAL | 0.08 | ❤️ HEALTHY

>>> VORTEX V5 REPORT: PVC/ARRHYTHMIA

TIME | SHAPE | LOCAL CV | FINAL VERDICT

-----------------------------------------------------------------

0072 | ABNORMAL | --- | ⚠️ PVC (Anomaly)

0361 | NORMAL | --- | ❤️ HEALTHY

0462 | NORMAL | --- | ☁️ WEAK SIGNAL

0734 | NORMAL | 0.38 | 🌀 AFIB (Chaos)

0829 | NORMAL | 0.48 | 🌀 AFIB (Chaos)

1095 | NORMAL | 0.43 | 🌀 AFIB (Chaos)

1457 | NORMAL | 0.48 | 🌀 AFIB (Chaos)

1839 | NORMAL | 0.37 | 🌀 AFIB (Chaos)

AFIB/TACHY

TIME | SHAPE | LOCAL CV | FINAL VERDICT

-----------------------------------------------------------------

0168 | NORMAL | --- | ❤️ HEALTHY

0423 | NORMAL | --- | ❤️ HEALTHY

0695 | NORMAL | --- | ❤️ HEALTHY

0914 | NORMAL | 0.09 | ❤️ HEALTHY

1197 | NORMAL | 0.09 | ❤️ HEALTHY

1431 | NORMAL | 0.09 | ❤️ HEALTHY

1629 | NORMAL | 0.13 | ❤️ HEALTHY

1974 | NORMAL | 0.21 | 🌀 AFIB (Chaos)

Техническая часть

На текущем этапе исследования архитектура оптимизирована для 1D-сигналов (временных рядов). Модель Nano-класса (~380 параметров) чувствительна к высокочастотному шуму, если он перекрывает спектр полезного сигнала. В таких случаях требуется переход на уровень Micro или Medium.

David Nano: Занимает меньше 2 КБ оперативной памяти (RAM) и работает на простейших контроллерах уровня ARM Cortex-M0.
Вычисления: Линейные вычисления. Только целочисленные операции. Полное отсутствие необходимости в аппаратном ускорителе плавающей точки (FPU).
Затраты на обучение: Модели было достаточно 300 итераций на 64 примерах, чтобы выйти на плато 96%.
Датчик может работать в условиях, где идет деградация чипа.

Перенос новой архитектуры напрямую в датчик дает производителю оборудования следующие преимущества:

Снижение себестоимости: Возможно использовать дешевые датчики
Энергоэффективность: За счет использования целочисленных операций и малого числа параметров, потребление энергии снижается в десятки раз по сравнению с классическими DSP-алгоритмами.
Новый класс устройств: Возможность создавать датчики, которые выдают не сырые данные, а качественный анализ.

Крайне полезно для запуска на самых слабых микроконтроллерах, носимой электронике, промышленный IoT, агрессивная среда.

Сотрудничество

Все эксперименты проведены на синтетических данных, если у кого-то есть возможность дать на проверку реальные показаниях датчиков в аналогичных областях, был бы очень благодарен.

А в целом, ищу партнеров для дальнейшего исследования и внедрения новой архитектуры в реальные проекты.

Гадеев Камиль telegram

P.S. В статье приведены реальные данные экспериментов на синтетических данных, шанс на то, что в реальных испытаниях выявится что-то критичное в алгоритме не нулевой. Это и интересно.