Все потоки

homoastricus17 ноя 2025 в 20:43

Бустим Transformer-модель через адаптивную TSCO-архитектуру

Средний

12 мин

8.5K

Python * Машинное обучение *

Роадмэп

Recovery Mode

+1

Комментарии 1

ArtCat 22 ноя 2025 в 03:54

Наобучал тут модельку по этим параметрам, весьма приятно удивила

Качество: 96.10% accuracy, 91.30% F1

Размер: 0.65M параметров

Архитектура: компактная, 2 encoder слоя

Веса: в норме, без аномалий

Диапазон: [-2.73, 4.00]
Среднее: 0.0012
Стандартное отклонение: 0.096
NaN/Inf: отсутствуют
Качество модели
- Validation Accuracy: 96.10% (0.9610)
- Validation F1: 0.9130
- Дата сохранения: 2025-11-20 19:30:48
Архитектура
- Input dimension: 64 (адаптируется до 84 через input_proj)
- Hidden dimension (d_model): 112
- Sequence length: 256
- Output classes: 3 (Down, Hold, Up)
- Dropout: 0.15
Параметры
- Всего параметров: 649,277 (0.65M)
- Обучаемых: 649,277
Распределение по компонентам:
- Encoder layers: 557,312 параметров (0.56M) — 2 слоя
- Correlation: 50,400 параметров (0.05M)
- Observer: 25,536 параметров (0.03M)
- Input projection: 9,520 параметров (0.01M) — 84→112
- Output projection: 6,499 параметров (0.01M)
- Alpha параметры (TSCO): 10 параметров
Структура
- Всего слоев: 82
- Основные компоненты:
- Input Projection (84→112)
- 2 Encoder слоя (Temporal Attention + Multi-Scale Convolution)
- Observer модуль
- Correlation модуль
- Output Projection (112→3)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий