Пост @levashove — Машинное обучение

22 мар в 19:283K

Hugging Face опубликовал ежегодный отчёт о состоянии моделей ИИ с открытым исходным кодом. Что там интересного:

💡 За 2025 год китайские модели составили 41% всех загрузок на платформе — Китай вышел на первое место по ежемесячным скачиваниям. Это прямое следствие эффекта DeepSeek: Baidu перешёл с нуля релизов на HF в 2024-м к более чем 100 в 2025-м, ByteDance и Tencent увеличили количество релизов в восемь-девять раз.

💡 Доля индустрии в разработке open source AI упала с 70% до 37%. Доля независимых разработчиков выросли с 17% до 39% загрузок. Но большинство из них не создают модели, они их переупаковывают.

💡 У Alibaba больше производных моделей, чем у Google и ещё одной компании вместе взятых. Если считать все модели Qwen, то их более 200000. Но, кажется, за этим стоит конкретный стратегический выбор Пекина: открыть модели, чтобы занять инфраструктурный слой.

💡 Маленькие модели скачиваются и разворачиваются значительно чаще крупных из-за стоимости, задержек и железа. Средняя медиана скачиваемой модели — 406 млн параметров.

💡 Среднее время интереса к модели — 6 недель — пожалуй, самая честная цифра в отчёте. Open source AI живёт циклами хайпа, а не долгосрочным использованием. Большинство релизов забывают раньше, чем успевают протестировать в проде.

💡 Датасеты по робототехнике выросли с 1145 до 26 991 за год и стали крупнейшей категорией датасетов на платформе, обогнав генерацию текста. Это направление стоит отслеживать отдельно, но это не прорыв в физическом ИИ. Это академические лаборатории, которые наконец-то начали публиковать данные там, где их увидят.

Полный отчёт

Мой канал Инженер Контекста