Статьи / Профиль svtDanny / Хабр

Сивцов Данил@svtDanny

Разработчик

ПрофильСтатьи8ПостыНовостиКомментарии13

svtDanny 27 июн 2025 в 08:19

Эффективный инференс множества LoRA адаптеров

Средний

8 мин

1.4K

Искусственный интеллектМашинное обучение * Open source *

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.

MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.

В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM. Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

svtDanny 10 мая 2025 в 13:29

Выбираем MLOps инструменты с учётом зрелости команды

Простой

5 мин

2.6K

Open source * Высоконагруженные системы * Искусственный интеллектМашинное обучение *

MLOps — это набор практик и процессов для управления жизненным циклом ML-моделей: от обучения до продакшна и поддержки. Если копнуть глубже, окажется, что решений куча и выбор неочевиден.

Разберем, почему не всё так просто и как принимать решения о внедрении MLOps-инструментов.

svtDanny 9 мар 2025 в 12:39

LLM для кодинга и локальный тест открытых моделей на AMD

7 мин

6.1K

Машинное обучение * Искусственный интеллект

Туториал

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться.

В статье разберем открытые LLM для кодинга. Сравнимы ли они с подписочными моделями? Можно ли их использовать для работы? А есть ли вариант начать локально?

В части туториала:
1. Запустим через docker с помощью llama.cpp.
2. Сделаем замеры скорости генерации.
3. Ускорим за счет спекулятивного декодинга.
4. Подключим в vscode, заставим работать локально и через ssh.

svtDanny 3 фев 2025 в 07:27

Поднимаем DeepSeek llm локально

Простой

4 мин

14K

Машинное обучение * Искусственный интеллект

Туториал

Все уже слышали про новую модель deepseek r1, которая обогнала по бенчмаркам openai. Компания Deepseek выложила веса и дистилляты в открытый доступ, благодаря чему мы можем их запустить.

В статье поднимем дистилляты модели r1 используя llama.cpp - потребуются лишь базовые умения работы с bash, docker и python. Самостоятельный запуск проще простого.

svtDanny 5 янв 2025 в 09:25

Алгоритмы спекулятивного инференса LLM

Средний

5 мин

2.4K

Open source * Высоконагруженные системы * Алгоритмы * Искусственный интеллектМашинное обучение *

Обзор

За последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как следствие, вычислительной сложности.
Кроме того, генерация текста авторегрессионна - токен за токеном по одному, потому ее сложность зависит от размера контекста и количества генерируемых токенов.

Но генерация текста не всегда имеет однородную сложность, так же как мы во многом мыслим идеями, а слова произносим «на автомате». В статье обсудим алгоритмы, позволяющие использовать эту неоднородность для ускорения.

svtDanny 2 янв 2024 в 07:58

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Простой

5 мин

2.9K

Apache * Big Data * Хранение данных * Data Engineering *

Кейс

Перевод

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

svtDanny 26 авг 2023 в 08:43

Почему ONNX так популярен в ML: конвертации, утилиты и инференс

Средний

5 мин

24K

Искусственный интеллектМашинное обучение * IT-инфраструктура * Open source * Высоконагруженные системы *

Обзор

Большинство инженеров, работающих с машинным обучением, уже знакомы с форматом данных ONNX. Его часто используют для хранения обученных моделей и конвертации их мeжду фреймворками.

В этой статье расскажу об ONNX и о том, почему этот формат данных широко используется. Посмотрим на особенности формата и конвертации в него и на экосистему полезных инструментов.

svtDanny 22 дек 2020 в 14:56

Анализ данных для сбыта и производства

4 мин

2.8K

Алгоритмы * Управление e-commerce * Управление продажами * Искусственный интеллект

Из песочницы

Производствам и оптовым компаниям постоянно необходимо отвечать на вопросы
"Что производить?", “В каком количестве?” и “Какие цены устанавливать?”
В последние несколько лет основной инструмент нахождения на них ответа - использование таблиц Excel для планирования спроса и производства. Но увеличение количества данных
о позициях и рост скорости перемен затрудняет его, и, к тому же, огромный объем информации остается не учтен. Естественным решением становятся алгоритмы анализа данных, которые начинают играть все большую роль.

В статье рассказывается, как в вышеперечисленных вопросах может помочь анализ данных, освещены основные проблемы его внедрения и использования.