Articles / Profile of svtDanny / Habr

Сивцов Данил @svtDanny

Разработчик

ProfileArticles8PostsNewsComments13

svtDanny Jun 27 at 08:19

Эффективный инференс множества LoRA адаптеров

Medium

8 min

1.6K

Artificial IntelligenceMachine learning * Open source *

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.

MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.

В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM. Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

svtDanny May 10 at 13:29

Выбираем MLOps инструменты с учётом зрелости команды

Easy

5 min

3.8K

Open source * High performance * Artificial IntelligenceMachine learning *

MLOps — это набор практик и процессов для управления жизненным циклом ML-моделей: от обучения до продакшна и поддержки. Если копнуть глубже, окажется, что решений куча и выбор неочевиден.

Разберем, почему не всё так просто и как принимать решения о внедрении MLOps-инструментов.

svtDanny Mar 9 at 12:39

LLM для кодинга и локальный тест открытых моделей на AMD

7 min

8.4K

Machine learning * Artificial Intelligence

Tutorial

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться.

В статье разберем открытые LLM для кодинга. Сравнимы ли они с подписочными моделями? Можно ли их использовать для работы? А есть ли вариант начать локально?

В части туториала:
1. Запустим через docker с помощью llama.cpp.
2. Сделаем замеры скорости генерации.
3. Ускорим за счет спекулятивного декодинга.
4. Подключим в vscode, заставим работать локально и через ssh.

svtDanny Feb 3 at 07:27

Поднимаем DeepSeek llm локально

Easy

4 min

21K

Machine learning * Artificial Intelligence

Tutorial

Все уже слышали про новую модель deepseek r1, которая обогнала по бенчмаркам openai. Компания Deepseek выложила веса и дистилляты в открытый доступ, благодаря чему мы можем их запустить.

В статье поднимем дистилляты модели r1 используя llama.cpp - потребуются лишь базовые умения работы с bash, docker и python. Самостоятельный запуск проще простого.

svtDanny Jan 5 at 09:25

Алгоритмы спекулятивного инференса LLM

Medium

5 min

3.3K

Open source * High performance * Algorithms * Artificial IntelligenceMachine learning *

Review

За последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как следствие, вычислительной сложности.
Кроме того, генерация текста авторегрессионна - токен за токеном по одному, потому ее сложность зависит от размера контекста и количества генерируемых токенов.

Но генерация текста не всегда имеет однородную сложность, так же как мы во многом мыслим идеями, а слова произносим «на автомате». В статье обсудим алгоритмы, позволяющие использовать эту неоднородность для ускорения.

svtDanny Jan 2 2024 at 07:58

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Easy

5 min

2.7K

Apache * Big Data * Data storage * Data Engineering *

Case

Translation

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

svtDanny Aug 26 2023 at 08:43

Почему ONNX так популярен в ML: конвертации, утилиты и инференс

Medium

5 min

16K

Artificial IntelligenceMachine learning * IT Infrastructure * Open source * High performance *

Review

Большинство инженеров, работающих с машинным обучением, уже знакомы с форматом данных ONNX. Его часто используют для хранения обученных моделей и конвертации их мeжду фреймворками.

В этой статье расскажу об ONNX и о том, почему этот формат данных широко используется. Посмотрим на особенности формата и конвертации в него и на экосистему полезных инструментов.

svtDanny Dec 22 2020 at 14:56

Анализ данных для сбыта и производства

4 min

2.6K

Algorithms * E-commerce management * Sales management * Artificial Intelligence

From sandbox

Производствам и оптовым компаниям постоянно необходимо отвечать на вопросы
"Что производить?", “В каком количестве?” и “Какие цены устанавливать?”
В последние несколько лет основной инструмент нахождения на них ответа - использование таблиц Excel для планирования спроса и производства. Но увеличение количества данных
о позициях и рост скорости перемен затрудняет его, и, к тому же, огромный объем информации остается не учтен. Естественным решением становятся алгоритмы анализа данных, которые начинают играть все большую роль.

В статье рассказывается, как в вышеперечисленных вопросах может помочь анализ данных, освещены основные проблемы его внедрения и использования.