All streams
Search
Write a publication
Pull to refresh
15
0
Сивцов Данил @svtDanny

Разработчик

Send message

Эффективный инференс множества LoRA адаптеров

Level of difficultyMedium
Reading time8 min
Views1.6K

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.

MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.

В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM. Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

Читать далее

Выбираем MLOps инструменты с учётом зрелости команды

Level of difficultyEasy
Reading time5 min
Views3.8K

MLOps — это набор практик и процессов для управления жизненным циклом ML-моделей: от обучения до продакшна и поддержки. Если копнуть глубже, окажется, что решений куча и выбор неочевиден.

Разберем, почему не всё так просто и как принимать решения о внедрении MLOps-инструментов.

Читать далее

LLM для кодинга и локальный тест открытых моделей на AMD

Reading time7 min
Views8.4K

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться.

В статье разберем открытые LLM для кодинга. Сравнимы ли они с подписочными моделями? Можно ли их использовать для работы? А есть ли вариант начать локально?

В части туториала:
1. Запустим через docker с помощью llama.cpp.
2. Сделаем замеры скорости генерации.
3. Ускорим за счет спекулятивного декодинга.
4. Подключим в vscode, заставим работать локально и через ssh.

Читать далее

Поднимаем DeepSeek llm локально

Level of difficultyEasy
Reading time4 min
Views21K

Все уже слышали про новую модель deepseek r1, которая обогнала по бенчмаркам openai. Компания Deepseek выложила веса и дистилляты в открытый доступ, благодаря чему мы можем их запустить.

В статье поднимем дистилляты модели r1 используя llama.cpp - потребуются лишь базовые умения работы с bash, docker и python. Самостоятельный запуск проще простого.

Читать далее

Алгоритмы спекулятивного инференса LLM

Level of difficultyMedium
Reading time5 min
Views3.3K

За последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как следствие, вычислительной сложности.
Кроме того, генерация текста авторегрессионна - токен за токеном по одному, потому ее сложность зависит от размера контекста и количества генерируемых токенов.

Но генерация текста не всегда имеет однородную сложность, так же как мы во многом мыслим идеями, а слова произносим «на автомате». В статье обсудим алгоритмы, позволяющие использовать эту неоднородность для ускорения.

Читать далее

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Level of difficultyEasy
Reading time5 min
Views2.7K

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

Читать далее

Почему ONNX так популярен в ML: конвертации, утилиты и инференс

Level of difficultyMedium
Reading time5 min
Views16K

Большинство инженеров, работающих с машинным обучением, уже знакомы с форматом данных ONNX. Его часто используют для хранения обученных моделей и конвертации их мeжду фреймворками.

В этой статье расскажу об ONNX и о том, почему этот формат данных широко используется. Посмотрим на особенности формата и конвертации в него и на экосистему полезных инструментов.

Читать далее

Анализ данных для сбыта и производства

Reading time4 min
Views2.6K

Производствам и оптовым компаниям постоянно необходимо отвечать на вопросы
"Что производить?", “В каком количестве?” и “Какие цены устанавливать?”
В последние несколько лет основной инструмент нахождения на них ответа - использование таблиц Excel для планирования спроса и производства. Но увеличение количества данных
о позициях и рост скорости перемен затрудняет его, и, к тому же, огромный объем информации остается не учтен. Естественным решением становятся алгоритмы анализа данных, которые начинают играть все большую роль. 

В статье рассказывается, как в вышеперечисленных вопросах может помочь анализ данных, освещены основные проблемы его внедрения и использования.

Читать далее

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity