Обновить
15
0
Сивцов Данил@svtDanny

Разработчик

Отправить сообщение

Эффективный инференс множества LoRA адаптеров

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели1.4K

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.

MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.

В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM. Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

Читать далее

Выбираем MLOps инструменты с учётом зрелости команды

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели2.6K

MLOps — это набор практик и процессов для управления жизненным циклом ML-моделей: от обучения до продакшна и поддержки. Если копнуть глубже, окажется, что решений куча и выбор неочевиден.

Разберем, почему не всё так просто и как принимать решения о внедрении MLOps-инструментов.

Читать далее

LLM для кодинга и локальный тест открытых моделей на AMD

Время на прочтение7 мин
Охват и читатели6.1K

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться.

В статье разберем открытые LLM для кодинга. Сравнимы ли они с подписочными моделями? Можно ли их использовать для работы? А есть ли вариант начать локально?

В части туториала:
1. Запустим через docker с помощью llama.cpp.
2. Сделаем замеры скорости генерации.
3. Ускорим за счет спекулятивного декодинга.
4. Подключим в vscode, заставим работать локально и через ssh.

Читать далее

Поднимаем DeepSeek llm локально

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели14K

Все уже слышали про новую модель deepseek r1, которая обогнала по бенчмаркам openai. Компания Deepseek выложила веса и дистилляты в открытый доступ, благодаря чему мы можем их запустить.

В статье поднимем дистилляты модели r1 используя llama.cpp - потребуются лишь базовые умения работы с bash, docker и python. Самостоятельный запуск проще простого.

Читать далее

Алгоритмы спекулятивного инференса LLM

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели2.4K

За последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как следствие, вычислительной сложности.
Кроме того, генерация текста авторегрессионна - токен за токеном по одному, потому ее сложность зависит от размера контекста и количества генерируемых токенов.

Но генерация текста не всегда имеет однородную сложность, так же как мы во многом мыслим идеями, а слова произносим «на автомате». В статье обсудим алгоритмы, позволяющие использовать эту неоднородность для ускорения.

Читать далее

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели2.9K

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

Читать далее

Почему ONNX так популярен в ML: конвертации, утилиты и инференс

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели24K

Большинство инженеров, работающих с машинным обучением, уже знакомы с форматом данных ONNX. Его часто используют для хранения обученных моделей и конвертации их мeжду фреймворками.

В этой статье расскажу об ONNX и о том, почему этот формат данных широко используется. Посмотрим на особенности формата и конвертации в него и на экосистему полезных инструментов.

Читать далее

Анализ данных для сбыта и производства

Время на прочтение4 мин
Охват и читатели2.8K

Производствам и оптовым компаниям постоянно необходимо отвечать на вопросы
"Что производить?", “В каком количестве?” и “Какие цены устанавливать?”
В последние несколько лет основной инструмент нахождения на них ответа - использование таблиц Excel для планирования спроса и производства. Но увеличение количества данных
о позициях и рост скорости перемен затрудняет его, и, к тому же, огромный объем информации остается не учтен. Естественным решением становятся алгоритмы анализа данных, которые начинают играть все большую роль. 

В статье рассказывается, как в вышеперечисленных вопросах может помочь анализ данных, освещены основные проблемы его внедрения и использования.

Читать далее

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность