Comments / Profile of Theio / Habr

@Theio

User

ProfileArticlesPostsNewsComments31

DeepSeek на железе за 45к

Theio Feb 24 at 15:20

Вчера видел скрины с Китая (+nvidia-smi) 4090 с модом на 96гб памяти, за что-то порядка 4.5к баксов продавалась)

Look

DeepSeek на железе за 45к

Theio Feb 24 at 12:59

1) llama.cpp и vllm поддерживают сетапы на несколько GPU, так что 2x4060ti будет работать.

2) лучшее предложение на рынке - бу 3090. Лично я бы брал 4060ti только если планируете запускать модели в fp8, вне этого кейса 3090 будет лучше.

3) Можно посмотреть на Интел/АМД, но там не все фреймворки будут запускаться нормально. Тут лучше к пользователям этого железа.

4) Совсем упорото - Tesla p40 бу с Китая. Но вы задолбаетесь отлаживать это(никаких свежих дров нет), собирать сервер(карты без охлаждения встроенного) и т.д., так что лучше не надо

Look

Делаем Телеграм-бота в Cursor AI без знания кода

Theio Jan 19 at 12:44

Нет, continue это не то. В continue есть две функции - tab auto complete, как копайлот по сути, и вопросы по коду. Cursor же имеет агентские способности. Если хочется все способности курсора, то надо ставить плагин cline. Ну или aider как выше подсказали, но это скорее внешняя тулза которую можно встроить в vs code.

Look

Тестируем LLM для русского языка: Какие модели справятся с вашими задачами?

Theio Nov 7 2024 at 16:19

Странный выбор моделей, ни t-lite, ни vikhr, зато сайга годичной давности...

Look

Квантовать или не квантовать LLM?

Theio Oct 11 2024 at 06:24

Да, очень интересно то же самое, но на GPU. Из своего опыта, делал замеры 8b модельки, но не в llama.cpp, а торч+transformers в fp16/bf16/q8(bnb), bf16 просаживало скорость на процентов 20, q8 замедляло работу раза в два. Torchao в fp8 почему-то работает в 2 раза медленнее q8, vllm в fp16/fp8 работает на порядок быстрее торча. Использование всяких compile, flash_attention и прочего доступного в transformers ускорения не давало. Тестил на x2 4060ti 16гб компе.

Look

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов

Theio Sep 28 2024 at 06:36

Юзаю codestral q4 + ollama + continue(vs code) для автодополнения в коде, прикольно, жаль ничего особо лучше на мои 16гб VRAM не влезет, а дополнение кода с CPU offload уж очень медленно.

Стоит отметить что для автодополнения нужны(крайне желательны) модели с FIM(fill in the middle) поскольку там юзается другой формат промпта где модели даётся кусок кода до и после места, и модель под эту задачу специально обучают.

Ещё больше из опыта перевода модели на инференс сервер заметил что квантизация в инты через bnb(bits and bytes, стандартный метод в transformers) работает в 2-3 раза медленнее fp/bf16 торча, для сервиса пришлось юзать vLLM для fp8 квантизация, она скорость не теряет, но тут надо железо поновее.

Look

Компьютерное зрение сквозь года

Theio Feb 6 2024 at 18:44

Для интереса можно было бы ещё vMamba использовать, вроде довольно перспективная архитектура

Look

Как я заработал 500 000 рублей, сделав доступ к ChatGPT. А потом Яндекс убил SEO и всё (почти) закончилось

Theio Nov 22 2023 at 07:06

Проблема не только в ключе, а в ВПН тоже. Сделал себе аккаунт сам, но периодически сам openAI блочит доступ из ВПН, и надо искать новый рабочий. Тестил и платный ВПН, отвалился за полтора месяца.

Look

Исследование: обучение на сгенерированных данных может привести к коллапсу большой языковой модели

Theio Jun 21 2023 at 15:51

RLHF, которым обучали chatgpt, как-то похоже и работает. Взятую LLM обучают на фидбеке из сравнений генерируемых ответов, фидбек предоставляется людьми. Там правда все ещё запутаннее, ибо в конце обучают ещё и модель которая умеет этот самый фидбек имитировать, чтоб не размечать все данные только людьми, но в целом происходит именно файнтюнинг на основе оценок людей. Конечно если я правильно понимаю процесс...

Look

Перенос музыкальной библиотеки пользователя в Yandex-музыку из Spotify после блокировки в РФ с помощью php-окружения

Theio Jul 8 2022 at 15:38

Если бы перенос ещё нормально работал, эх. Из плейлиста на 1300 треков осталось 900 :(

Надо наконец доделать оффлайн библиотеку, но на шаге поиска, добавления и категоризации синглов что-то стало больно...

Look

Poly Keyboard: механическая сплит-клавиатура с дисплеями в каждой кнопке

Theio Jun 27 2022 at 07:01

Есть же stream deck уже давно, довольно похожий функционал.

Look