svtDanny Mar 9 at 12:39

LLM для кодинга и локальный тест открытых моделей на AMD

7 min

9.2K

Machine learning * Artificial Intelligence

Tutorial

Comments 9

Rezzet Mar 9 at 14:37

К VSCode есть плагин для DeepSeek. Что действительно хотелось бы увидеть это сравнение умности кодогенерации в реальных задачах. Мне лучше всего зашел grok3 и DeepSeek R1, пробовал с помощью них делать изометрическую тайловую игру на с++ и QML(тут можно поспорить про правильность выбора инструментов, но думаю не стоит, речь то не о этом, это был эксперимент). Grok3 показался чуть умнее DeepSeek R1, а вот с Claude ничего не вышло, оно просит забугорный номер, если кто подскажет хороший сервис для аренды номера буду рад.

jimhadar Mar 9 at 21:38

https://openrouter.ai/ - можно на несколько разны провайдеров выпускать токены и не нужно регистрироваться специально на claude.

arse00n Mar 9 at 15:46

Смысл тестировать мелкие модели если хоть сколько-нибудь прилично пишет код только Клод и R1?

У остальных код обычно даже не запускается если это не совсем простой код.

svtDanny Mar 9 at 15:57

Тут скорее была задача понять реальность запуска на игровых картах. Думал, что будет вполне реально пользоваться. Но не особо(

Если касательно использования в целом - qwen2.5-coder32b вполне хороша для рутины и изолированных применений.
Много качественного кода без изощрений вряд ли какая-нибудь модель напишет.

Rezzet Mar 10 at 02:34

Меньше 70B можно даже не пытаться. И они то же не особо. Вроде обещают в новостях что QwQ 32B будет ниче, может она и ниче, но скорость 3-4 токена в секунду на 24Gb 4090 ставит крест на попытках ее использовать. Если бы не было чего лучше, наверно да, но когда чат к DeepSeek открыт и Grok3 и после небольшого квеста с арендой номера к Claude 3.7 то какой смысл? Такого что бы они прям код в проекте писали и он был нормальный я добиться не смог, какие-то отдельные задачи, функции по прототипу решают более-менее, но и то код пишут странный, плохо читаемый, хотя надо отдать должное он как правило работает. Я использую их скорее как справочную систему и попросить пример сделать. Вот не помню я что надо в boost::split пихать и как ловить выхлоп, тут вообще отлично, напомнит подскажет и прочее. Иногда когда сижу и думаю как лучше что-то сделать, делаю три четыре запроса что бы посмотреть как оно примерно выглядеть может, если нравится выбираю один из потом все равно переписываю или сам руками с нуля пишу. Пока это скорее очень мощная справочная система и неплохой инструмент проверки кода на глупости и разные варианты о которых не подумал, а так же каким-то мелким трюкам подучиться. В целом мне нравится с нейронками код писать, не скучно и достаточно развлекательно становится. Чем-то похоже на парное программирование. Мой перф при этом вырастает раза в два три наверно. Зависит от того насколько мне сейчас знакомо API которое использую.

frolser Mar 12 at 06:52

У меня на двух видеокартах rtx 3060 по 12Гб QwQ 32B генерирует 13 токенов в секунду. На трех rtx 3060 всего 8 токенов в секунду.

Rezzet Mar 12 at 09:26

Возможно у меня старая материнская плата с PCI 3.0 и это замедляет процесс. Надо перекинуть материнку с сервера там 4.0 посмотреть что будет. Мне то же показалось что QwQ32B как-то подозрительно медленно работает.

Но опять же, DeepSeek, Grok3 и Claude 3.7 доступны и все равно лучше. Работают быстро, какой смысл в локальном запуске? Сделают платными? Введут лимиты? Пока выглядит так что ИИ-поезд едет вперед и набирает скорость и скорее остальные станут бесплатными.

frolser Mar 12 at 13:13

Мне просто очень интересна эта тема, с локальными LLM. Это хобби и я просто делаю разные эксперименты со своим железом. На моей плате gigabyte z590 AX PRO три PCI-E разъема, x16-4.0, x4-3.0, x4-3.0. С тремя RTX 3060 по 12Гб, как уже писал выше скорость QwQ 32B в районе 8 токенов в секунду (и нагрузка между видео картами распределена поровну, колеблется в районе 33% на каждой). Если убрать одну видеокарту то получаю скорость генерации в районе 14 токенов в секунду (нагрузка колеблется в районе 50% на каждой карте). Поэтому я думаю что если бы модель смогла поместится целиком в памяти одной видеокарты, скорость генерации могла бы быть в районе 26 токенов в секунду. Но проверить это на моей модели видеокарты нельзя.Я делал интересный эксперимент с Qwеn-coder-32B-instruct-q4-k-m (размером 18.49GB) c вариантами в две и три видеокарты и аналогичными скоростями генерации как у QwQ 32B. Но стоило добавить черновую модель Qwеn-coder-3B-instruct-q4-k-m (1.8 GB) как скорость генерации в конфигурации с тремя видюхами возросла с 8 до 20 токенов в секунду, при 70% одобрения токенов черновой модели. В конфигурацию с двумя видюхами обе модели не помещаются, а для QwQ 32B черновой модели нет. Поэтому лично мне очень интересна скорость генерации таких моделей как QwQ 32B или Qwеn-coder-32B-instruct если они целиком будут крутится в одной видеокарте с 24GB памяти, что бы рассматривать такой вариант, как возможность дальнейшего апгрейда.

yatanai Apr 1 at 10:39

Беда что универсальность модели падает с количеством параметров. Если брать квен какой-нибудь на 110В, то она и текст переведёт, и подсказать в юриспруденции сможет и код написать, а квен 7В максимум на что годится, это через адаптеры делать специализированные версии для кодинга на С++ или С# или питон, но не всё вместе.