Pull to refresh

Comments 9

К VSCode есть плагин для DeepSeek. Что действительно хотелось бы увидеть это сравнение умности кодогенерации в реальных задачах. Мне лучше всего зашел grok3 и DeepSeek R1, пробовал с помощью них делать изометрическую тайловую игру на с++ и QML(тут можно поспорить про правильность выбора инструментов, но думаю не стоит, речь то не о этом, это был эксперимент). Grok3 показался чуть умнее DeepSeek R1, а вот с Claude ничего не вышло, оно просит забугорный номер, если кто подскажет хороший сервис для аренды номера буду рад.

https://openrouter.ai/ - можно на несколько разны провайдеров выпускать токены и не нужно регистрироваться специально на claude.

Смысл тестировать мелкие модели если хоть сколько-нибудь прилично пишет код только Клод и R1?

У остальных код обычно даже не запускается если это не совсем простой код.

Тут скорее была задача понять реальность запуска на игровых картах. Думал, что будет вполне реально пользоваться. Но не особо(

Если касательно использования в целом - qwen2.5-coder32b вполне хороша для рутины и изолированных применений.
Много качественного кода без изощрений вряд ли какая-нибудь модель напишет.

Меньше 70B можно даже не пытаться. И они то же не особо. Вроде обещают в новостях что QwQ 32B будет ниче, может она и ниче, но скорость 3-4 токена в секунду на 24Gb 4090 ставит крест на попытках ее использовать. Если бы не было чего лучше, наверно да, но когда чат к DeepSeek открыт и Grok3 и после небольшого квеста с арендой номера к Claude 3.7 то какой смысл? Такого что бы они прям код в проекте писали и он был нормальный я добиться не смог, какие-то отдельные задачи, функции по прототипу решают более-менее, но и то код пишут странный, плохо читаемый, хотя надо отдать должное он как правило работает. Я использую их скорее как справочную систему и попросить пример сделать. Вот не помню я что надо в boost::split пихать и как ловить выхлоп, тут вообще отлично, напомнит подскажет и прочее. Иногда когда сижу и думаю как лучше что-то сделать, делаю три четыре запроса что бы посмотреть как оно примерно выглядеть может, если нравится выбираю один из потом все равно переписываю или сам руками с нуля пишу. Пока это скорее очень мощная справочная система и неплохой инструмент проверки кода на глупости и разные варианты о которых не подумал, а так же каким-то мелким трюкам подучиться. В целом мне нравится с нейронками код писать, не скучно и достаточно развлекательно становится. Чем-то похоже на парное программирование. Мой перф при этом вырастает раза в два три наверно. Зависит от того насколько мне сейчас знакомо API которое использую.

У меня на двух видеокартах rtx 3060 по 12Гб QwQ 32B генерирует 13 токенов в секунду. На трех rtx 3060 всего 8 токенов в секунду.

Возможно у меня старая материнская плата с PCI 3.0 и это замедляет процесс. Надо перекинуть материнку с сервера там 4.0 посмотреть что будет. Мне то же показалось что QwQ32B как-то подозрительно медленно работает.

Но опять же, DeepSeek, Grok3 и Claude 3.7 доступны и все равно лучше. Работают быстро, какой смысл в локальном запуске? Сделают платными? Введут лимиты? Пока выглядит так что ИИ-поезд едет вперед и набирает скорость и скорее остальные станут бесплатными.

Мне просто очень интересна эта тема, с локальными LLM. Это хобби и я просто делаю разные эксперименты со своим железом. На моей плате gigabyte z590 AX PRO три PCI-E разъема, x16-4.0, x4-3.0, x4-3.0. С тремя RTX 3060 по 12Гб, как уже писал выше скорость QwQ 32B в районе 8 токенов в секунду (и нагрузка между видео картами распределена поровну, колеблется в районе 33% на каждой). Если убрать одну видеокарту то получаю скорость генерации в районе 14 токенов в секунду (нагрузка колеблется в районе 50% на каждой карте). Поэтому я думаю что если бы модель смогла поместится целиком в памяти одной видеокарты, скорость генерации могла бы быть в районе 26 токенов в секунду. Но проверить это на моей модели видеокарты нельзя.Я делал интересный эксперимент с Qwеn-coder-32B-instruct-q4-k-m (размером 18.49GB) c вариантами в две и три видеокарты и аналогичными скоростями генерации как у QwQ 32B. Но стоило добавить черновую модель Qwеn-coder-3B-instruct-q4-k-m (1.8 GB) как скорость генерации в конфигурации с тремя видюхами возросла с 8 до 20 токенов в секунду, при 70% одобрения токенов черновой модели. В конфигурацию с двумя видюхами обе модели не помещаются, а для QwQ 32B черновой модели нет. Поэтому лично мне очень интересна скорость генерации таких моделей как QwQ 32B или Qwеn-coder-32B-instruct если они целиком будут крутится в одной видеокарте с 24GB памяти, что бы рассматривать такой вариант, как возможность дальнейшего апгрейда.

Беда что универсальность модели падает с количеством параметров. Если брать квен какой-нибудь на 110В, то она и текст переведёт, и подсказать в юриспруденции сможет и код написать, а квен 7В максимум на что годится, это через адаптеры делать специализированные версии для кодинга на С++ или С# или питон, но не всё вместе.

Sign up to leave a comment.

Articles