Обновить
1
0

Пользователь

Отправить сообщение

Пользуюсь Continue в VS Code, у них и для JetBrains есть плагинчик. Не утверждаю, что из остальных поделок эта сколь-нибудь лучше других, но мои потребности закрывает: там и чат, и autocomplete.

Для второго хватает qwen2.5-coder:3b-base поднятого в ollama, формат для Fill-In-The-Middle взял с их гитхаба. Можно побольше, но мне скорость приоритетнее незначительного роста интеллекта. Для чата использую его же 32b с deepinfra, хотя вот попробую DeepSeek-v3 через openrouter приспособить, очень уж интересно.

Если ваш бизнес/доход напрямую зависит от доступности внешних сервисов, так ещё и в другой стране - это неразумно, сложно не согласиться. Но мы же не про коня в вакууме, а про описанный кейс ленивого эффективного программиста, для которого LLM - это удобный инструмент, а не жизненная необходимость.

Мой пойнт в том, что под указанную задачу пытаться догнать облако на своём ПК - это и экономически неэффективно, и нецелесообразно. Хотя с нюансами, такими как отсутствие русского языка, возможно. А без нюансов и 70b моделью, увы, не обойтись.

Вообще вот интернет-поисковик для работы нужен не меньше, но почему-то почти никто не говорит всерьёз, что надо поднимать свой локальный, а то ведь как-то глупо на Google рассчитывать. И чем же это принципиально отличается от того, чтобы рассчитывать на их же Gemini?

Разумеется, экономия $20 - не серьёзная цель, и тем не менее, её легко можно достичь. Для меня принципиален бойкот платных продуктов OpenAI, а экономия выходит как-то сама собой.

Переходить на self-hosted можно, «но зачем» (c). Серьёзно переходить - это купить серверные карточки за очень неприличные суммы в долларах. И это по силам компании, которой, например, ну очень важна приватность. Остальное - это в любом случае эрзац, иногда даже почти без специфического запаха. Поэтому я перешёл на связку чат через API + autocomplete локально на 4080, чего и всем рекомендую. Так и приватность контролируется, потому что код без вашего ведома никуда не улетает, и дёшево-сердито баланс соблюдён.

Насчёт промптов на русском - второй промпт не может быть на английском по очевидным причинам.

Я вас понимаю, но проблемы индусов русских программистов китайцев не волнуют) Маленькие модельки могут быть заменой топовых LLM в своей узкой области, иногда слишком узкой. Так что надо бы выучить наконец-то английский пользоваться переводчиком для любых нетривиальных задач. Обычно даже если ту же модельку попросить перевести текст на английский, а потом её перевод в неё же скопировать как запрос, результат улучшается. Ограничения instruct-файнтюнов, сэр.

Ура, в интернете опять кто-то не прав очередной срыв покровов. Первое и самое главное: запросы/промпт на русском языке? Если да - спасибо большое за тесты, можете их выкидывать.

На qwen данные закрыты, даже описания данных нет, так что мы не знаем как именно файнтюнили instruct, но предположительно на английском и китайском, и попугаев меряют на английском. Ожидать от него self-repair на русском... ну да, оно может ответить вам что-то на русском, иногда даже чудом сработать. Но именно такие "случайно оказавшиеся" или "случайно оставшиеся" знания очень быстро отмирают при любом квантовании.

Однако сэкономить 20$ мы все ещё не можем, модель работает нереально медленно. RTX 5090 мы купим чуть позднее

А может быть, чтобы сэкономить, нужно уметь пользоваться гуглом? https://deepinfra.com/Qwen/Qwen2.5-Coder-32B-Instruct Вот она же за $0.16/1M, что при использовании в режиме чата во много десятков раз дешевле, чем $20 в месяц. Я лично пока на $1 ещё наскрести не смог. Да даже API к GPT-4o-mini стоит $0.60/1M, хотя по попугаям уступает. А ведь есть бесплатный доступ к Mistral, а ведь есть бесплатный доступ к Gemini, а ведь есть временно почти бесплатный DeepSeek-V3.

В общем, локально смысл есть запускать только маленькие модели для автокомплита или "умных" подсказок под табуляцией. Тут и latency минимальная нужна, а до видеокарты пинг нулевой и очереди нет, и токены улетают очень уж быстро при таком варианте использования, так что локально может оказаться правда дешевле, да и условных 3b-base или 7b-base достаточно, поэтому карточка уровня 3080ti и перформанс обеспечит, и под контекст запас останется.

Ну и в-третьих, Qwen2.5-coder-32b - это весьма капризная модель. Китайцы похоже тюнили её до посинения, поэтому она сильнее других тупеет даже при небольшом квантовании, о чём ещё давно были посты на r/LocalLLaMA. Ну и плюс нужны точные параметры токенайзеров: https://huggingface.co/Qwen/Qwen2.5-Coder-32B-Instruct/blob/main/generation_config.json

Так что да, opensource - это часто не про "бесплатно сел и поехал". Часто или всегда.

Справедливости ради, "последние защитники убили себя и свои семьи" - это версия перешедшего на сторону Рима историка еврейского происхождения Иосифа Флавия.

Достовернее сказать, что во время падения крепости всех защитников, включая женщин и детей, кто-то вырезал. Разумеется, взбешённые, жаждущие мести римские солдаты были совсем ни при чём

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность