Обновить
2

Пользователь

Отправить сообщение

Перплексити выдаёт ссылки напрямую на посты/ветки комментов на реддите которые использовались для ответа на запрос.

SWE-bench-verified, aider-polyglot, BFCL-v3, какие-нибудь блогеры типо gosucoder, самому ручками сравнивать. Вариантов очень много. Последний варик очень рекомендую, тот же sonnet 4 очень высоко в рейтингах, а если поюзать самому и поспрашивать людей, то выясняется, что у него будто СДВГ - он пихает ненужные фичи везде, может заигнорить часть запроса, делает тонну ненужных правок, и это всё на метриках не сильно видно (и в арене тоже, там большинство сравнивает результат).

Просто арена это "понравься юзеру и угадай что ему нужно"-бенч, она плохо оценивает модели. Она не оценивает уже стандартный workflow, где ассистент пихает вместе с вопросом юзера актуальную базу кода из репо и даёт модели возможность искать релевантные куски кода для ответа на вопрос или для новой фичи, в арене тонна запросов в стиле "а сделай мне html страничку с js где будет пятиугольник вращаться и шарики прыгать". 4o на том же месте где kimi k2 и sonnet 4 как бы намекают, насколько можно доверять арене. Свежий qwen 3 coder 480b где-то на 11 строчке, хотя это первая модель которая уже вплотную приблизилась к Сlaude.

Заметь, я не говорил и не говорю, что китайцы плохи. Новый qwen coder, qwen 235b новый, k2, GLM 4.5 / 4.5-air - это всё очень хорошие модели, GLM air поднимал и тестил сам, очень понравился. Но не надо судить модели, которые делаются под agentic usage, через призму оценок в веб чатике.

У меня было 2 дня на то, чтоб поднять хоть что-то рабочее, и litellm не нагуглился (и я про него не знал)..

Спасибо за подсказку, n8n пользоваться всё равно не буду, но litellm выглядит интересно и удобно!

По своему опыту пользования ИИ, оно очень упрощает жизнь, но доверять коду надо ооочень осторожно. Я вот недавно писал класс для RoPE трансформера, и добавил внутрь предпосчтет углов, так делается везде. Сказал Claude 4 sonnet thinking (считается одной из топовых моделей на лето 2025) в курсоре "а интегрируя ка мне вот эту функцию для предпосчёта углов в мой код", и оно вкорячило её прямо в forward, т.е. она бы вызывалась каждый раз при пассе модуля, а не один раз при инициализации, просто гениально (нет, в функции не было проверки на кеш). И если не знаешь как оно работает, ты даже не заметишь баг, оно будет корректно отрабатывать. Или дебагал я запросы к MCP из langchain, соннет за 2 промпта насрал 6 файлов для дебага, из которых я в итоге забрал 4 строчки в код и всё поудалял.

o3 как-то разумнее, но всё равно, рано или поздно вылезают моменты где ты не решишь проблему если ты её не понимаешь. Пока что самые главные плюсы ИИ для кодинга для меня это генерация идей и дебаг. Дать модели код и спросить, а что можно сделать лучше и по-другому, иногда предлагает интересные решения. А дебаг - в IDE оно по стак трейсу может прочитать пол репозитория и найти ошибку не там, где всё падает, а именно где косяк в первый раз возникает, просто потому что оно понимает всю логику вызова модулей.

Я решил таки освоить langchain/langgraph в итоге. Да, оно кривое (карл, класс vLLM ноды нельзя передать в фабрику агента! Зачем он там тогда вообще нужен??), да, половина мануалов несовместимы с 0.3 потому что они там ломают совместимости постоянно, но лучше для сложных пайплайнов ничего не найти. Поэтому сижу пишу проект и навешиваю фичи постепенно, сейчас пытаюсь научиться управлять стейтом агента, чтоб размер контекста не взрывался.

Тестировал n8n буквально на днях, вообще не зашло. Пытался подключить к локально поднятому инстансу vLLM, и словил кучу проблем. С vLLM можно взять v1 endpoint, но в ноду openAI в n8n нельзя прописать кастомные generation config kwargs. Т.е. если в vLLM поднимаешь гибридную модель с reasoning(типо старого qwen 235), то отрубить через "chat_template_kwargs": {"enable_thinking": false} нельзя, оно тупо не поддерживает передачу произвольных аргументов. Да, можно делать просто http ноду с curl и передавать всё, что хочешь, но такую ноду нельзя подрубить как AI в ноду AI agent.

По MCP - там даже нельзя настроить тайм-аут, у меня был довольно тяжёлый MCP который долго думает, и оно просто падало не дожидаясь ответа.

Для себя сделал вывод, что прототипировать в n8n норм, но хоть что-то серьёзное в такой туле лучше даже не пытаться делать.

1) Я не пишу запросы на русском. Учитывая количество данных и соотношение представленных языков для претрейна/sft/RLHF, делать запросы на русском это стрелять себе в ногу. Ну только если вы не пользуетесь гигачатом каким-нибудь, но тут вопросов ещё больше возникает...

2) Я не использую чат, а пользуюсь встроенным в IDE тулом, который через API запускает модель в режиме агента. Можно курсор если лень настраивать, можно cline/roocode/aider. Таким образом модель автоматом имеет на вход нужный контекст, может сама поискать по файлам дополнительный контекст, понять устройство репозитория, погуглить в крайнем случае если модель не имеет каких-то знаний. И даже запустить код, но мне нерелевантно ибо основной код это обучение нейронок, и просто так его не позапускаешь, хотя с примерами входа-выхода вполне можно тестить базовые вещи. Не совсем понимаю людей которые в 2025 используют тупо чат для кодинга.

3) Я использую системные промпты и меняю модели в зависимости от желаемого результата. У меня есть пресет на "объясни подробно код", для проектировки классов я запускаю модели с reasoning, и дальше уже реализую методы и функции частично сам, частично с ллм, по ходу проверяя тестами работоспособность сложных для ллм мест. Учитывая пункт 2, любую ошибку можно легко кинуть дальше в агента/чат и ллм сама достанет из кода проблемные места, предложит решение или хотя бы добавит в код всяких выводов для дебага для локализации проблемы.

3*) Если изначальная задача сложна и я не понимаю как это в целом должно работать, то я иду в перплексити и делаю deep research на возможные подходы к решению моей проблемы/фичи. Например, если мне нужно уменьшить kv кеш обучаемого трансформеров, я не буду это в тупую просить закодить(на такой запрос ллм может тупо разбить на чанки и запускать почанково, что далеко не самый оптимальных подход, но самый простой), я пойду в ppl, загуглю подходы, выберу что-нибудь (например sliding window через flex attention) и уже это сначала спроектирую, а потом реализую.

Пандас это же про другое? Там под капотом те же массивы numpy, а сам пандас это больше про обработку табличных данных, использую схожие с SQL методы. Ну и всякие украшательства, типо быстрые .hist() .plot() визуализации.

1) Генерация синтетики. На 4070 ti super можно из qwen 2.5 7b выжать 800-900 tps и это ещё без асинхронного батчинга.

2) Файнтюны моделей. В облаке есть далеко не всё, что бывает нужно.

3) Закрытые репозитории. Если не хочется чтоб провайдер модели видел твой код, то поднятая модель и порубленный к ней cline + continue вполне заменяет cursor.

Это всё довольно нишево, но иногда надо. Кстати, дипсик будет нифига не копейки если вы его подрубите к cline, там спокойно может зафигачить десяток тысяч токенов в контекст запроса, но это уже другая история

Пример с VS Code немного странный, есть же специальное расширение для подключения к WSL, оно часть remote пакета.

Глупый вопрос, но каковы шансы что заведётся без модификаций в wsl?)

1) Deep Research от openAI всегда юзает o3, выбор моделей в меню не влияет.

2) Сравнивал на днях DR в Gemini и Perplexity. Делал запрос в стиле "give me breakdown of v2, v2.5 and v3 models from deepseek, list differences and changes, as well as new techniques used in models". Промпт на самом деле раза в 3 длиннее, но не суть. Gemini прям словоблуд, по каждой модели написал довольно подробный текст с вступлением и так далее, но не сделал нормального сравнения моделей, ограничившись одним скудным параграфом в конце. Perplexity выдала сильно меньше бесполезного текста по каждой модели, потом отдельно описала новые техники(MLA, deepseekMoE, MTP), и в конце по параграфу на v2->v2.5 и v2.5->v3, плюс заключение. Ответ perplexity мне понравился сильно больше.

Не соглашусь. Вон недавно Nvidia делали блогпост как с помощью ллм генерировали оптимизированные ядра под attention. Задача далеко не простая, но ллм вполне себе справилась.

Плати.маркет, там ищите perplexity, будут продавцы продающие за 700-900, у меня через промо от O2 получилось. В целом через ту площадку заказываю все "санкционное", что cursor, что кредиты на opentouter, что spotify. p.s. не реклама, если кто знает сервис лучше - делитесь.

Остановился на связке cursor + perplexity как самое универсальное для меня. По промокоду через 3х лиц перплексити стоит смешные 800р в год(!) с доступом к моделям от Claude/openAI, их личному r1, неплохому(пусть и более слабому в сравнении с openAI) deep research и так далее. Там даже запросы к chatGPT 4.5 есть в подписке. Ещё и приложение под винду недавно сделали.

Cursor тут по похожей причине, универсальность и простота использования. Просто поспрашивать в вебе я могу и бесплатно или через perplexity, но за 20 баксов я получаю tab autocompletion + API запросы для agentic usage. Нет, я могу это всё сделать сам, поднять qwen coder на гпу и подрубить в continue.dev, туда же прокинуть ключ с opentouter для чата внутри IDE, и сверху добавить cline с тем же ключом. Проблема в цене, один запрос cline на небольшую модификацию кода у меня сожрал 30к+ токенов, ладно я запускал на v3, а если б я к sonnet делал?

Нет open source инструкт модели, неинтересно. Да и выложенная base с такой лицензией на OS слабо тянет. Думал протестить в нашем пайплайне файнтюна на добавление аудио модальности, но в таком формате смысла не вижу время тратить, останусь на квен/t-lite.

Вчера видел скрины с Китая (+nvidia-smi) 4090 с модом на 96гб памяти, за что-то порядка 4.5к баксов продавалась)

1) llama.cpp и vllm поддерживают сетапы на несколько GPU, так что 2x4060ti будет работать.

2) лучшее предложение на рынке - бу 3090. Лично я бы брал 4060ti только если планируете запускать модели в fp8, вне этого кейса 3090 будет лучше.

3) Можно посмотреть на Интел/АМД, но там не все фреймворки будут запускаться нормально. Тут лучше к пользователям этого железа.

4) Совсем упорото - Tesla p40 бу с Китая. Но вы задолбаетесь отлаживать это(никаких свежих дров нет), собирать сервер(карты без охлаждения встроенного) и т.д., так что лучше не надо

Нет, continue это не то. В continue есть две функции - tab auto complete, как копайлот по сути, и вопросы по коду. Cursor же имеет агентские способности. Если хочется все способности курсора, то надо ставить плагин cline. Ну или aider как выше подсказали, но это скорее внешняя тулза которую можно встроить в vs code.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность