Search
Write a publication
Pull to refresh
1
0.3
Send message

Интересно, они сравнивают с ванильным GRPO, но на него уже понавешивали всяких улучшений. Например, в статье MiMo авторы используют несимметричный клиппинг, полностью выпиливают KL, и сверху ещё навешивают сложные методики семплирования и фильтрации, одна из которых это фильтрация слишком сложных и слишком простых задач.

0) На русском с моделью лучше не общаться, думал попробовать для постпроцессинга/LLM-as-judge, но там такие ляпы, что русский текст точно не стоит ей показывать.

1) Модель где-то на уровне GLM 4.5 air, где-то лучше, где-то хуже. Вроде из того, что вижу по отзывам людей, модель так себе в кодинге, но хороша в tool calling. Работает ощутимо быстрее GLM air за счёт всего 5.1b активных.

2) Использовать вместо qwen 3 coder или GLM 4.5 смысла(кроме экономического) нет. По провайдерам - у groq на openrouter что-то не то с конфигом, так что осторожнее.

3) Модель зацензурена по самые помидоры. Safety!

Цензура
Цензура
Пример косяка в русском
Пример косяка в русском
Ещё пример
Ещё пример

Перплексити выдаёт ссылки напрямую на посты/ветки комментов на реддите которые использовались для ответа на запрос.

SWE-bench-verified, aider-polyglot, BFCL-v3, какие-нибудь блогеры типо gosucoder, самому ручками сравнивать. Вариантов очень много. Последний варик очень рекомендую, тот же sonnet 4 очень высоко в рейтингах, а если поюзать самому и поспрашивать людей, то выясняется, что у него будто СДВГ - он пихает ненужные фичи везде, может заигнорить часть запроса, делает тонну ненужных правок, и это всё на метриках не сильно видно (и в арене тоже, там большинство сравнивает результат).

Просто арена это "понравься юзеру и угадай что ему нужно"-бенч, она плохо оценивает модели. Она не оценивает уже стандартный workflow, где ассистент пихает вместе с вопросом юзера актуальную базу кода из репо и даёт модели возможность искать релевантные куски кода для ответа на вопрос или для новой фичи, в арене тонна запросов в стиле "а сделай мне html страничку с js где будет пятиугольник вращаться и шарики прыгать". 4o на том же месте где kimi k2 и sonnet 4 как бы намекают, насколько можно доверять арене. Свежий qwen 3 coder 480b где-то на 11 строчке, хотя это первая модель которая уже вплотную приблизилась к Сlaude.

Заметь, я не говорил и не говорю, что китайцы плохи. Новый qwen coder, qwen 235b новый, k2, GLM 4.5 / 4.5-air - это всё очень хорошие модели, GLM air поднимал и тестил сам, очень понравился. Но не надо судить модели, которые делаются под agentic usage, через призму оценок в веб чатике.

У меня было 2 дня на то, чтоб поднять хоть что-то рабочее, и litellm не нагуглился (и я про него не знал)..

Спасибо за подсказку, n8n пользоваться всё равно не буду, но litellm выглядит интересно и удобно!

По своему опыту пользования ИИ, оно очень упрощает жизнь, но доверять коду надо ооочень осторожно. Я вот недавно писал класс для RoPE трансформера, и добавил внутрь предпосчтет углов, так делается везде. Сказал Claude 4 sonnet thinking (считается одной из топовых моделей на лето 2025) в курсоре "а интегрируя ка мне вот эту функцию для предпосчёта углов в мой код", и оно вкорячило её прямо в forward, т.е. она бы вызывалась каждый раз при пассе модуля, а не один раз при инициализации, просто гениально (нет, в функции не было проверки на кеш). И если не знаешь как оно работает, ты даже не заметишь баг, оно будет корректно отрабатывать. Или дебагал я запросы к MCP из langchain, соннет за 2 промпта насрал 6 файлов для дебага, из которых я в итоге забрал 4 строчки в код и всё поудалял.

o3 как-то разумнее, но всё равно, рано или поздно вылезают моменты где ты не решишь проблему если ты её не понимаешь. Пока что самые главные плюсы ИИ для кодинга для меня это генерация идей и дебаг. Дать модели код и спросить, а что можно сделать лучше и по-другому, иногда предлагает интересные решения. А дебаг - в IDE оно по стак трейсу может прочитать пол репозитория и найти ошибку не там, где всё падает, а именно где косяк в первый раз возникает, просто потому что оно понимает всю логику вызова модулей.

Я решил таки освоить langchain/langgraph в итоге. Да, оно кривое (карл, класс vLLM ноды нельзя передать в фабрику агента! Зачем он там тогда вообще нужен??), да, половина мануалов несовместимы с 0.3 потому что они там ломают совместимости постоянно, но лучше для сложных пайплайнов ничего не найти. Поэтому сижу пишу проект и навешиваю фичи постепенно, сейчас пытаюсь научиться управлять стейтом агента, чтоб размер контекста не взрывался.

Тестировал n8n буквально на днях, вообще не зашло. Пытался подключить к локально поднятому инстансу vLLM, и словил кучу проблем. С vLLM можно взять v1 endpoint, но в ноду openAI в n8n нельзя прописать кастомные generation config kwargs. Т.е. если в vLLM поднимаешь гибридную модель с reasoning(типо старого qwen 235), то отрубить через "chat_template_kwargs": {"enable_thinking": false} нельзя, оно тупо не поддерживает передачу произвольных аргументов. Да, можно делать просто http ноду с curl и передавать всё, что хочешь, но такую ноду нельзя подрубить как AI в ноду AI agent.

По MCP - там даже нельзя настроить тайм-аут, у меня был довольно тяжёлый MCP который долго думает, и оно просто падало не дожидаясь ответа.

Для себя сделал вывод, что прототипировать в n8n норм, но хоть что-то серьёзное в такой туле лучше даже не пытаться делать.

1) Я не пишу запросы на русском. Учитывая количество данных и соотношение представленных языков для претрейна/sft/RLHF, делать запросы на русском это стрелять себе в ногу. Ну только если вы не пользуетесь гигачатом каким-нибудь, но тут вопросов ещё больше возникает...

2) Я не использую чат, а пользуюсь встроенным в IDE тулом, который через API запускает модель в режиме агента. Можно курсор если лень настраивать, можно cline/roocode/aider. Таким образом модель автоматом имеет на вход нужный контекст, может сама поискать по файлам дополнительный контекст, понять устройство репозитория, погуглить в крайнем случае если модель не имеет каких-то знаний. И даже запустить код, но мне нерелевантно ибо основной код это обучение нейронок, и просто так его не позапускаешь, хотя с примерами входа-выхода вполне можно тестить базовые вещи. Не совсем понимаю людей которые в 2025 используют тупо чат для кодинга.

3) Я использую системные промпты и меняю модели в зависимости от желаемого результата. У меня есть пресет на "объясни подробно код", для проектировки классов я запускаю модели с reasoning, и дальше уже реализую методы и функции частично сам, частично с ллм, по ходу проверяя тестами работоспособность сложных для ллм мест. Учитывая пункт 2, любую ошибку можно легко кинуть дальше в агента/чат и ллм сама достанет из кода проблемные места, предложит решение или хотя бы добавит в код всяких выводов для дебага для локализации проблемы.

3*) Если изначальная задача сложна и я не понимаю как это в целом должно работать, то я иду в перплексити и делаю deep research на возможные подходы к решению моей проблемы/фичи. Например, если мне нужно уменьшить kv кеш обучаемого трансформеров, я не буду это в тупую просить закодить(на такой запрос ллм может тупо разбить на чанки и запускать почанково, что далеко не самый оптимальных подход, но самый простой), я пойду в ppl, загуглю подходы, выберу что-нибудь (например sliding window через flex attention) и уже это сначала спроектирую, а потом реализую.

Пандас это же про другое? Там под капотом те же массивы numpy, а сам пандас это больше про обработку табличных данных, использую схожие с SQL методы. Ну и всякие украшательства, типо быстрые .hist() .plot() визуализации.

1) Генерация синтетики. На 4070 ti super можно из qwen 2.5 7b выжать 800-900 tps и это ещё без асинхронного батчинга.

2) Файнтюны моделей. В облаке есть далеко не всё, что бывает нужно.

3) Закрытые репозитории. Если не хочется чтоб провайдер модели видел твой код, то поднятая модель и порубленный к ней cline + continue вполне заменяет cursor.

Это всё довольно нишево, но иногда надо. Кстати, дипсик будет нифига не копейки если вы его подрубите к cline, там спокойно может зафигачить десяток тысяч токенов в контекст запроса, но это уже другая история

Пример с VS Code немного странный, есть же специальное расширение для подключения к WSL, оно часть remote пакета.

Глупый вопрос, но каковы шансы что заведётся без модификаций в wsl?)

1) Deep Research от openAI всегда юзает o3, выбор моделей в меню не влияет.

2) Сравнивал на днях DR в Gemini и Perplexity. Делал запрос в стиле "give me breakdown of v2, v2.5 and v3 models from deepseek, list differences and changes, as well as new techniques used in models". Промпт на самом деле раза в 3 длиннее, но не суть. Gemini прям словоблуд, по каждой модели написал довольно подробный текст с вступлением и так далее, но не сделал нормального сравнения моделей, ограничившись одним скудным параграфом в конце. Perplexity выдала сильно меньше бесполезного текста по каждой модели, потом отдельно описала новые техники(MLA, deepseekMoE, MTP), и в конце по параграфу на v2->v2.5 и v2.5->v3, плюс заключение. Ответ perplexity мне понравился сильно больше.

Не соглашусь. Вон недавно Nvidia делали блогпост как с помощью ллм генерировали оптимизированные ядра под attention. Задача далеко не простая, но ллм вполне себе справилась.

Плати.маркет, там ищите perplexity, будут продавцы продающие за 700-900, у меня через промо от O2 получилось. В целом через ту площадку заказываю все "санкционное", что cursor, что кредиты на opentouter, что spotify. p.s. не реклама, если кто знает сервис лучше - делитесь.

Остановился на связке cursor + perplexity как самое универсальное для меня. По промокоду через 3х лиц перплексити стоит смешные 800р в год(!) с доступом к моделям от Claude/openAI, их личному r1, неплохому(пусть и более слабому в сравнении с openAI) deep research и так далее. Там даже запросы к chatGPT 4.5 есть в подписке. Ещё и приложение под винду недавно сделали.

Cursor тут по похожей причине, универсальность и простота использования. Просто поспрашивать в вебе я могу и бесплатно или через perplexity, но за 20 баксов я получаю tab autocompletion + API запросы для agentic usage. Нет, я могу это всё сделать сам, поднять qwen coder на гпу и подрубить в continue.dev, туда же прокинуть ключ с opentouter для чата внутри IDE, и сверху добавить cline с тем же ключом. Проблема в цене, один запрос cline на небольшую модификацию кода у меня сожрал 30к+ токенов, ладно я запускал на v3, а если б я к sonnet делал?

Нет open source инструкт модели, неинтересно. Да и выложенная base с такой лицензией на OS слабо тянет. Думал протестить в нашем пайплайне файнтюна на добавление аудио модальности, но в таком формате смысла не вижу время тратить, останусь на квен/t-lite.

Вчера видел скрины с Китая (+nvidia-smi) 4090 с модом на 96гб памяти, за что-то порядка 4.5к баксов продавалась)

1

Information

Rating
5,109-th
Registered
Activity