1) Я не пишу запросы на русском. Учитывая количество данных и соотношение представленных языков для претрейна/sft/RLHF, делать запросы на русском это стрелять себе в ногу. Ну только если вы не пользуетесь гигачатом каким-нибудь, но тут вопросов ещё больше возникает...
2) Я не использую чат, а пользуюсь встроенным в IDE тулом, который через API запускает модель в режиме агента. Можно курсор если лень настраивать, можно cline/roocode/aider. Таким образом модель автоматом имеет на вход нужный контекст, может сама поискать по файлам дополнительный контекст, понять устройство репозитория, погуглить в крайнем случае если модель не имеет каких-то знаний. И даже запустить код, но мне нерелевантно ибо основной код это обучение нейронок, и просто так его не позапускаешь, хотя с примерами входа-выхода вполне можно тестить базовые вещи. Не совсем понимаю людей которые в 2025 используют тупо чат для кодинга.
3) Я использую системные промпты и меняю модели в зависимости от желаемого результата. У меня есть пресет на "объясни подробно код", для проектировки классов я запускаю модели с reasoning, и дальше уже реализую методы и функции частично сам, частично с ллм, по ходу проверяя тестами работоспособность сложных для ллм мест. Учитывая пункт 2, любую ошибку можно легко кинуть дальше в агента/чат и ллм сама достанет из кода проблемные места, предложит решение или хотя бы добавит в код всяких выводов для дебага для локализации проблемы.
3*) Если изначальная задача сложна и я не понимаю как это в целом должно работать, то я иду в перплексити и делаю deep research на возможные подходы к решению моей проблемы/фичи. Например, если мне нужно уменьшить kv кеш обучаемого трансформеров, я не буду это в тупую просить закодить(на такой запрос ллм может тупо разбить на чанки и запускать почанково, что далеко не самый оптимальных подход, но самый простой), я пойду в ppl, загуглю подходы, выберу что-нибудь (например sliding window через flex attention) и уже это сначала спроектирую, а потом реализую.
Пандас это же про другое? Там под капотом те же массивы numpy, а сам пандас это больше про обработку табличных данных, использую схожие с SQL методы. Ну и всякие украшательства, типо быстрые .hist() .plot() визуализации.
1) Генерация синтетики. На 4070 ti super можно из qwen 2.5 7b выжать 800-900 tps и это ещё без асинхронного батчинга.
2) Файнтюны моделей. В облаке есть далеко не всё, что бывает нужно.
3) Закрытые репозитории. Если не хочется чтоб провайдер модели видел твой код, то поднятая модель и порубленный к ней cline + continue вполне заменяет cursor.
Это всё довольно нишево, но иногда надо. Кстати, дипсик будет нифига не копейки если вы его подрубите к cline, там спокойно может зафигачить десяток тысяч токенов в контекст запроса, но это уже другая история
1) Deep Research от openAI всегда юзает o3, выбор моделей в меню не влияет.
2) Сравнивал на днях DR в Gemini и Perplexity. Делал запрос в стиле "give me breakdown of v2, v2.5 and v3 models from deepseek, list differences and changes, as well as new techniques used in models". Промпт на самом деле раза в 3 длиннее, но не суть. Gemini прям словоблуд, по каждой модели написал довольно подробный текст с вступлением и так далее, но не сделал нормального сравнения моделей, ограничившись одним скудным параграфом в конце. Perplexity выдала сильно меньше бесполезного текста по каждой модели, потом отдельно описала новые техники(MLA, deepseekMoE, MTP), и в конце по параграфу на v2->v2.5 и v2.5->v3, плюс заключение. Ответ perplexity мне понравился сильно больше.
Не соглашусь. Вон недавно Nvidia делали блогпост как с помощью ллм генерировали оптимизированные ядра под attention. Задача далеко не простая, но ллм вполне себе справилась.
Плати.маркет, там ищите perplexity, будут продавцы продающие за 700-900, у меня через промо от O2 получилось. В целом через ту площадку заказываю все "санкционное", что cursor, что кредиты на opentouter, что spotify. p.s. не реклама, если кто знает сервис лучше - делитесь.
Остановился на связке cursor + perplexity как самое универсальное для меня. По промокоду через 3х лиц перплексити стоит смешные 800р в год(!) с доступом к моделям от Claude/openAI, их личному r1, неплохому(пусть и более слабому в сравнении с openAI) deep research и так далее. Там даже запросы к chatGPT 4.5 есть в подписке. Ещё и приложение под винду недавно сделали.
Cursor тут по похожей причине, универсальность и простота использования. Просто поспрашивать в вебе я могу и бесплатно или через perplexity, но за 20 баксов я получаю tab autocompletion + API запросы для agentic usage. Нет, я могу это всё сделать сам, поднять qwen coder на гпу и подрубить в continue.dev, туда же прокинуть ключ с opentouter для чата внутри IDE, и сверху добавить cline с тем же ключом. Проблема в цене, один запрос cline на небольшую модификацию кода у меня сожрал 30к+ токенов, ладно я запускал на v3, а если б я к sonnet делал?
Нет open source инструкт модели, неинтересно. Да и выложенная base с такой лицензией на OS слабо тянет. Думал протестить в нашем пайплайне файнтюна на добавление аудио модальности, но в таком формате смысла не вижу время тратить, останусь на квен/t-lite.
1) llama.cpp и vllm поддерживают сетапы на несколько GPU, так что 2x4060ti будет работать.
2) лучшее предложение на рынке - бу 3090. Лично я бы брал 4060ti только если планируете запускать модели в fp8, вне этого кейса 3090 будет лучше.
3) Можно посмотреть на Интел/АМД, но там не все фреймворки будут запускаться нормально. Тут лучше к пользователям этого железа.
4) Совсем упорото - Tesla p40 бу с Китая. Но вы задолбаетесь отлаживать это(никаких свежих дров нет), собирать сервер(карты без охлаждения встроенного) и т.д., так что лучше не надо
Нет, continue это не то. В continue есть две функции - tab auto complete, как копайлот по сути, и вопросы по коду. Cursor же имеет агентские способности. Если хочется все способности курсора, то надо ставить плагин cline. Ну или aider как выше подсказали, но это скорее внешняя тулза которую можно встроить в vs code.
Да, очень интересно то же самое, но на GPU. Из своего опыта, делал замеры 8b модельки, но не в llama.cpp, а торч+transformers в fp16/bf16/q8(bnb), bf16 просаживало скорость на процентов 20, q8 замедляло работу раза в два. Torchao в fp8 почему-то работает в 2 раза медленнее q8, vllm в fp16/fp8 работает на порядок быстрее торча. Использование всяких compile, flash_attention и прочего доступного в transformers ускорения не давало. Тестил на x2 4060ti 16гб компе.
Юзаю codestral q4 + ollama + continue(vs code) для автодополнения в коде, прикольно, жаль ничего особо лучше на мои 16гб VRAM не влезет, а дополнение кода с CPU offload уж очень медленно.
Стоит отметить что для автодополнения нужны(крайне желательны) модели с FIM(fill in the middle) поскольку там юзается другой формат промпта где модели даётся кусок кода до и после места, и модель под эту задачу специально обучают.
Ещё больше из опыта перевода модели на инференс сервер заметил что квантизация в инты через bnb(bits and bytes, стандартный метод в transformers) работает в 2-3 раза медленнее fp/bf16 торча, для сервиса пришлось юзать vLLM для fp8 квантизация, она скорость не теряет, но тут надо железо поновее.
Проблема не только в ключе, а в ВПН тоже. Сделал себе аккаунт сам, но периодически сам openAI блочит доступ из ВПН, и надо искать новый рабочий. Тестил и платный ВПН, отвалился за полтора месяца.
RLHF, которым обучали chatgpt, как-то похоже и работает. Взятую LLM обучают на фидбеке из сравнений генерируемых ответов, фидбек предоставляется людьми. Там правда все ещё запутаннее, ибо в конце обучают ещё и модель которая умеет этот самый фидбек имитировать, чтоб не размечать все данные только людьми, но в целом происходит именно файнтюнинг на основе оценок людей. Конечно если я правильно понимаю процесс...
1) Я не пишу запросы на русском. Учитывая количество данных и соотношение представленных языков для претрейна/sft/RLHF, делать запросы на русском это стрелять себе в ногу. Ну только если вы не пользуетесь гигачатом каким-нибудь, но тут вопросов ещё больше возникает...
2) Я не использую чат, а пользуюсь встроенным в IDE тулом, который через API запускает модель в режиме агента. Можно курсор если лень настраивать, можно cline/roocode/aider. Таким образом модель автоматом имеет на вход нужный контекст, может сама поискать по файлам дополнительный контекст, понять устройство репозитория, погуглить в крайнем случае если модель не имеет каких-то знаний. И даже запустить код, но мне нерелевантно ибо основной код это обучение нейронок, и просто так его не позапускаешь, хотя с примерами входа-выхода вполне можно тестить базовые вещи. Не совсем понимаю людей которые в 2025 используют тупо чат для кодинга.
3) Я использую системные промпты и меняю модели в зависимости от желаемого результата. У меня есть пресет на "объясни подробно код", для проектировки классов я запускаю модели с reasoning, и дальше уже реализую методы и функции частично сам, частично с ллм, по ходу проверяя тестами работоспособность сложных для ллм мест. Учитывая пункт 2, любую ошибку можно легко кинуть дальше в агента/чат и ллм сама достанет из кода проблемные места, предложит решение или хотя бы добавит в код всяких выводов для дебага для локализации проблемы.
3*) Если изначальная задача сложна и я не понимаю как это в целом должно работать, то я иду в перплексити и делаю deep research на возможные подходы к решению моей проблемы/фичи. Например, если мне нужно уменьшить kv кеш обучаемого трансформеров, я не буду это в тупую просить закодить(на такой запрос ллм может тупо разбить на чанки и запускать почанково, что далеко не самый оптимальных подход, но самый простой), я пойду в ppl, загуглю подходы, выберу что-нибудь (например sliding window через flex attention) и уже это сначала спроектирую, а потом реализую.
Пандас это же про другое? Там под капотом те же массивы numpy, а сам пандас это больше про обработку табличных данных, использую схожие с SQL методы. Ну и всякие украшательства, типо быстрые .hist() .plot() визуализации.
1) Генерация синтетики. На 4070 ti super можно из qwen 2.5 7b выжать 800-900 tps и это ещё без асинхронного батчинга.
2) Файнтюны моделей. В облаке есть далеко не всё, что бывает нужно.
3) Закрытые репозитории. Если не хочется чтоб провайдер модели видел твой код, то поднятая модель и порубленный к ней cline + continue вполне заменяет cursor.
Это всё довольно нишево, но иногда надо. Кстати, дипсик будет нифига не копейки если вы его подрубите к cline, там спокойно может зафигачить десяток тысяч токенов в контекст запроса, но это уже другая история
Пример с VS Code немного странный, есть же специальное расширение для подключения к WSL, оно часть remote пакета.
Глупый вопрос, но каковы шансы что заведётся без модификаций в wsl?)
1) Deep Research от openAI всегда юзает o3, выбор моделей в меню не влияет.
2) Сравнивал на днях DR в Gemini и Perplexity. Делал запрос в стиле "give me breakdown of v2, v2.5 and v3 models from deepseek, list differences and changes, as well as new techniques used in models". Промпт на самом деле раза в 3 длиннее, но не суть. Gemini прям словоблуд, по каждой модели написал довольно подробный текст с вступлением и так далее, но не сделал нормального сравнения моделей, ограничившись одним скудным параграфом в конце. Perplexity выдала сильно меньше бесполезного текста по каждой модели, потом отдельно описала новые техники(MLA, deepseekMoE, MTP), и в конце по параграфу на v2->v2.5 и v2.5->v3, плюс заключение. Ответ perplexity мне понравился сильно больше.
Не соглашусь. Вон недавно Nvidia делали блогпост как с помощью ллм генерировали оптимизированные ядра под attention. Задача далеко не простая, но ллм вполне себе справилась.
Плати.маркет, там ищите perplexity, будут продавцы продающие за 700-900, у меня через промо от O2 получилось. В целом через ту площадку заказываю все "санкционное", что cursor, что кредиты на opentouter, что spotify. p.s. не реклама, если кто знает сервис лучше - делитесь.
Остановился на связке cursor + perplexity как самое универсальное для меня. По промокоду через 3х лиц перплексити стоит смешные 800р в год(!) с доступом к моделям от Claude/openAI, их личному r1, неплохому(пусть и более слабому в сравнении с openAI) deep research и так далее. Там даже запросы к chatGPT 4.5 есть в подписке. Ещё и приложение под винду недавно сделали.
Cursor тут по похожей причине, универсальность и простота использования. Просто поспрашивать в вебе я могу и бесплатно или через perplexity, но за 20 баксов я получаю tab autocompletion + API запросы для agentic usage. Нет, я могу это всё сделать сам, поднять qwen coder на гпу и подрубить в continue.dev, туда же прокинуть ключ с opentouter для чата внутри IDE, и сверху добавить cline с тем же ключом. Проблема в цене, один запрос cline на небольшую модификацию кода у меня сожрал 30к+ токенов, ладно я запускал на v3, а если б я к sonnet делал?
Нет open source инструкт модели, неинтересно. Да и выложенная base с такой лицензией на OS слабо тянет. Думал протестить в нашем пайплайне файнтюна на добавление аудио модальности, но в таком формате смысла не вижу время тратить, останусь на квен/t-lite.
Вчера видел скрины с Китая (+nvidia-smi) 4090 с модом на 96гб памяти, за что-то порядка 4.5к баксов продавалась)
1) llama.cpp и vllm поддерживают сетапы на несколько GPU, так что 2x4060ti будет работать.
2) лучшее предложение на рынке - бу 3090. Лично я бы брал 4060ti только если планируете запускать модели в fp8, вне этого кейса 3090 будет лучше.
3) Можно посмотреть на Интел/АМД, но там не все фреймворки будут запускаться нормально. Тут лучше к пользователям этого железа.
4) Совсем упорото - Tesla p40 бу с Китая. Но вы задолбаетесь отлаживать это(никаких свежих дров нет), собирать сервер(карты без охлаждения встроенного) и т.д., так что лучше не надо
Нет, continue это не то. В continue есть две функции - tab auto complete, как копайлот по сути, и вопросы по коду. Cursor же имеет агентские способности. Если хочется все способности курсора, то надо ставить плагин cline. Ну или aider как выше подсказали, но это скорее внешняя тулза которую можно встроить в vs code.
Странный выбор моделей, ни t-lite, ни vikhr, зато сайга годичной давности...
Да, очень интересно то же самое, но на GPU. Из своего опыта, делал замеры 8b модельки, но не в llama.cpp, а торч+transformers в fp16/bf16/q8(bnb), bf16 просаживало скорость на процентов 20, q8 замедляло работу раза в два. Torchao в fp8 почему-то работает в 2 раза медленнее q8, vllm в fp16/fp8 работает на порядок быстрее торча. Использование всяких compile, flash_attention и прочего доступного в transformers ускорения не давало. Тестил на x2 4060ti 16гб компе.
Юзаю codestral q4 + ollama + continue(vs code) для автодополнения в коде, прикольно, жаль ничего особо лучше на мои 16гб VRAM не влезет, а дополнение кода с CPU offload уж очень медленно.
Стоит отметить что для автодополнения нужны(крайне желательны) модели с FIM(fill in the middle) поскольку там юзается другой формат промпта где модели даётся кусок кода до и после места, и модель под эту задачу специально обучают.
Ещё больше из опыта перевода модели на инференс сервер заметил что квантизация в инты через bnb(bits and bytes, стандартный метод в transformers) работает в 2-3 раза медленнее fp/bf16 торча, для сервиса пришлось юзать vLLM для fp8 квантизация, она скорость не теряет, но тут надо железо поновее.
Для интереса можно было бы ещё vMamba использовать, вроде довольно перспективная архитектура
Проблема не только в ключе, а в ВПН тоже. Сделал себе аккаунт сам, но периодически сам openAI блочит доступ из ВПН, и надо искать новый рабочий. Тестил и платный ВПН, отвалился за полтора месяца.
RLHF, которым обучали chatgpt, как-то похоже и работает. Взятую LLM обучают на фидбеке из сравнений генерируемых ответов, фидбек предоставляется людьми. Там правда все ещё запутаннее, ибо в конце обучают ещё и модель которая умеет этот самый фидбек имитировать, чтоб не размечать все данные только людьми, но в целом происходит именно файнтюнинг на основе оценок людей. Конечно если я правильно понимаю процесс...
Если бы перенос ещё нормально работал, эх. Из плейлиста на 1300 треков осталось 900 :(
Надо наконец доделать оффлайн библиотеку, но на шаге поиска, добавления и категоризации синглов что-то стало больно...