Комментарии / Профиль SabMakc / Хабр

Максим@SabMakc

Пользователь

0,7

Рейтинг

Подписчики

ПрофильСтатьи1ПостыНовостиКомментарии1.4K

Как переложить нагрузку по code review с разработчиков на LLM

SabMakc 22 апр в 08:02

Посмотрел “Карту пул-реквестов”. И сразу видно - в пятницу не релизим (ну почти). В четверг вjobываем до победного (а точнее до пятницы). Понедельник - отправляем все, что скопилось за пятницу.

Но самый смак - пул-реквесты 24 часа в сутки 7 дней в неделю. Максимум - перед рассветом по выходным их нет.

P.S. Я, конечно, понимаю, что там не обязательно везде один часовой пояс. И не только от разработчиков PR идут (а скорее от дежурных инженеров по ночам). Но все равно очень показательно получилось )))

Как я тестировал локально новый Qwen 3.6 и Gemma 4

SabMakc 21 апр в 14:26

В Ollama контекст по умолчанию 4096 (для инференса на CPU), т.е. даже меньше. Да, Q4_K_M - это оно. Или что-то вроде UD-Q4_K_XL от unsloth.

OpenWebUI нагружает систему может и не сильно, но у него в требованиях от 2GB RAM. На 1GB RAM он даже не запускается - пробовал на RaspPi 3 запустить, не получилось. Хотя после запуска аппетиты меньше в простое. Но если памяти и так мало - то это может быть критичным.

С Modelfile от ollama не игрался особо - быстро перешел на llama.cpp и ik_llama.cpp, где все настройки можно указать флагами.

Как я тестировал локально новый Qwen 3.6 и Gemma 4

SabMakc 21 апр в 07:13

Для инференса на CPU неплохо подходят MoE примерной размерности 30B-A3B.

Т.е. те же Qwen3.6-35B-A3B и gemma-4-26B-A4B. 32GB им хватит (как минимум если размер контекста ограничить до 10к и использовать квант Q4), но если есть и другой софт, потребляющий память - то могут быть проблемы с их одновременной работой.

Как запускать - уже другой вопрос. Лично я предпочитаю llama.cpp или ik_llama.cpp - один раз запускаешь с нужной моделью и LLM всегда под рукой, сразу занимая нужную ей RAM. И неплохой UI в браузере до кучи (OpenWebUI хорош, но тяжеловесен).

Практически все модели, что меньше показали себя заметно хуже - или скорость инференса никакая, или просто тупая. Максимум - gemma-E4B может себя чуть лучше показать, но многого я бы не ожидал.

P.S. а Qwen3-Coder-30B-A3B будет заметно шустрее работать относительно Qwen3.6 и gemma-4. Но эта модель послабее будет.

Как я тестировал локально новый Qwen 3.6 и Gemma 4

SabMakc 20 апр в 07:19

Так Qwen3-Coder (Qwen3-Coder-30B-A3B) - это не мыслящая модель, она сразу начинает отвечать. И да, она в целом склонна к коротким ответам - в этом ее существенный плюс.

Как я тестировал локально новый Qwen 3.6 и Gemma 4

SabMakc 19 апр в 14:17

Не замечал подобного. От силы на фразу “пиши комментарии в коде на английском” она весь текст ответа на английском дает. Но этим практически все модели “страдают” (по крайней мере из тех, что пробовал локально).

Как я тестировал локально новый Qwen 3.6 и Gemma 4

SabMakc 19 апр в 13:26

При сравнении gemma3 с qwen3 за gemma были переводы и литературный текст, за qwen технические вещи. Если же брать свежие ревизии gemma4 и qwen3.6 - то я еще недостаточно игрался с ними, чтобы назвать сильные и слабые стороны.

Подозреваю, что с языками gemma4 не хуже справляется. И как минимум технические вещи подтянули у нее - это я уже успел проверить.

Qwen3.6 же только вышел - еще не успел поиграться толком. Обещают прорыв, даже относительно gemma4 (она есть в сравнении от производителя). На сколько правда - другой вопрос.

Но как минимум qwen3.6 правильно отвечает на вопрос вида “Unixtimestamp <…> это какая дата и время по UTC?” - gemma4 совсем слилась на нем.

Как я тестировал локально новый Qwen 3.6 и Gemma 4

SabMakc 19 апр в 07:24

Линейка qwen как раз знаменита своей хорошей поддержкой русского. Может сильно агрессивный квант скачали? Или был какой тюнинг после квантования? У unsloth c UD-Q2 сталкивался с подобным - перешел на UD-Q4 и все исправилось.

P.S. и да, gemma хороша в переводах. Даже qemma3 была хороша.

Как я тестировал локально новый Qwen 3.6 и Gemma 4

SabMakc 19 апр в 07:16

У меня отключились мышления - сразу отдает ответ. Отключал через chat_template_kwargs.

Как я тестировал локально новый Qwen 3.6 и Gemma 4

SabMakc 18 апр в 19:47

В llama.cpp отключается параметром "chat_template_kwargs": {"enable_thinking": false} (или через аргументы передается). Только убедитесь, что --jinja есть в параметрах - не уверен, что в стандартном шаблоне работает параметр.

Вообще, на странице модели через системный промт описывают как включать или отключать мышление.

Как я запускал Qwen 3.5 на Mac: бенчмарк 8 локальных LLM-серверов. Кто быстрее?

SabMakc 18 апр в 16:08

Так Qwen3.6-35B-A3B уже выложен несколько дней назад.

Пробуем использовать локальные LLM для написания кода

SabMakc 18 апр в 13:18

Ответ больше промта только если спрашивать в чате, постоянно начиная новый разговор. Но после первого же ответа все последующие уточнения имеют больший промт (потому как содержат весь разговор). Благо кеширование спасает )

В агентах же только системный промт может иметь десятки тысяч токенов. А сделать несколько действий - на промты 1кк токенов только так улетит. Благо, кеширование и тут спасает )

По спекулятивному декодированию я бы сказал, что оно не очень в домашних условиях используется - небольшие модели выигрыша не увидят, а для больших железо надо покруче.

Те же модели MoE примерной размерности 30-a3b выглядят оптимально для дома, пробовал подключать спекулятивное декодирование - особого выигрыша не увидел.

Пробуем использовать локальные LLM для написания кода

SabMakc 18 апр в 09:16

Все “свежие” модели, что пробовал используют именно enable_thinking в шаблоне (и все “думающие” модели из статьи такие). Но да, бывают варианты.

Пробуем использовать локальные LLM для написания кода

SabMakc 18 апр в 09:02

Потому как все упирается в объем памяти и в ее пропускную способность. У маков как раз много объединенной памяти (оперативная и видеопамять обьеденина) и она быстрая (чем старше линейка процессора - тем быстрее). GPU по пропускной способности может и быстрее, но больших объемов там нет (а где есть - стоит нереальных денег).

Есть и альтернативы - Ryzen AI MAX+ 395 или NVIDIA DGX Spark. Но это тоже не более чем компромисс - для серьезного использования не хватит ни объема, ни скорости памяти…

Пробуем использовать локальные LLM для написания кода

SabMakc 18 апр в 08:29

Работает действительно быстрее, особенно в обработке промта заметна разница - в 1,5-2 раза (на CPU). В генерации токенов особой разницы не заметил.

Пробуем использовать локальные LLM для написания кода

SabMakc 18 апр в 07:23

Все “думающие” модели можно в не-думающем режиме запустить - для llama.cpp параметр "chat_template_kwargs": {"enable_thinking": false} в запросе (или параметрами запуска настраивается), другой софт может свои параметры иметь для этого.

Качество падает (не сильно, на мой взгляд, но тут от задач зависит), а скорость значительно возрастает.

P.S. Gemma-4-26B-A4B - тоже думающая модель, но она без отметки thinking указана.

Ваш текст воняет GPT. 12 мест, откуда несёт и почему

SabMakc 15 апр в 15:57

И часто происходят эти самые аберрации памяти у человека? Если человек не знает или не уверен - он так и скажет. Да, может додумать/придумать/исказить - не спорю.

LLM же не умеет признаваться в подобном - и это один из значимых недостатков LLM. Она с одинаковой уверенностью говорит и полную ерунду.

И лично у меня больше доверия человеку - особенно если он профессионал в интересующей меня теме.

Ваш текст воняет GPT. 12 мест, откуда несёт и почему

SabMakc 15 апр в 15:49

К мифам и легендам. Правда, не понимаю, к чему вопрос. Как это соотносится к галлюцинаниям?

Ваш текст воняет GPT. 12 мест, откуда несёт и почему

SabMakc 15 апр в 11:14

LLM обучены на материалах от этих же людей - там “личных мнений” на любой цвет и вкус можно найти. Но это все-таки не галлюцинации.

Галлюцинации - это появление фактов, которых не было в обучающих материалах. Человек тоже может забывать, путаться, галлюцинировать в конце концов - не спорю. Но это, как правило, происходит очень редко и сильно от человека зависит.

Вайб-код для настоящих инженеров: старые практики в новых реалиях

SabMakc 15 апр в 06:22

Интеграционные тесты в лучшем случае проверят, что продукт ведет себя так, как задумывалось. Но оставят за бортом большой пласт проблем из серии “такое не задумывалось”. В частности дыры в безопасности, плавающие баги и прочие моменты. Да, ревью кода не даст гарантий на отсутствие этих проблем. Но хоть что-то - лучше, чем ничего.

P.S. Исследования показывают, что от 70% до 90% современных приложений содержат критические уязвимости из-за недостаточного тестирования кода, созданного ИИ.

Вайб-код для настоящих инженеров: старые практики в новых реалиях

SabMakc 15 апр в 06:05

Мне кажется, баги чаще всего прячутся в неожиданных местах независимо от того, кто автор.

Да, но с опытом примерно понимаешь, что можно глянуть “краем глаза”, а что надо “копнуть” глубже. С LLM же под внимательное изучение попадает весь код - и все равно упускаются проблемы.

Не говоря уже о том, что после LLM кода просто больше. И LLM в целом имеет привычку усложнять.

3 4 ...

69 70