Pull to refresh
19
Максим@SabMakc

User

0,6
Rating
5
Subscribers
Send message

Qwen3-Coder отлично подходит для технических вопросов. Для переводов / работы с текстом - gemma лучше. Для разговоров я бы gemma взял, наверное.

P.S. еще можно посмотреть на Qwen3-30B-A3B-2507 (Instruct / Thinking) - тоже быстрая. Хотя Qwen3.6-35B-A3B свежее, а значит и “поумнее” будет.

P.P.S. тут лучше самому пробовать свои задачи с разными моделями.

А как оно с предлогами местоимениями работает?

  • Документы режутся на чанки (стандартно — по предложениям).

  • Одновременно LLM обрабатывает каждый чанк через OpenIE и извлекает из него все смысловые триплеты.

А как оно с предлогами работает? Извлечет “Петр является строителем” из “Петр родился в Москве. Он был строителем.”? Если с предложениями работает - то передается как-то дополнительный контекст о предыдущем тексте между чанками?

Разве это завышенные ожидания от “Опытный python разработчик с многолетним стажем.”? Если нужен senior-разработчик, то такого и ищут. ИИ - просто еще одна область знаний, с которой опытный разраб быстро разберется (если не касаться обучения моделей). Да, возможно, наделает ошибок по неопытности. Времени точно больше займет - как минимум на изучение темы. Но справится. А вот сумеет ли “AI-специалист” в разработку - вопрос гораздо интереснее.

Практически любая MoE c A3B. Например, Qwen3.6-35B-A3B или gemma-4-26B-A4B. Скорость у них будет около 8 ток/сек. Или брать Qwen3-Coder-30B-A3B - он быстрее раза в 2.

P.S. для чата таких скоростей достаточно, но для агентской работы явно мало.

Только если настроен выполнить тестовое - интернет все равно будет нужен, как минимум скачать зависимости проекта.

1.task.allowAutomaticTasks: off в VSCode

Настройка запрещает автоматический запуск workspace-задач. При значении off VSCode либо вообще не запустит задачу, либо явно спросит разрешения — в отличие от дефолтного поведения, когда задача стартует тихо.

Только task.allowAutomaticTasks в “off” идет по умолчанию.

Посмотрел “Карту пул-реквестов”. И сразу видно - в пятницу не релизим (ну почти). В четверг вjobываем до победного (а точнее до пятницы). Понедельник - отправляем все, что скопилось за пятницу.

Но самый смак - пул-реквесты 24 часа в сутки 7 дней в неделю. Максимум - перед рассветом по выходным их нет.

P.S. Я, конечно, понимаю, что там не обязательно везде один часовой пояс. И не только от разработчиков PR идут (а скорее от дежурных инженеров по ночам). Но все равно очень показательно получилось )))

В Ollama контекст по умолчанию 4096 (для инференса на CPU), т.е. даже меньше. Да, Q4_K_M - это оно. Или что-то вроде UD-Q4_K_XL от unsloth.

OpenWebUI нагружает систему может и не сильно, но у него в требованиях от 2GB RAM. На 1GB RAM он даже не запускается - пробовал на RaspPi 3 запустить, не получилось. Хотя после запуска аппетиты меньше в простое. Но если памяти и так мало - то это может быть критичным.

С Modelfile от ollama не игрался особо - быстро перешел на llama.cpp и ik_llama.cpp, где все настройки можно указать флагами.

Для инференса на CPU неплохо подходят MoE примерной размерности 30B-A3B.

Т.е. те же Qwen3.6-35B-A3B и gemma-4-26B-A4B. 32GB им хватит (как минимум если размер контекста ограничить до 10к и использовать квант Q4), но если есть и другой софт, потребляющий память - то могут быть проблемы с их одновременной работой.

Как запускать - уже другой вопрос. Лично я предпочитаю llama.cpp или ik_llama.cpp - один раз запускаешь с нужной моделью и LLM всегда под рукой, сразу занимая нужную ей RAM. И неплохой UI в браузере до кучи (OpenWebUI хорош, но тяжеловесен).

Практически все модели, что меньше показали себя заметно хуже - или скорость инференса никакая, или просто тупая. Максимум - gemma-E4B может себя чуть лучше показать, но многого я бы не ожидал.

P.S. а Qwen3-Coder-30B-A3B будет заметно шустрее работать относительно Qwen3.6 и gemma-4. Но эта модель послабее будет.

Так Qwen3-Coder (Qwen3-Coder-30B-A3B) - это не мыслящая модель, она сразу начинает отвечать. И да, она в целом склонна к коротким ответам - в этом ее существенный плюс.

Не замечал подобного. От силы на фразу “пиши комментарии в коде на английском” она весь текст ответа на английском дает. Но этим практически все модели “страдают” (по крайней мере из тех, что пробовал локально).

При сравнении gemma3 с qwen3 за gemma были переводы и литературный текст, за qwen технические вещи. Если же брать свежие ревизии gemma4 и qwen3.6 - то я еще недостаточно игрался с ними, чтобы назвать сильные и слабые стороны.

Подозреваю, что с языками gemma4 не хуже справляется. И как минимум технические вещи подтянули у нее - это я уже успел проверить.

Qwen3.6 же только вышел - еще не успел поиграться толком. Обещают прорыв, даже относительно gemma4 (она есть в сравнении от производителя). На сколько правда - другой вопрос.

Но как минимум qwen3.6 правильно отвечает на вопрос вида “Unixtimestamp <…> это какая дата и время по UTC?” - gemma4 совсем слилась на нем.

Линейка qwen как раз знаменита своей хорошей поддержкой русского. Может сильно агрессивный квант скачали? Или был какой тюнинг после квантования? У unsloth c UD-Q2 сталкивался с подобным - перешел на UD-Q4 и все исправилось.

P.S. и да, gemma хороша в переводах. Даже qemma3 была хороша.

У меня отключились мышления - сразу отдает ответ. Отключал через chat_template_kwargs.

В llama.cpp отключается параметром "chat_template_kwargs": {"enable_thinking": false} (или через аргументы передается). Только убедитесь, что --jinja есть в параметрах - не уверен, что в стандартном шаблоне работает параметр.

Вообще, на странице модели через системный промт описывают как включать или отключать мышление.

Так Qwen3.6-35B-A3B уже выложен несколько дней назад.

Ответ больше промта только если спрашивать в чате, постоянно начиная новый разговор. Но после первого же ответа все последующие уточнения имеют больший промт (потому как содержат весь разговор). Благо кеширование спасает )

В агентах же только системный промт может иметь десятки тысяч токенов. А сделать несколько действий - на промты 1кк токенов только так улетит. Благо, кеширование и тут спасает )

По спекулятивному декодированию я бы сказал, что оно не очень в домашних условиях используется - небольшие модели выигрыша не увидят, а для больших железо надо покруче.

Те же модели MoE примерной размерности 30-a3b выглядят оптимально для дома, пробовал подключать спекулятивное декодирование - особого выигрыша не увидел.

Все “свежие” модели, что пробовал используют именно enable_thinking в шаблоне (и все “думающие” модели из статьи такие). Но да, бывают варианты.

Потому как все упирается в объем памяти и в ее пропускную способность. У маков как раз много объединенной памяти (оперативная и видеопамять обьеденина) и она быстрая (чем старше линейка процессора - тем быстрее). GPU по пропускной способности может и быстрее, но больших объемов там нет (а где есть - стоит нереальных денег).

Есть и альтернативы - Ryzen AI MAX+ 395 или NVIDIA DGX Spark. Но это тоже не более чем компромисс - для серьезного использования не хватит ни объема, ни скорости памяти…

1
23 ...

Information

Rating
2,462-nd
Location
Россия
Registered
Activity