Локальные модели не станут массовым явлением - просто потому что требуют подбора под железо оптимальной модели по навыкам, размеру и скорости работы. И все равно будет много компромиссов - всегда хочется большего. Так что локальные LLM останутся уделом энтузиастов. Ну или какой софт будет использовать небольшие узкоспециализированные модели для своей работы (как уже поступают фото- и видео-редакторы).
Так что "облачные" LLM никуда не уйдут - они, в первую очередь, удобны пользователям.
Люди то и дело критикуют всю сферу, предсказывая лопнутый пузырь, при этом один из главных аргументов критики это то, что алгоритмы ИИ работают не так, как человеческий мозг.
Критикуют, в первую очередь, за раздутые ожидания и надувание пузыря. Да, LLM - это полезный инструмент. Но очень дорогой, если его не спонсировать инвесторам. А за полную стоимость он уже далеко не так интересен пользователям.
2 сокета только ради 1TB RAM имеет смысл закупать, но скорость работы это не повышает, к сожалению. Может когда-нибудь MoE-системы и смогут увеличить производительность за счет обсчета разных экспертов на разных сокетах - пускай и за счет двукратного потребления RAM.
Ну а "AI системы для смертных" мало чем отличаются от "AI системы для богатых". Так что скорость памяти - практически единственное, что можно ранжировать от стоимости.
Вычислительная мощь, объем и скорость памяти - это базовые ценности для ПК, они никогда дешевыми не были и не будут.
Да и в целом, устройства для энтузиастов никогда не отличались бюджетностью.
Впрочем, если хочется много и быстрой памяти - есть MacStudio с M3 Ultra на 512GB RAM. Стоимость за 1кк, но и скорость памяти за 800 ГБ/сек - всего раза в 2.5 меньше чем у топовых видеокарт. А объемы памяти несопоставимы с видеокартами даже серверного сегмента. А если и 512GB RAM мало - то маки хорошо кластеризуются.
Так что варианты есть, вопрос, как и всегда, в бюджете. От простых сборок на DDR5 (чего вполне хватит на Qwen3 c A3B и возможно даже на GLM-4.5-Air с A12B) и специализированных систем вроде AMD Ryzen Al Max+ 395 за сравнимый бюджет. До "топовой" MacStudio, что позволит запускать большие модели на неплохой скорости.
По моим наблюдениям GPT-OSS наоборот, более чувствительна к вычислениям (в "родном" кванте).
В ollama начинает генерировать ответ на 4.5 т/сек, но быстро падает примерно до 3 т/сек. Судя по всему, не хватает CPU - есть куда оптимизировать MXFP4.
Если запускать что-то вроде gpt-oss-20b-UD-Q4_K_XL.gguf - то скорость в 2-3 раза выше (хотя размер модели не сильно меньше стал).
Судя по отзывам, 8 каналов EPIC вполне проявляют себя на 8 каналов в скорости инференса. А главное - доступно 512GB RAM, чего хватает на действительно большие модели (пускай и с нюансами).
Но сборка на EPIC обойдется в 200-300к (и это б/у сервер со всеми своими нюансами). За эти деньги можно какой-нибудь AMD Ryzen Al Max+ 395 на 128GB RAM взять с более быстрой памятью. Памяти, конечно, в разы меньше, но это новый и современный мини-ПК.
И agile сейчас во многих местах не более, чем модная замануха, а на деле там ничего общего с гибкостью нет. Блин, всё-таки будто бы виню… ))
Можно подумать, что водопад работал лучше. Нет, всегда доминировали схемы разработки "херак-херак и в продакшен" и "и так сойдет". А с agile просто поменялась вывеска. Если по началу еще пытались следовать манифесту, то со временем все вернулось к тому, что было - так многим проще и хоть как-то работает.
Мне кажется, что для начала, каждый из участников этих процессов должен принять одну простую вещь… не может быть трушным сеньорным айтишником сотрудник, который на заре своей карьеры хотя бы пару-тройку лет не обжимал провода, не собирал компьютер соседу… сотрудник, который ни разу не работал в тех поддержке… и сотрудник, который ни разу не шёл по длинному коридору в сторону очень холодного кабинета к грузному человеку.
Вот прям сильно не согласен. Сотрудник мог целенаправленно идти в разработку - начиная от школы, универа и заканчивая трудоустройством. И "тянуть провода" тут очень и очень вторично. Увлекаться информационными технологиями - это да, я бы сказал, что нужно. Но тянуть провода и работа в тех.поддержке к этому мало относятся. Это, конечно, полезные навыки, но скорее в рамках общего развития.
P.S. лично я бы посоветовал провести проект через все стадии его жизненного цикла - от придумывания идеи и аналитики до релиза и сопровождения - вот тут действительно можно много разнообразнейшего опыта получить.
Младшая версия на 20B, по отзывам пользователей, отлично работает на русском языке, хотя в общем рейтинге находится в четвёртом десятке.
GPT-OSS 120B не пробовал, но GPT-OSS 20B с русским работает крайне посредственно. Но есть свидетельства, что младшая не так зацензурирована - но это не точно )
Да, я так когда-то попросил проанализировать соглашение о конфиденциальности, вставив ссылку на него... Ну я и получил анализ... Какого-то соглашения, которое "на лету" додумала мне LLM по структуре ссылки...
С LLM надо быть очень осторожным - галлюцинации очень убедительны... И опознать их практически невозможно, если сам не разбираешься.
Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...
Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.
У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями.
Да, тоже думал про такое ) Можно даже в виде группового чата, а там каждой модели в промт прописать кто за что отвечает ) Должно интересно получиться )
На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах
Это MoE ) 8 активных экспертов Qwen3-30B-A3B - это около 0.4B на эксперта. Крайне легкая и быстрая модель. Может как-то руки дойдут - выделить какой эксперт за что отвечает и запускать сразу нужного эксперта )
Но если серьезно - много мелких моделей не заменят большую. Но MoE позволяет большой модели очень быстро работать. Так что можно достаточно большую модель запустить не потеряв в скорости, но значительно выиграв в качестве. Как пример тот же Qwen3-30B-A3B - во многих ситуациях не уступает "старшим" собратьям, но работает очень быстро.
Если RAM на сокет достаточно, то выигрыша от NUMA не будет, к сожалению.
Тоже думал про двухсокетную систему - но пропускная способность памяти не объединяется, только объем. Так что если есть возможность - лучше на одном процессоре запускаться, меньше потерь производительности.
Еще можно с пакетной обработкой поиграться, если есть "поток" задач ) Лично у меня очень хорошие результаты были при параллельной обработке - пускай pp падало, но общий tg рос вплоть до "1 ядро - 1 запрос".
P.S. чисто в теории, для MoE можно достичь увеличения скорости работы - если нужных экспертов на разных процах считать (считай одну модель запускать дважды, но разделив нагрузку по экспертам). Но не видел практических реализаций подобного.
Да, на CPU пробовал. Intel i7-10700 и DDR4 2900 2x32GB.
В ollama начинает генерировать ответ на 4.5 т/сек, но быстро падает примерно до 3 т/сек. Судя по всему, не хватает CPU - есть куда оптимизировать MXFP4.
Если запускать что-то вроде gpt-oss-20b-UD-Q4_K_XL.gguf - то скорость в 2-3 раза выше (хотя размер модели не сильно меньше стал). Но в ollama этот квант не заработал, а в llama.cpp есть нюансы с отображением размышлений.
P.S. современные системы раза в 2-3 быстрее могут быть.
Да, qwen3 очень хорош с русским языком. Особенно мне нравится его грамотность в технических вопросах - использую Qwen3-Coder-30B-A3B (до этого просто Qwen3-30B-A3B с /no_think в основном). Неплохо на CPU работает, хотя и хотелось бы побыстрее.
Но именно с текстами/переводами я gemma3 предпочитаю - кажется чуть более грамотным. Но это на уровне ощущений, а не четких тестов.
Qwen3 тоже иногда срывается на рассуждения на английском - особенно младшие модели.
Вообще, за многими моделями я подобное замечал. А бывало что-то вроде "Пользователь написал 'Привет' на русском" - т.е. как будто размышления не на русском должны были быть, но они были на русском (но то не Qwen3 был вроде).
Так что это не показательно.
Тут важно понимание языка - и GPT-OSS сильно потерял и исказил смысл фразы, когда я его попросил перефразировать. Реально вспомнил времена середины 2000х, с кривыми автоматическими переводами софта, игр и субтитров (а то и фильмов/сериалов).
Да, санкций не было. Но на сколько мне известно, было определенное давление со стороны государства для принятия такого "добровольного" и "единодушного" решения.
Как говорится, добрым словом и пистолетом можно добиться гораздо большего, чем просто добрым словом.
В частности, GPT-OSS-120b, будучи более мощной, дольше генерирует ответы и требует более дорогого железа, тогда как GPT-OSS-20b обеспечивает более быстрый отклик и может работать на недорогих видеокартах или даже в CPU-режиме
Активных параметров у старшей всего в 1.5 раза больше - а значит она приемлемо работает и на CPU, вопрос в объеме оперативки.
Щупал GPT-OSS-20b - и основная проблема лично для меня - у нее не очень с русским. Ощущение, что сначала перевели запрос на английский а затем ответ на русский. Причем использовался далеко не самый качественный автоматический переводчик.
Для участия уже нужны готовые 3D-модели (может не в финальном виде) - показать "а что ты хочешь". За участие предлагается 3D-модель - т.е. то, что уже есть. Предполагается, что финансируется именно печать модели для автора. Но на сколько это интересно прочим участникам?
Если есть готовая модель - ее проще напрямую продавать, не связываясь с краудфандингом. Если модели нет - то и на краудфандинг представить практически нечего.
Остается проработка DIY-проектов (и рассылка финального проекта участникам) и разные благотворительные цели для печати.
Лично по моему опыту, размышления были полезны только для понимания "а что не так с вопросом" (где накидывались проблемы и описывалось почему это решение не подходит), сам результат не сказать, что сильно отличался. Но скорость ответа сильно проседала от размышлений.
P.S. Coder как минимум лучше знает возможности стандартной библиотеки Golang (с чем лично столкнулся). Недавно мне Qwen3-30B-A3B-Instruct-2507 на небольшой работающий код нашел критических 5 ошибок, из-за каждой он даже компилироваться не смог бы (судя по описанию ошибок). Но тот же Qwen3-Coder-30B-A3B-Instruct вполне себе по существу комментировал код. Т.е. как минимум, Coder лучше знает возможности стандартной библиотеки Golang.
Локальные модели не станут массовым явлением - просто потому что требуют подбора под железо оптимальной модели по навыкам, размеру и скорости работы. И все равно будет много компромиссов - всегда хочется большего. Так что локальные LLM останутся уделом энтузиастов. Ну или какой софт будет использовать небольшие узкоспециализированные модели для своей работы (как уже поступают фото- и видео-редакторы).
Так что "облачные" LLM никуда не уйдут - они, в первую очередь, удобны пользователям.
Критикуют, в первую очередь, за раздутые ожидания и надувание пузыря. Да, LLM - это полезный инструмент. Но очень дорогой, если его не спонсировать инвесторам. А за полную стоимость он уже далеко не так интересен пользователям.
2 сокета только ради 1TB RAM имеет смысл закупать, но скорость работы это не повышает, к сожалению. Может когда-нибудь MoE-системы и смогут увеличить производительность за счет обсчета разных экспертов на разных сокетах - пускай и за счет двукратного потребления RAM.
Ну а "AI системы для смертных" мало чем отличаются от "AI системы для богатых". Так что скорость памяти - практически единственное, что можно ранжировать от стоимости.
Вычислительная мощь, объем и скорость памяти - это базовые ценности для ПК, они никогда дешевыми не были и не будут.
Да и в целом, устройства для энтузиастов никогда не отличались бюджетностью.
Впрочем, если хочется много и быстрой памяти - есть MacStudio с M3 Ultra на 512GB RAM. Стоимость за 1кк, но и скорость памяти за 800 ГБ/сек - всего раза в 2.5 меньше чем у топовых видеокарт. А объемы памяти несопоставимы с видеокартами даже серверного сегмента. А если и 512GB RAM мало - то маки хорошо кластеризуются.
Так что варианты есть, вопрос, как и всегда, в бюджете. От простых сборок на DDR5 (чего вполне хватит на Qwen3 c A3B и возможно даже на GLM-4.5-Air с A12B) и специализированных систем вроде AMD Ryzen Al Max+ 395 за сравнимый бюджет. До "топовой" MacStudio, что позволит запускать большие модели на неплохой скорости.
По моим наблюдениям GPT-OSS наоборот, более чувствительна к вычислениям (в "родном" кванте).
Судя по отзывам, 8 каналов EPIC вполне проявляют себя на 8 каналов в скорости инференса. А главное - доступно 512GB RAM, чего хватает на действительно большие модели (пускай и с нюансами).
Но сборка на EPIC обойдется в 200-300к (и это б/у сервер со всеми своими нюансами). За эти деньги можно какой-нибудь AMD Ryzen Al Max+ 395 на 128GB RAM взять с более быстрой памятью. Памяти, конечно, в разы меньше, но это новый и современный мини-ПК.
Можно подумать, что водопад работал лучше. Нет, всегда доминировали схемы разработки "херак-херак и в продакшен" и "и так сойдет". А с agile просто поменялась вывеска. Если по началу еще пытались следовать манифесту, то со временем все вернулось к тому, что было - так многим проще и хоть как-то работает.
Вот прям сильно не согласен. Сотрудник мог целенаправленно идти в разработку - начиная от школы, универа и заканчивая трудоустройством. И "тянуть провода" тут очень и очень вторично. Увлекаться информационными технологиями - это да, я бы сказал, что нужно. Но тянуть провода и работа в тех.поддержке к этому мало относятся. Это, конечно, полезные навыки, но скорее в рамках общего развития.
P.S. лично я бы посоветовал провести проект через все стадии его жизненного цикла - от придумывания идеи и аналитики до релиза и сопровождения - вот тут действительно можно много разнообразнейшего опыта получить.
GPT-OSS 120B не пробовал, но GPT-OSS 20B с русским работает крайне посредственно.
Но есть свидетельства, что младшая не так зацензурирована - но это не точно )
Да, я так когда-то попросил проанализировать соглашение о конфиденциальности, вставив ссылку на него...
Ну я и получил анализ... Какого-то соглашения, которое "на лету" додумала мне LLM по структуре ссылки...
С LLM надо быть очень осторожным - галлюцинации очень убедительны... И опознать их практически невозможно, если сам не разбираешься.
Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.
Да, тоже думал про такое ) Можно даже в виде группового чата, а там каждой модели в промт прописать кто за что отвечает ) Должно интересно получиться )
Это MoE ) 8 активных экспертов Qwen3-30B-A3B - это около 0.4B на эксперта. Крайне легкая и быстрая модель. Может как-то руки дойдут - выделить какой эксперт за что отвечает и запускать сразу нужного эксперта )
Но если серьезно - много мелких моделей не заменят большую. Но MoE позволяет большой модели очень быстро работать. Так что можно достаточно большую модель запустить не потеряв в скорости, но значительно выиграв в качестве. Как пример тот же Qwen3-30B-A3B - во многих ситуациях не уступает "старшим" собратьям, но работает очень быстро.
Если RAM на сокет достаточно, то выигрыша от NUMA не будет, к сожалению.
Тоже думал про двухсокетную систему - но пропускная способность памяти не объединяется, только объем. Так что если есть возможность - лучше на одном процессоре запускаться, меньше потерь производительности.
Еще можно с пакетной обработкой поиграться, если есть "поток" задач )
Лично у меня очень хорошие результаты были при параллельной обработке - пускай pp падало, но общий tg рос вплоть до "1 ядро - 1 запрос".
P.S. чисто в теории, для MoE можно достичь увеличения скорости работы - если нужных экспертов на разных процах считать (считай одну модель запускать дважды, но разделив нагрузку по экспертам). Но не видел практических реализаций подобного.
Вышел Qwen3-Coder-30B-A3B - т.е. тоже на 3млр активных параметров и с поддержкой FIM. С ним не сравнивали свою inline модель?
Вполне может тоже самое показать - при хороших оптимизациях ограничивает скорость памяти, а 4xDDR4 2400 соответствует 2хDDR5 4800.
Да, на CPU пробовал. Intel i7-10700 и DDR4 2900 2x32GB.
В ollama начинает генерировать ответ на 4.5 т/сек, но быстро падает примерно до 3 т/сек. Судя по всему, не хватает CPU - есть куда оптимизировать MXFP4.
Если запускать что-то вроде gpt-oss-20b-UD-Q4_K_XL.gguf - то скорость в 2-3 раза выше (хотя размер модели не сильно меньше стал). Но в ollama этот квант не заработал, а в llama.cpp есть нюансы с отображением размышлений.
P.S. современные системы раза в 2-3 быстрее могут быть.
Да, qwen3 очень хорош с русским языком. Особенно мне нравится его грамотность в технических вопросах - использую Qwen3-Coder-30B-A3B (до этого просто Qwen3-30B-A3B с
/no_thinkв основном). Неплохо на CPU работает, хотя и хотелось бы побыстрее.Но именно с текстами/переводами я gemma3 предпочитаю - кажется чуть более грамотным. Но это на уровне ощущений, а не четких тестов.
Qwen3 тоже иногда срывается на рассуждения на английском - особенно младшие модели.
Вообще, за многими моделями я подобное замечал. А бывало что-то вроде "Пользователь написал 'Привет' на русском" - т.е. как будто размышления не на русском должны были быть, но они были на русском (но то не Qwen3 был вроде).
Так что это не показательно.
Тут важно понимание языка - и GPT-OSS сильно потерял и исказил смысл фразы, когда я его попросил перефразировать. Реально вспомнил времена середины 2000х, с кривыми автоматическими переводами софта, игр и субтитров (а то и фильмов/сериалов).
Да, санкций не было. Но на сколько мне известно, было определенное давление со стороны государства для принятия такого "добровольного" и "единодушного" решения.
Как говорится, добрым словом и пистолетом можно добиться гораздо большего, чем просто добрым словом.
Активных параметров у старшей всего в 1.5 раза больше - а значит она приемлемо работает и на CPU, вопрос в объеме оперативки.
Щупал GPT-OSS-20b - и основная проблема лично для меня - у нее не очень с русским. Ощущение, что сначала перевели запрос на английский а затем ответ на русский. Причем использовался далеко не самый качественный автоматический переводчик.
А что за интерфейс, что показывает вероятности слов?
P.S. 20B-модель вроде не так зацензурена )
P.P.S. похоже, что это https://github.com/lmg-anon/mikupad
Для участия уже нужны готовые 3D-модели (может не в финальном виде) - показать "а что ты хочешь". За участие предлагается 3D-модель - т.е. то, что уже есть. Предполагается, что финансируется именно печать модели для автора. Но на сколько это интересно прочим участникам?
Если есть готовая модель - ее проще напрямую продавать, не связываясь с краудфандингом. Если модели нет - то и на краудфандинг представить практически нечего.
Остается проработка DIY-проектов (и рассылка финального проекта участникам) и разные благотворительные цели для печати.
Вопросов не было бы если бы LLM ответила "никто" (при решении "в лоб" на трубе никто не остался). Меня бы удовлетворил ответ "не знаю".
Но она ответила "труба". А это, с какой стороны не посмотри, некорректный ответ.
P.S. "правильного ответа не существует" - тоже неправильный вариант. Он есть, даже при буквальном понимании загадки.
А размышления помогали лично Вам?
Лично по моему опыту, размышления были полезны только для понимания "а что не так с вопросом" (где накидывались проблемы и описывалось почему это решение не подходит), сам результат не сказать, что сильно отличался.
Но скорость ответа сильно проседала от размышлений.
P.S. Coder как минимум лучше знает возможности стандартной библиотеки Golang (с чем лично столкнулся).
Недавно мне Qwen3-30B-A3B-Instruct-2507 на небольшой работающий код нашел критических 5 ошибок, из-за каждой он даже компилироваться не смог бы (судя по описанию ошибок).
Но тот же Qwen3-Coder-30B-A3B-Instruct вполне себе по существу комментировал код. Т.е. как минимум, Coder лучше знает возможности стандартной библиотеки Golang.