По моим наблюдениям GPT-OSS наоборот, более чувствительна к вычислениям (в "родном" кванте).
В ollama начинает генерировать ответ на 4.5 т/сек, но быстро падает примерно до 3 т/сек. Судя по всему, не хватает CPU - есть куда оптимизировать MXFP4.
Если запускать что-то вроде gpt-oss-20b-UD-Q4_K_XL.gguf - то скорость в 2-3 раза выше (хотя размер модели не сильно меньше стал).
Судя по отзывам, 8 каналов EPIC вполне проявляют себя на 8 каналов в скорости инференса. А главное - доступно 512GB RAM, чего хватает на действительно большие модели (пускай и с нюансами).
Но сборка на EPIC обойдется в 200-300к (и это б/у сервер со всеми своими нюансами). За эти деньги можно какой-нибудь AMD Ryzen Al Max+ 395 на 128GB RAM взять с более быстрой памятью. Памяти, конечно, в разы меньше, но это новый и современный мини-ПК.
И agile сейчас во многих местах не более, чем модная замануха, а на деле там ничего общего с гибкостью нет. Блин, всё-таки будто бы виню… ))
Можно подумать, что водопад работал лучше. Нет, всегда доминировали схемы разработки "херак-херак и в продакшен" и "и так сойдет". А с agile просто поменялась вывеска. Если по началу еще пытались следовать манифесту, то со временем все вернулось к тому, что было - так многим проще и хоть как-то работает.
Мне кажется, что для начала, каждый из участников этих процессов должен принять одну простую вещь… не может быть трушным сеньорным айтишником сотрудник, который на заре своей карьеры хотя бы пару-тройку лет не обжимал провода, не собирал компьютер соседу… сотрудник, который ни разу не работал в тех поддержке… и сотрудник, который ни разу не шёл по длинному коридору в сторону очень холодного кабинета к грузному человеку.
Вот прям сильно не согласен. Сотрудник мог целенаправленно идти в разработку - начиная от школы, универа и заканчивая трудоустройством. И "тянуть провода" тут очень и очень вторично. Увлекаться информационными технологиями - это да, я бы сказал, что нужно. Но тянуть провода и работа в тех.поддержке к этому мало относятся. Это, конечно, полезные навыки, но скорее в рамках общего развития.
P.S. лично я бы посоветовал провести проект через все стадии его жизненного цикла - от придумывания идеи и аналитики до релиза и сопровождения - вот тут действительно можно много разнообразнейшего опыта получить.
Младшая версия на 20B, по отзывам пользователей, отлично работает на русском языке, хотя в общем рейтинге находится в четвёртом десятке.
GPT-OSS 120B не пробовал, но GPT-OSS 20B с русским работает крайне посредственно. Но есть свидетельства, что младшая не так зацензурирована - но это не точно )
Да, я так когда-то попросил проанализировать соглашение о конфиденциальности, вставив ссылку на него... Ну я и получил анализ... Какого-то соглашения, которое "на лету" додумала мне LLM по структуре ссылки...
С LLM надо быть очень осторожным - галлюцинации очень убедительны... И опознать их практически невозможно, если сам не разбираешься.
Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...
Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.
У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями.
Да, тоже думал про такое ) Можно даже в виде группового чата, а там каждой модели в промт прописать кто за что отвечает ) Должно интересно получиться )
На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах
Это MoE ) 8 активных экспертов Qwen3-30B-A3B - это около 0.4B на эксперта. Крайне легкая и быстрая модель. Может как-то руки дойдут - выделить какой эксперт за что отвечает и запускать сразу нужного эксперта )
Но если серьезно - много мелких моделей не заменят большую. Но MoE позволяет большой модели очень быстро работать. Так что можно достаточно большую модель запустить не потеряв в скорости, но значительно выиграв в качестве. Как пример тот же Qwen3-30B-A3B - во многих ситуациях не уступает "старшим" собратьям, но работает очень быстро.
Если RAM на сокет достаточно, то выигрыша от NUMA не будет, к сожалению.
Тоже думал про двухсокетную систему - но пропускная способность памяти не объединяется, только объем. Так что если есть возможность - лучше на одном процессоре запускаться, меньше потерь производительности.
Еще можно с пакетной обработкой поиграться, если есть "поток" задач ) Лично у меня очень хорошие результаты были при параллельной обработке - пускай pp падало, но общий tg рос вплоть до "1 ядро - 1 запрос".
P.S. чисто в теории, для MoE можно достичь увеличения скорости работы - если нужных экспертов на разных процах считать (считай одну модель запускать дважды, но разделив нагрузку по экспертам). Но не видел практических реализаций подобного.
Да, на CPU пробовал. Intel i7-10700 и DDR4 2900 2x32GB.
В ollama начинает генерировать ответ на 4.5 т/сек, но быстро падает примерно до 3 т/сек. Судя по всему, не хватает CPU - есть куда оптимизировать MXFP4.
Если запускать что-то вроде gpt-oss-20b-UD-Q4_K_XL.gguf - то скорость в 2-3 раза выше (хотя размер модели не сильно меньше стал). Но в ollama этот квант не заработал, а в llama.cpp есть нюансы с отображением размышлений.
P.S. современные системы раза в 2-3 быстрее могут быть.
Да, qwen3 очень хорош с русским языком. Особенно мне нравится его грамотность в технических вопросах - использую Qwen3-Coder-30B-A3B (до этого просто Qwen3-30B-A3B с /no_think в основном). Неплохо на CPU работает, хотя и хотелось бы побыстрее.
Но именно с текстами/переводами я gemma3 предпочитаю - кажется чуть более грамотным. Но это на уровне ощущений, а не четких тестов.
Qwen3 тоже иногда срывается на рассуждения на английском - особенно младшие модели.
Вообще, за многими моделями я подобное замечал. А бывало что-то вроде "Пользователь написал 'Привет' на русском" - т.е. как будто размышления не на русском должны были быть, но они были на русском (но то не Qwen3 был вроде).
Так что это не показательно.
Тут важно понимание языка - и GPT-OSS сильно потерял и исказил смысл фразы, когда я его попросил перефразировать. Реально вспомнил времена середины 2000х, с кривыми автоматическими переводами софта, игр и субтитров (а то и фильмов/сериалов).
Да, санкций не было. Но на сколько мне известно, было определенное давление со стороны государства для принятия такого "добровольного" и "единодушного" решения.
Как говорится, добрым словом и пистолетом можно добиться гораздо большего, чем просто добрым словом.
В частности, GPT-OSS-120b, будучи более мощной, дольше генерирует ответы и требует более дорогого железа, тогда как GPT-OSS-20b обеспечивает более быстрый отклик и может работать на недорогих видеокартах или даже в CPU-режиме
Активных параметров у старшей всего в 1.5 раза больше - а значит она приемлемо работает и на CPU, вопрос в объеме оперативки.
Щупал GPT-OSS-20b - и основная проблема лично для меня - у нее не очень с русским. Ощущение, что сначала перевели запрос на английский а затем ответ на русский. Причем использовался далеко не самый качественный автоматический переводчик.
Для участия уже нужны готовые 3D-модели (может не в финальном виде) - показать "а что ты хочешь". За участие предлагается 3D-модель - т.е. то, что уже есть. Предполагается, что финансируется именно печать модели для автора. Но на сколько это интересно прочим участникам?
Если есть готовая модель - ее проще напрямую продавать, не связываясь с краудфандингом. Если модели нет - то и на краудфандинг представить практически нечего.
Остается проработка DIY-проектов (и рассылка финального проекта участникам) и разные благотворительные цели для печати.
Лично по моему опыту, размышления были полезны только для понимания "а что не так с вопросом" (где накидывались проблемы и описывалось почему это решение не подходит), сам результат не сказать, что сильно отличался. Но скорость ответа сильно проседала от размышлений.
P.S. Coder как минимум лучше знает возможности стандартной библиотеки Golang (с чем лично столкнулся). Недавно мне Qwen3-30B-A3B-Instruct-2507 на небольшой работающий код нашел критических 5 ошибок, из-за каждой он даже компилироваться не смог бы (судя по описанию ошибок). Но тот же Qwen3-Coder-30B-A3B-Instruct вполне себе по существу комментировал код. Т.е. как минимум, Coder лучше знает возможности стандартной библиотеки Golang.
С одной стороны, всё правильно написано — текущими средствами полноценный AGI не построить, как минимум, потому что обучающих материалов нет в нужном количестве и в нужном качестве. Не говоря уже про алгоритмы работы и вычислительную сложность.
А с другой стороны, все эти проблемы не выглядят нерешаемыми даже существующими средствами. Да, это уже будет не LLM в чистом виде, а скорее какой-то продвинутый агент — который формирует память, формирует цели, формирует опыт (и подсовывает всё это в контекст по мере необходимости). Агент вполне может с этим справиться, пускай и ценой высокого потребления ресурсов.
P.S. Да, текущие LLM не более чем имитация (иногда очень убедительная). Но где граница между пониманием и имитацией понимания? Мы сами-то знаем, на каком уровне имитация перестаёт быть имитацией? Усугубляется всё это тем, что человек сам не до конца понимает, как он работает и функционирует. И, соответственно, мы не сможем сказать, достигнут AGI или нет.
Все современные LLM так делают ) И ладно если в чате - но в режиме агента они и продовую базу могут дропнуть на раз-два )
При всей своей мощи, у LLM нет понимания что она делает. Грубо говоря, она просто по шаблону из обучающего материала отвечает. И чуть более сложная или непопулярная проблема может ввести LLM в ступор.
Причем LLM сгенерирует пример на раз-два. Но удали строчку из примера, получи непонятную ошибку компилятора (или просто проблему в работе) - и LLM не сможет это исправить (в новой сессии), хотя минуту назад рабочий пример сгенерировала.
Т.е. нужные знания заложены в LLM. Но пока сильно ограничена возможность эти знания применять.
Ни что не мешает несколько нейронок использовать параллельно, собирать статистику "кто точнее" и повышать свою точность. Просто как еще один инструмент.
По моим наблюдениям GPT-OSS наоборот, более чувствительна к вычислениям (в "родном" кванте).
Судя по отзывам, 8 каналов EPIC вполне проявляют себя на 8 каналов в скорости инференса. А главное - доступно 512GB RAM, чего хватает на действительно большие модели (пускай и с нюансами).
Но сборка на EPIC обойдется в 200-300к (и это б/у сервер со всеми своими нюансами). За эти деньги можно какой-нибудь AMD Ryzen Al Max+ 395 на 128GB RAM взять с более быстрой памятью. Памяти, конечно, в разы меньше, но это новый и современный мини-ПК.
Можно подумать, что водопад работал лучше. Нет, всегда доминировали схемы разработки "херак-херак и в продакшен" и "и так сойдет". А с agile просто поменялась вывеска. Если по началу еще пытались следовать манифесту, то со временем все вернулось к тому, что было - так многим проще и хоть как-то работает.
Вот прям сильно не согласен. Сотрудник мог целенаправленно идти в разработку - начиная от школы, универа и заканчивая трудоустройством. И "тянуть провода" тут очень и очень вторично. Увлекаться информационными технологиями - это да, я бы сказал, что нужно. Но тянуть провода и работа в тех.поддержке к этому мало относятся. Это, конечно, полезные навыки, но скорее в рамках общего развития.
P.S. лично я бы посоветовал провести проект через все стадии его жизненного цикла - от придумывания идеи и аналитики до релиза и сопровождения - вот тут действительно можно много разнообразнейшего опыта получить.
GPT-OSS 120B не пробовал, но GPT-OSS 20B с русским работает крайне посредственно.
Но есть свидетельства, что младшая не так зацензурирована - но это не точно )
Да, я так когда-то попросил проанализировать соглашение о конфиденциальности, вставив ссылку на него...
Ну я и получил анализ... Какого-то соглашения, которое "на лету" додумала мне LLM по структуре ссылки...
С LLM надо быть очень осторожным - галлюцинации очень убедительны... И опознать их практически невозможно, если сам не разбираешься.
Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.
Да, тоже думал про такое ) Можно даже в виде группового чата, а там каждой модели в промт прописать кто за что отвечает ) Должно интересно получиться )
Это MoE ) 8 активных экспертов Qwen3-30B-A3B - это около 0.4B на эксперта. Крайне легкая и быстрая модель. Может как-то руки дойдут - выделить какой эксперт за что отвечает и запускать сразу нужного эксперта )
Но если серьезно - много мелких моделей не заменят большую. Но MoE позволяет большой модели очень быстро работать. Так что можно достаточно большую модель запустить не потеряв в скорости, но значительно выиграв в качестве. Как пример тот же Qwen3-30B-A3B - во многих ситуациях не уступает "старшим" собратьям, но работает очень быстро.
Если RAM на сокет достаточно, то выигрыша от NUMA не будет, к сожалению.
Тоже думал про двухсокетную систему - но пропускная способность памяти не объединяется, только объем. Так что если есть возможность - лучше на одном процессоре запускаться, меньше потерь производительности.
Еще можно с пакетной обработкой поиграться, если есть "поток" задач )
Лично у меня очень хорошие результаты были при параллельной обработке - пускай pp падало, но общий tg рос вплоть до "1 ядро - 1 запрос".
P.S. чисто в теории, для MoE можно достичь увеличения скорости работы - если нужных экспертов на разных процах считать (считай одну модель запускать дважды, но разделив нагрузку по экспертам). Но не видел практических реализаций подобного.
Вышел Qwen3-Coder-30B-A3B - т.е. тоже на 3млр активных параметров и с поддержкой FIM. С ним не сравнивали свою inline модель?
Вполне может тоже самое показать - при хороших оптимизациях ограничивает скорость памяти, а 4xDDR4 2400 соответствует 2хDDR5 4800.
Да, на CPU пробовал. Intel i7-10700 и DDR4 2900 2x32GB.
В ollama начинает генерировать ответ на 4.5 т/сек, но быстро падает примерно до 3 т/сек. Судя по всему, не хватает CPU - есть куда оптимизировать MXFP4.
Если запускать что-то вроде gpt-oss-20b-UD-Q4_K_XL.gguf - то скорость в 2-3 раза выше (хотя размер модели не сильно меньше стал). Но в ollama этот квант не заработал, а в llama.cpp есть нюансы с отображением размышлений.
P.S. современные системы раза в 2-3 быстрее могут быть.
Да, qwen3 очень хорош с русским языком. Особенно мне нравится его грамотность в технических вопросах - использую Qwen3-Coder-30B-A3B (до этого просто Qwen3-30B-A3B с
/no_thinkв основном). Неплохо на CPU работает, хотя и хотелось бы побыстрее.Но именно с текстами/переводами я gemma3 предпочитаю - кажется чуть более грамотным. Но это на уровне ощущений, а не четких тестов.
Qwen3 тоже иногда срывается на рассуждения на английском - особенно младшие модели.
Вообще, за многими моделями я подобное замечал. А бывало что-то вроде "Пользователь написал 'Привет' на русском" - т.е. как будто размышления не на русском должны были быть, но они были на русском (но то не Qwen3 был вроде).
Так что это не показательно.
Тут важно понимание языка - и GPT-OSS сильно потерял и исказил смысл фразы, когда я его попросил перефразировать. Реально вспомнил времена середины 2000х, с кривыми автоматическими переводами софта, игр и субтитров (а то и фильмов/сериалов).
Да, санкций не было. Но на сколько мне известно, было определенное давление со стороны государства для принятия такого "добровольного" и "единодушного" решения.
Как говорится, добрым словом и пистолетом можно добиться гораздо большего, чем просто добрым словом.
Активных параметров у старшей всего в 1.5 раза больше - а значит она приемлемо работает и на CPU, вопрос в объеме оперативки.
Щупал GPT-OSS-20b - и основная проблема лично для меня - у нее не очень с русским. Ощущение, что сначала перевели запрос на английский а затем ответ на русский. Причем использовался далеко не самый качественный автоматический переводчик.
А что за интерфейс, что показывает вероятности слов?
P.S. 20B-модель вроде не так зацензурена )
P.P.S. похоже, что это https://github.com/lmg-anon/mikupad
Для участия уже нужны готовые 3D-модели (может не в финальном виде) - показать "а что ты хочешь". За участие предлагается 3D-модель - т.е. то, что уже есть. Предполагается, что финансируется именно печать модели для автора. Но на сколько это интересно прочим участникам?
Если есть готовая модель - ее проще напрямую продавать, не связываясь с краудфандингом. Если модели нет - то и на краудфандинг представить практически нечего.
Остается проработка DIY-проектов (и рассылка финального проекта участникам) и разные благотворительные цели для печати.
Вопросов не было бы если бы LLM ответила "никто" (при решении "в лоб" на трубе никто не остался). Меня бы удовлетворил ответ "не знаю".
Но она ответила "труба". А это, с какой стороны не посмотри, некорректный ответ.
P.S. "правильного ответа не существует" - тоже неправильный вариант. Он есть, даже при буквальном понимании загадки.
А размышления помогали лично Вам?
Лично по моему опыту, размышления были полезны только для понимания "а что не так с вопросом" (где накидывались проблемы и описывалось почему это решение не подходит), сам результат не сказать, что сильно отличался.
Но скорость ответа сильно проседала от размышлений.
P.S. Coder как минимум лучше знает возможности стандартной библиотеки Golang (с чем лично столкнулся).
Недавно мне Qwen3-30B-A3B-Instruct-2507 на небольшой работающий код нашел критических 5 ошибок, из-за каждой он даже компилироваться не смог бы (судя по описанию ошибок).
Но тот же Qwen3-Coder-30B-A3B-Instruct вполне себе по существу комментировал код. Т.е. как минимум, Coder лучше знает возможности стандартной библиотеки Golang.
С одной стороны, всё правильно написано — текущими средствами полноценный AGI не построить, как минимум, потому что обучающих материалов нет в нужном количестве и в нужном качестве. Не говоря уже про алгоритмы работы и вычислительную сложность.
А с другой стороны, все эти проблемы не выглядят нерешаемыми даже существующими средствами. Да, это уже будет не LLM в чистом виде, а скорее какой-то продвинутый агент — который формирует память, формирует цели, формирует опыт (и подсовывает всё это в контекст по мере необходимости). Агент вполне может с этим справиться, пускай и ценой высокого потребления ресурсов.
P.S. Да, текущие LLM не более чем имитация (иногда очень убедительная). Но где граница между пониманием и имитацией понимания? Мы сами-то знаем, на каком уровне имитация перестаёт быть имитацией? Усугубляется всё это тем, что человек сам не до конца понимает, как он работает и функционирует. И, соответственно, мы не сможем сказать, достигнут AGI или нет.
Все современные LLM так делают )
И ладно если в чате - но в режиме агента они и продовую базу могут дропнуть на раз-два )
При всей своей мощи, у LLM нет понимания что она делает. Грубо говоря, она просто по шаблону из обучающего материала отвечает. И чуть более сложная или непопулярная проблема может ввести LLM в ступор.
Причем LLM сгенерирует пример на раз-два. Но удали строчку из примера, получи непонятную ошибку компилятора (или просто проблему в работе) - и LLM не сможет это исправить (в новой сессии), хотя минуту назад рабочий пример сгенерировала.
Т.е. нужные знания заложены в LLM. Но пока сильно ограничена возможность эти знания применять.
Ни что не мешает несколько нейронок использовать параллельно, собирать статистику "кто точнее" и повышать свою точность. Просто как еще один инструмент.