Comments / Profile of SabMakc / Habr

User

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

По моим наблюдениям GPT-OSS наоборот, более чувствительна к вычислениям (в "родном" кванте).

В ollama начинает генерировать ответ на 4.5 т/сек, но быстро падает примерно до 3 т/сек. Судя по всему, не хватает CPU - есть куда оптимизировать MXFP4.
Если запускать что-то вроде gpt-oss-20b-UD-Q4_K_XL.gguf - то скорость в 2-3 раза выше (хотя размер модели не сильно меньше стал).

Судя по отзывам, 8 каналов EPIC вполне проявляют себя на 8 каналов в скорости инференса. А главное - доступно 512GB RAM, чего хватает на действительно большие модели (пускай и с нюансами).

Но сборка на EPIC обойдется в 200-300к (и это б/у сервер со всеми своими нюансами). За эти деньги можно какой-нибудь AMD Ryzen Al Max+ 395 на 128GB RAM взять с более быстрой памятью. Памяти, конечно, в разы меньше, но это новый и современный мини-ПК.

Про IT в 2025 году

SabMakc Aug 15 at 13:53

И agile сейчас во многих местах не более, чем модная замануха, а на деле там ничего общего с гибкостью нет. Блин, всё-таки будто бы виню… ))

Можно подумать, что водопад работал лучше. Нет, всегда доминировали схемы разработки "херак-херак и в продакшен" и "и так сойдет". А с agile просто поменялась вывеска. Если по началу еще пытались следовать манифесту, то со временем все вернулось к тому, что было - так многим проще и хоть как-то работает.

Мне кажется, что для начала, каждый из участников этих процессов должен принять одну простую вещь… не может быть трушным сеньорным айтишником сотрудник, который на заре своей карьеры хотя бы пару-тройку лет не обжимал провода, не собирал компьютер соседу… сотрудник, который ни разу не работал в тех поддержке… и сотрудник, который ни разу не шёл по длинному коридору в сторону очень холодного кабинета к грузному человеку.

Вот прям сильно не согласен. Сотрудник мог целенаправленно идти в разработку - начиная от школы, универа и заканчивая трудоустройством. И "тянуть провода" тут очень и очень вторично. Увлекаться информационными технологиями - это да, я бы сказал, что нужно. Но тянуть провода и работа в тех.поддержке к этому мало относятся. Это, конечно, полезные навыки, но скорее в рамках общего развития.

P.S. лично я бы посоветовал провести проект через все стадии его жизненного цикла - от придумывания идеи и аналитики до релиза и сопровождения - вот тут действительно можно много разнообразнейшего опыта получить.

Нейро-дайджест: ключевые события мира AI за 2 неделю августа 2025

SabMakc Aug 15 at 11:31

Младшая версия на 20B, по отзывам пользователей, отлично работает на русском языке, хотя в общем рейтинге находится в четвёртом десятке.

GPT-OSS 120B не пробовал, но GPT-OSS 20B с русским работает крайне посредственно.
Но есть свидетельства, что младшая не так зацензурирована - но это не точно )

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

SabMakc Aug 12 at 13:03

Да, я так когда-то попросил проанализировать соглашение о конфиденциальности, вставив ссылку на него...
Ну я и получил анализ... Какого-то соглашения, которое "на лету" додумала мне LLM по структуре ссылки...

С LLM надо быть очень осторожным - галлюцинации очень убедительны... И опознать их практически невозможно, если сам не разбираешься.

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

SabMakc Aug 11 at 18:19

Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...

Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.

У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями.

Да, тоже думал про такое ) Можно даже в виде группового чата, а там каждой модели в промт прописать кто за что отвечает ) Должно интересно получиться )

На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах

Это MoE ) 8 активных экспертов Qwen3-30B-A3B - это около 0.4B на эксперта. Крайне легкая и быстрая модель. Может как-то руки дойдут - выделить какой эксперт за что отвечает и запускать сразу нужного эксперта )

Но если серьезно - много мелких моделей не заменят большую. Но MoE позволяет большой модели очень быстро работать. Так что можно достаточно большую модель запустить не потеряв в скорости, но значительно выиграв в качестве. Как пример тот же Qwen3-30B-A3B - во многих ситуациях не уступает "старшим" собратьям, но работает очень быстро.

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

SabMakc Aug 11 at 11:43

Если RAM на сокет достаточно, то выигрыша от NUMA не будет, к сожалению.

Тоже думал про двухсокетную систему - но пропускная способность памяти не объединяется, только объем. Так что если есть возможность - лучше на одном процессоре запускаться, меньше потерь производительности.

Еще можно с пакетной обработкой поиграться, если есть "поток" задач )
Лично у меня очень хорошие результаты были при параллельной обработке - пускай pp падало, но общий tg рос вплоть до "1 ядро - 1 запрос".

P.S. чисто в теории, для MoE можно достичь увеличения скорости работы - если нужных экспертов на разных процах считать (считай одну модель запускать дважды, но разделив нагрузку по экспертам). Но не видел практических реализаций подобного.

Как мы обучали модели для кода GigaCode

SabMakc Aug 11 at 09:24

Вышел Qwen3-Coder-30B-A3B - т.е. тоже на 3млр активных параметров и с поддержкой FIM. С ним не сравнивали свою inline модель?

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

SabMakc Aug 11 at 07:11

Вполне может тоже самое показать - при хороших оптимизациях ограничивает скорость памяти, а 4xDDR4 2400 соответствует 2хDDR5 4800.

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

SabMakc Aug 11 at 07:07

Да, на CPU пробовал. Intel i7-10700 и DDR4 2900 2x32GB.

В ollama начинает генерировать ответ на 4.5 т/сек, но быстро падает примерно до 3 т/сек. Судя по всему, не хватает CPU - есть куда оптимизировать MXFP4.

Если запускать что-то вроде gpt-oss-20b-UD-Q4_K_XL.gguf - то скорость в 2-3 раза выше (хотя размер модели не сильно меньше стал). Но в ollama этот квант не заработал, а в llama.cpp есть нюансы с отображением размышлений.

P.S. современные системы раза в 2-3 быстрее могут быть.

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

SabMakc Aug 10 at 06:51

Да, qwen3 очень хорош с русским языком. Особенно мне нравится его грамотность в технических вопросах - использую Qwen3-Coder-30B-A3B (до этого просто Qwen3-30B-A3B с /no_think в основном). Неплохо на CPU работает, хотя и хотелось бы побыстрее.

Но именно с текстами/переводами я gemma3 предпочитаю - кажется чуть более грамотным. Но это на уровне ощущений, а не четких тестов.

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

SabMakc Aug 8 at 13:43

Qwen3 тоже иногда срывается на рассуждения на английском - особенно младшие модели.

Вообще, за многими моделями я подобное замечал. А бывало что-то вроде "Пользователь написал 'Привет' на русском" - т.е. как будто размышления не на русском должны были быть, но они были на русском (но то не Qwen3 был вроде).

Так что это не показательно.

Тут важно понимание языка - и GPT-OSS сильно потерял и исказил смысл фразы, когда я его попросил перефразировать. Реально вспомнил времена середины 2000х, с кривыми автоматическими переводами софта, игр и субтитров (а то и фильмов/сериалов).

На itch.io возвращаются игры для взрослых

SabMakc Aug 8 at 11:24

Да, санкций не было. Но на сколько мне известно, было определенное давление со стороны государства для принятия такого "добровольного" и "единодушного" решения.

Как говорится, добрым словом и пистолетом можно добиться гораздо большего, чем просто добрым словом.

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

SabMakc Aug 8 at 08:21

В частности, GPT-OSS-120b, будучи более мощной, дольше генерирует ответы и требует более дорогого железа, тогда как GPT-OSS-20b обеспечивает более быстрый отклик и может работать на недорогих видеокартах или даже в CPU-режиме

Активных параметров у старшей всего в 1.5 раза больше - а значит она приемлемо работает и на CPU, вопрос в объеме оперативки.

Щупал GPT-OSS-20b - и основная проблема лично для меня - у нее не очень с русским. Ощущение, что сначала перевели запрос на английский а затем ответ на русский. Причем использовался далеко не самый качественный автоматический переводчик.

OpenAI выпустила модель с открытыми весами, которая почти не уступает o3

SabMakc Aug 6 at 11:16

А что за интерфейс, что показывает вероятности слов?

P.S. 20B-модель вроде не так зацензурена )
P.P.S. похоже, что это https://github.com/lmg-anon/mikupad

Bambu Lab запустила краудфандинг-платформу для 3D-моделей

SabMakc Aug 6 at 07:47

Для участия уже нужны готовые 3D-модели (может не в финальном виде) - показать "а что ты хочешь". За участие предлагается 3D-модель - т.е. то, что уже есть. Предполагается, что финансируется именно печать модели для автора. Но на сколько это интересно прочим участникам?

Если есть готовая модель - ее проще напрямую продавать, не связываясь с краудфандингом. Если модели нет - то и на краудфандинг представить практически нечего.

Остается проработка DIY-проектов (и рассылка финального проекта участникам) и разные благотворительные цели для печати.

Какого китайца выбрать? DeepSeek vs Qwen vs Baidu

SabMakc Aug 6 at 06:07

Вопросов не было бы если бы LLM ответила "никто" (при решении "в лоб" на трубе никто не остался). Меня бы удовлетворил ответ "не знаю".

Но она ответила "труба". А это, с какой стороны не посмотри, некорректный ответ.

P.S. "правильного ответа не существует" - тоже неправильный вариант. Он есть, даже при буквальном понимании загадки.

Какого китайца выбрать? DeepSeek vs Qwen vs Baidu

SabMakc Aug 5 at 08:34

А размышления помогали лично Вам?

Лично по моему опыту, размышления были полезны только для понимания "а что не так с вопросом" (где накидывались проблемы и описывалось почему это решение не подходит), сам результат не сказать, что сильно отличался.
Но скорость ответа сильно проседала от размышлений.

P.S. Coder как минимум лучше знает возможности стандартной библиотеки Golang (с чем лично столкнулся).
Недавно мне Qwen3-30B-A3B-Instruct-2507 на небольшой работающий код нашел критических 5 ошибок, из-за каждой он даже компилироваться не смог бы (судя по описанию ошибок).
Но тот же Qwen3-Coder-30B-A3B-Instruct вполне себе по существу комментировал код. Т.е. как минимум, Coder лучше знает возможности стандартной библиотеки Golang.

Ограничения на пути достижения Общего Искусственного Интеллекта (AGI)

SabMakc Aug 4 at 22:23

С одной стороны, всё правильно написано — текущими средствами полноценный AGI не построить, как минимум, потому что обучающих материалов нет в нужном количестве и в нужном качестве. Не говоря уже про алгоритмы работы и вычислительную сложность.

А с другой стороны, все эти проблемы не выглядят нерешаемыми даже существующими средствами. Да, это уже будет не LLM в чистом виде, а скорее какой-то продвинутый агент — который формирует память, формирует цели, формирует опыт (и подсовывает всё это в контекст по мере необходимости). Агент вполне может с этим справиться, пускай и ценой высокого потребления ресурсов.

P.S. Да, текущие LLM не более чем имитация (иногда очень убедительная). Но где граница между пониманием и имитацией понимания? Мы сами-то знаем, на каком уровне имитация перестаёт быть имитацией? Усугубляется всё это тем, что человек сам не до конца понимает, как он работает и функционирует. И, соответственно, мы не сможем сказать, достигнут AGI или нет.

Какого китайца выбрать? DeepSeek vs Qwen vs Baidu

SabMakc Aug 4 at 11:27

Все современные LLM так делают )
И ладно если в чате - но в режиме агента они и продовую базу могут дропнуть на раз-два )

При всей своей мощи, у LLM нет понимания что она делает. Грубо говоря, она просто по шаблону из обучающего материала отвечает. И чуть более сложная или непопулярная проблема может ввести LLM в ступор.

Причем LLM сгенерирует пример на раз-два. Но удали строчку из примера, получи непонятную ошибку компилятора (или просто проблему в работе) - и LLM не сможет это исправить (в новой сессии), хотя минуту назад рабочий пример сгенерировала.

Т.е. нужные знания заложены в LLM. Но пока сильно ограничена возможность эти знания применять.

Какого китайца выбрать? DeepSeek vs Qwen vs Baidu

SabMakc Aug 4 at 09:38

Ни что не мешает несколько нейронок использовать параллельно, собирать статистику "кто точнее" и повышать свою точность. Просто как еще один инструмент.

1 2 3

5 6 ...

62 63