Комментарии 32
Надо бы подождать годика два. Думаю, за это время нейросети на 32б, будут на уровне нынешних 120b, если не лучше.
Возможно, но что делать когда хочется попробовать здесь и сейчас? А тем более что это еще и приносит результат. Да дорого, но если допустим, гипотетически предположить то что через пару лет 32b модели будут круче чем сейчас 120b, то высока вероятность того что и железо для их запустка кратно будет дороже.
гипотетически предположить то что через пару лет 32b модели будут круче чем сейчас 120b, то высока вероятность того что и железо для их запустка кратно будет дороже.
Нет, вряд ли. Основная стоимость железа в запуске моделей - это VRAM на видеокарте, чтобы туда модель помещалась.
Если будут 32B модели - они будут с очень большой вероятностью такой же архитектуры, как сейчас - а значит и железо будет требоваться то же самое.
По "попробовать" - я рекомендую смотреть, что недавно вышло (обычно чем свежее, чем умнее) и помещается в ваш RAM/VRAM
Вот из того, что помню:
Gemma 3 24B
GLM 4.7 Flash
Qwen 3 (что у него там последнее? вроде 30BA3B или что-то в этом духе)
Скорее память сильно подешевеет, и появятся специализированные ускорители без функций видеокарты. Уменьшение моделей ни к чему хорошему не ведет.
А с нормальными облачными LLM вы работали? Просто есть подозрение, что вы сравниваете лучшие локальные модели с далеко не лучшей облачной.
Я создаю север техподдержки своей продукции, сторонние сети меня не интересуют, во первых это дорого, а во вторых я не смогу иметь полный контроль.
Ну если у вас стоит задача использовать только локальные модели, то это другое дело. Я просто к тому, что сравнение довольно странное - мне бы в голову не пришло сравнивать что-то с ГигаЧатом.
Сколько стоило ваше железо, давайте посчитаем что реально дешевле
потеря конфиденциальных данных при передаче в модель работающую на коммунальном железе - бесценна... но конечно можно только позавидовать человеку который может собрать себе в лабу машину с парой 4090 48gb VRAM просто поборов жабу (С) - 96gb VRAM....их ещё пойди найди в таком конфиге.
Такая конфигурация обошлась почти в 1 млн.
Сейчас наверное дороже будет.
Я не защищаю ГЧ, но вы сравнивали только по одной задаче?
До этого я считал такие сервисы «несерьёзной фигнёй». После нескольких экспериментов с Гигачатом моё мнение кардинально изменилось
Я правильно понимаю, что западно-восточные модели типа ChatGPT и DeepSeek казались вам несерьёзной фигнёй? Почему?
Интересно, сколько стоила тем летом финальная конфигурация компа? И какие результаты приносит вам локальная модель. Желательно, результаты в деньгах.
Насчёт тестировавшихся локальных моделей. Они уже предобучены? Если да, то на чем?
Еще подобной задачей проверил Grok и GPTChat. GPTChat начал рассуждать и не закончил. Grok ответил мгновенно НО неправильно.

Но, со второго раза на пару минут задумался и ответил правильно.

Честно говоря, на одной задачке выложенной в интернет в 2024 году проверять модели не стоит. Вполне есть шанс нарваться на мелкую модель которой именно эта задачка попала в обучающий датасет. Судя по тому, что у вас есть определенный сенарий использования, лучше тесты сделать вручную, или нагенерировать под этот сценарий и на этих тестах уже проверять.
Opus отвертил без проблем.
На таком железе стоит попробовать модели GLM-4.7 и MiniMax-2.1, обе с 4-м квантом, они не влезут в видеопамять, но с учетом MOE архитектуры, скорость должна быть нормальная, особенно у MiniMax.
Те модели, что вы пробовали, целиком вместе с контекстом влезают в видеопамять (хотя, не уверен на счет gpt-oss-120, на большом контексте все может и не влезть), и вам достаточно минимального ОЗУ, ваши 192 Гб не используются никак.
У gpt-oss:120b у меня выставлено максимальное контекстное окно для нее в 128К токенов. Она мне больше всего нравится. Есть еще Qwen3:235b, она не лезет в видеопамять, думает долго, но некоторые вопросы решает более детально. Кроме них есть еще 6 моделей, но их не использую почти.
Да, gpt-oss хорошие модели не смотря на то, что им уже пол года. Даже 20b на удивление очень умная, 120b самое большое, что я у себя могу запустить и тоже больше всего нравится.
Ну раз вы можете запустить gpt-oss:120b у вас тоже неплохое железо.
Не, у меня слабое железо, 16 видеопамяти и 64 озу, 120b медленная и небольшой контекст, я чаще 20b использую. Кстати, проверил на ней задачку, она попыталась использовать python и остановилась. Запускал в lm studio, там можно дать доступ к javascript, ради интереса дал, думала минут 5, что-то там делая на JS, в итоге выдала правильный ответ:

Можно наделать wdi с доступом к gpu и продавать ) это к вопросу куда оперативу лишнюю девать





Локальная модель vs Гигачат: мой опыт и выводы