Обновить

Комментарии 32

Надо бы подождать годика два. Думаю, за это время нейросети на 32б, будут на уровне нынешних 120b, если не лучше.

Возможно, но что делать когда хочется попробовать здесь и сейчас? А тем более что это еще и приносит результат. Да дорого, но если допустим, гипотетически предположить то что через пару лет 32b модели будут круче чем сейчас 120b, то высока вероятность того что и железо для их запустка кратно будет дороже.

 гипотетически предположить то что через пару лет 32b модели будут круче чем сейчас 120b, то высока вероятность того что и железо для их запустка кратно будет дороже.

Нет, вряд ли. Основная стоимость железа в запуске моделей - это VRAM на видеокарте, чтобы туда модель помещалась.

Если будут 32B модели - они будут с очень большой вероятностью такой же архитектуры, как сейчас - а значит и железо будет требоваться то же самое.

По "попробовать" - я рекомендую смотреть, что недавно вышло (обычно чем свежее, чем умнее) и помещается в ваш RAM/VRAM

Вот из того, что помню:

  • Gemma 3 24B

  • GLM 4.7 Flash

  • Qwen 3 (что у него там последнее? вроде 30BA3B или что-то в этом духе)

Скорее память сильно подешевеет, и появятся специализированные ускорители без функций видеокарты. Уменьшение моделей ни к чему хорошему не ведет.

А с нормальными облачными LLM вы работали? Просто есть подозрение, что вы сравниваете лучшие локальные модели с далеко не лучшей облачной.

Я создаю север техподдержки своей продукции, сторонние сети меня не интересуют, во первых это дорого, а во вторых я не смогу иметь полный контроль.

Ну если у вас стоит задача использовать только локальные модели, то это другое дело. Я просто к тому, что сравнение довольно странное - мне бы в голову не пришло сравнивать что-то с ГигаЧатом.

А почему бы не сравнивать? В жизни вообще то все познается в сравнении.

Вот я сравнил суперкомпьютер Christofari от Сбера со своим сервером и Сбер проиграл.

Потому что лидеры в этой области Anthropic, OpenAI и Google. А никак не Сбер.

Но и гугловский ИИ не выиграл, вот в чем вопрос.

Сколько стоило ваше железо, давайте посчитаем что реально дешевле

потеря конфиденциальных данных при передаче в модель работающую на коммунальном железе - бесценна... но конечно можно только позавидовать человеку который может собрать себе в лабу машину с парой 4090 48gb VRAM просто поборов жабу (С) - 96gb VRAM....их ещё пойди найди в таком конфиге.

Тут только путь ножками в Китай если там нет того кому вы можете доверить и отправить большую кучу денег на покупку таких комплектух.

Есть только одна проблема с этими картами, нужно будет их на водянку переводить, а разбирать боязно.

При нагрузке шумят как взлетающий самолет.

Такая конфигурация обошлась почти в 1 млн.

Сейчас наверное дороже будет.

Я не защищаю ГЧ, но вы сравнивали только по одной задаче?

Нет, не по одной. основные сравнения были по написанию кода, гигачат слишком много нужно поправлять, так как делает много ошибок. И иногда что то проще самому написать, чем редактировать его код.

До этого я считал такие сервисы «несерьёзной фигнёй». После нескольких экспериментов с Гигачатом моё мнение кардинально изменилось

Я правильно понимаю, что западно-восточные модели типа ChatGPT и DeepSeek казались вам несерьёзной фигнёй? Почему?

Интересно, сколько стоила тем летом финальная конфигурация компа? И какие результаты приносит вам локальная модель. Желательно, результаты в деньгах.

Насчёт тестировавшихся локальных моделей. Они уже предобучены? Если да, то на чем?

Финальная конфигурация обошлась почти в 1 млн.

Результат использования меня вполне удовлетворяет.

Над переобучением (finetuning) или RAG я пока думаю и собираю необходимый мне датасет. Или вы что то другое имели в виду?

Еще подобной задачей проверил Grok и GPTChat. GPTChat начал рассуждать и не закончил. Grok ответил мгновенно НО неправильно.

Но, со второго раза на пару минут задумался и ответил правильно.

Честно говоря, на одной задачке выложенной в интернет в 2024 году проверять модели не стоит. Вполне есть шанс нарваться на мелкую модель которой именно эта задачка попала в обучающий датасет. Судя по тому, что у вас есть определенный сенарий использования, лучше тесты сделать вручную, или нагенерировать под этот сценарий и на этих тестах уже проверять.

Я провери эту задачу на 12 моделях, с первого раза решили только 3.

Opus отвертил без проблем.

Ну значит Opus поучает плюсик в моем рейтинге.

На таком железе стоит попробовать модели GLM-4.7 и MiniMax-2.1, обе с 4-м квантом, они не влезут в видеопамять, но с учетом MOE архитектуры, скорость должна быть нормальная, особенно у MiniMax.
Те модели, что вы пробовали, целиком вместе с контекстом влезают в видеопамять (хотя, не уверен на счет gpt-oss-120, на большом контексте все может и не влезть), и вам достаточно минимального ОЗУ, ваши 192 Гб не используются никак.

У gpt-oss:120b у меня выставлено максимальное контекстное окно для нее в 128К токенов. Она мне больше всего нравится. Есть еще Qwen3:235b, она не лезет в видеопамять, думает долго, но некоторые вопросы решает более детально. Кроме них есть еще 6 моделей, но их не использую почти.

Да, gpt-oss хорошие модели не смотря на то, что им уже пол года. Даже 20b на удивление очень умная, 120b самое большое, что я у себя могу запустить и тоже больше всего нравится.

Ну раз вы можете запустить gpt-oss:120b у вас тоже неплохое железо.

Не, у меня слабое железо, 16 видеопамяти и 64 озу, 120b медленная и небольшой контекст, я чаще 20b использую. Кстати, проверил на ней задачку, она попыталась использовать python и остановилась. Запускал в lm studio, там можно дать доступ к javascript, ради интереса дал, думала минут 5, что-то там делая на JS, в итоге выдала правильный ответ:

Щас скачаю 20b, посмотрю что у меня она ответит, думаю с сетью 1 гигабит будет быстро.

Ну да gpt-oss:20b тоже решила.

Работала на одной видеокарте

Но тоже думала минуту.

Сервер жрал полкиловата когда думал.

Можно наделать wdi с доступом к gpu и продавать ) это к вопросу куда оперативу лишнюю девать

только не WDI, а VDI

Но меня это не интересует.

А если есть интерес потестировать мой сервер то могу дать временный доступ к нему, он в сети на моем домене 24 часа в сутки. Пишите в личку если интересно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации