У gpt-oss:120b у меня выставлено максимальное контекстное окно для нее в 128К токенов. Она мне больше всего нравится. Есть еще Qwen3:235b, она не лезет в видеопамять, думает долго, но некоторые вопросы решает более детально. Кроме них есть еще 6 моделей, но их не использую почти.
Нет, не по одной. основные сравнения были по написанию кода, гигачат слишком много нужно поправлять, так как делает много ошибок. И иногда что то проще самому написать, чем редактировать его код.
Возможно, но что делать когда хочется попробовать здесь и сейчас? А тем более что это еще и приносит результат. Да дорого, но если допустим, гипотетически предположить то что через пару лет 32b модели будут круче чем сейчас 120b, то высока вероятность того что и железо для их запустка кратно будет дороже.
У gpt-oss:120b у меня выставлено максимальное контекстное окно для нее в 128К токенов. Она мне больше всего нравится. Есть еще Qwen3:235b, она не лезет в видеопамять, думает долго, но некоторые вопросы решает более детально. Кроме них есть еще 6 моделей, но их не использую почти.
А почему бы не сравнивать? В жизни вообще то все познается в сравнении.
Вот я сравнил суперкомпьютер Christofari от Сбера со своим сервером и Сбер проиграл.
Еще подобной задачей проверил Grok и GPTChat. GPTChat начал рассуждать и не закончил. Grok ответил мгновенно НО неправильно.
Но, со второго раза на пару минут задумался и ответил правильно.
Такая конфигурация обошлась почти в 1 млн.
Сейчас наверное дороже будет.
Нет, не по одной. основные сравнения были по написанию кода, гигачат слишком много нужно поправлять, так как делает много ошибок. И иногда что то проще самому написать, чем редактировать его код.
Тут только путь ножками в Китай если там нет того кому вы можете доверить и отправить большую кучу денег на покупку таких комплектух.
Есть только одна проблема с этими картами, нужно будет их на водянку переводить, а разбирать боязно.
При нагрузке шумят как взлетающий самолет.
Финальная конфигурация обошлась почти в 1 млн.
Результат использования меня вполне удовлетворяет.
Над переобучением (finetuning) или RAG я пока думаю и собираю необходимый мне датасет. Или вы что то другое имели в виду?
Я создаю север техподдержки своей продукции, сторонние сети меня не интересуют, во первых это дорого, а во вторых я не смогу иметь полный контроль.
Возможно, но что делать когда хочется попробовать здесь и сейчас? А тем более что это еще и приносит результат. Да дорого, но если допустим, гипотетически предположить то что через пару лет 32b модели будут круче чем сейчас 120b, то высока вероятность того что и железо для их запустка кратно будет дороже.
Мой локальный сервер с GPT-OSS:120B (120 миллиардов параметров ) решил загадку за 59 секунд
Пиццу ест плотник.
Крокодила держит программист.
Характеристика сервера: 2 видеокарты RTX4090 по 48Gb VRAM каждая (итого 96Гб видеопамяти), проц Core I9 14900 и 192Гб DDR5.
Кому интересно потестировать такой сервер, могу дать временный доступ, пишите в личку, установлено 15 разных моделей ИИ.
А что можете сказать про сборку - плата Z790, i9 14900, 192Gb Ram, 2 карты RTX 4090 по 48Gb vRAM и ssd 2Tb со скоростью более 14 Гб/сек.?