Pull to refresh
4
2,5
Rating
1
Subscribers
Send message

<sarcasm>Вот! А говорят, что блокировки не работают!</sarcasm>

Новая аппаратная платформа обеспечит стабильную, быструю и предсказуемую работу AI-моделей в реальных условиях с полным контролем над данными и производительностью

О каком полном контроле за данными можно говорить, если мы используем сторонние сервера?

Я выше уже писал, что дешевле собрать комп на 5080 за месяц аренды их решения. При этом получая скорость работы на уровне облака Alibaba

А сколько террористов использовало инфраструктуру наших ОПСоСов и не счесть, но что-то уголовных дел на их дирекцию нет за "пособничество терроризму"

Я правильно понял что Selectel предлагает на А100 запускать древнюю MoE модель всего на 30B параметров и 3В активных, да еще и платить за это 317рублей в час? Серьезно? За цену в месяц работы в облаке можно собрать компьютер с 5080, который будет эту модель крутить с 50 токенами в секунду и она будет реально локальной.... На А100 спокойно развернется модель на 122B параметров с 10В активных, если использовать квантованную модель Q4_K_M и сжатие KV-кэша турбоквант и иметь вполне рабочие 50-80Ток/с

Потому что 99% всех вакансий с условиями типа "Договор ГПХ", "самозанятость", "Договор с ИП" и в этом случае при не выплате ЗП ты сосешь бибу

Gemma 4 использует гибридный механизм: локальное скользящее окно внимания (1024 токена) чередуется с полным глобальным вниманием, всегда заканчиваясь на глобальном слое. Это делает модель эффективной для длинных контекстов без потери глубины понимания.

Именно этот механизм делает ее хуже, чем Qwen3.6-35B-A3B

Вы можете зарегистрироваться и получить 300 000 бонусных капсов ➪

Зарегистрировался))) на счету 28000, а в чатах запрос которого я не делал)))

Забудьте про модельки с квантовкой ниже 4-бит. Все что ниже мусор полный.

Автор отключил размышление, а у 3.6 оно является главной фишкой. С размышлениями Qwen3.6 дает существенно лучший результат нежели gemma4

Смысл от такой настройки? Вы отключили все ГЛАВНЫЕ фишки модели! -ngl 999 бесполезен, лучше его удалить, по дефолту стоит автооффладинг. --jinja -b 2048 бесполезны, они используются по-умолчанию. -ub лучше не трогать. Добавьте --no-mmap и --flash-attn и уберите --mlock. Также, если вы качали mmproj файл помимо основной модели, то лучше его удалить, чтобы убрать мультимодальность, т.к. она отжирает 1.2-1.5Гб памяти карты

Это надо форк собирать. В офф репозитории его нет

Qwen 3.6 35B A3B прекрасно справляется с разработкой с 0. Просто не надо ее засирать всякими токсичными промтами. Сначала планирование с ответами на вопросы, а потом код. Я выше скинул результаты работы этой модели с рассуждениями и нормальной агентной ide. За 15 минут получил потрясающий результат для локальной модели

Их там действительно нет. Нужно выбрать или удобство LMStudio или голый llama.cpp, который есть форкнутый и с TurboQuant

54Гб на 128 контекста в Gemma 4 c включенным офлоадом 15 слоев на ОЗУ... Это не соответствует действительности

Мягко говоря этот калькулятор несет дичь....

LM Studio это надстройка над llama.cpp так что все можно

1
23 ...

Information

Rating
1,617-th
Registered
Activity

Specialization

Бэкенд разработчик
JavaScript
TypeScript
Node.js
NestJS