Как стать автором
Обновить
4
0
xRay @xRay

Пользователь

Отправить сообщение

"--cache-type-k", "q4_0",

Лучше использовать q8_0, q4 для кэша уже дает заметное влияние на качество.

Генерация начинается со скоростью 8 t/s. После генерации 1000 токенов понижается до 7t/s, при приближении к 2000 скорость становится равна 6.8 t/. Преодоление порога в 3000 токенов показывает скорость 6.6 t/s

Попробуйте ik_llama, этот форк заточен для работы на CPU, и там, помимо разных оптимизаций, реализована поддержка mla. MLA позволяет 160к контекста засунуть в 11гб без квантования kv-кэша, и даёт меньшую потерю t/s.

ik_llama может использовать существующие кванты с ключем -rtr, ничего перекачивать не нужно. Но есть и готовые R4 кванты, заточенные под CPU + 1 GPU на 24гб под 32к контекста, там же инструкция как запускать: https://huggingface.co/ubergarm/DeepSeek-R1-0528-GGUF

Epyc 9374F 384GB RAM + 1 x RTX 4090
Epyc 9374F 384GB RAM + 1 x RTX 4090

Для этого стоит либо использовать модели попроще, например Llama 4 Maverick. Она хоть и туповата по сравнению с DeepSeek R1 на сложных запросах, зато даёт фантастическую скорость в 30 t/s для модели в 400 миллиардов параметров.

У Maverick по Aider результат всего 15.6% против 71.4% у DeepSeek R1-0528, то есть она совсем туповата для программирования, но вполне неплоха в других сферах, например, перевода или творческого письма, поэтому модель в целом недооценена, учитывая её скорость.

А причина разницы скорости в том, что у Maverick 402B есть приличное количество общих слоев нужных на каждом шагу, поэтому параметр -ot там даёт хорошее ускорение. А, например, у Qwen3-235B, которая весит ещё меньше, нет общих экспертов и там такого внушительного эффекта не будет. У DeepSeek вроде как есть небольшое количество общий экспертов, судя по их структуре.

Сложные запросы конечно стоит обрабатывать на DeepSeek-R1-0528

Если говорить про кванты и программирование, то провели бенчмарк кванта DeepSeek R1-0528-UD-IQ1_M в Aiders Polygot Benchmark испытывающий языки C++, Go, Java, JavaScript, Python и Rust.

Без квантования: 71.4%
UD-IQ1_M: 60%
Sonnet 4 (no thinking): 56.4%
Sonnet 4 (32k thinking): 61.3%

У UD-IQ1_M вес 200гб, без квантования вес 700гб (оригинал DeepSeek в fp8, а не fp16, иначе было бы 1400гб), что позволяет даже на домашнем ПК DDR5 192гб + 24гб vram запускат на скорости 5 t/s. Таким образом динамическое квантование UD от unsloth может уменьшить вес в 3.5 раза, а качество упадет всего на 19% в плане программирования.

Помню как мне одно время, долго названивали с Ростелекома и впаривали всякие защиты , антивирусы и прочий хлам.
В очередной раз я спросил - она защитит от ваших звонков ?
-нет.
-тогда мне не нужна ваша защита..
Больше вроде не звонили по всяким защитам..

Тотальный бэкдор , как в здравом уме можно установить на комп Яндекс , они же корневые РФ сертификаты ставит принудительно при установки.

Раньше они следили только через плагин Яндекс статистику где могли дотянутся , а теперь просто выпустили браузер где в ядро вшит сбор не выборочно , а вообще все.

Дозвонятся. Потому что межсетевой роуминг под это не подпадает.

Вот не упомянут об этом в законе, и подпадет. Операторы, Мегафон в первую очередь, под козырек возьмет. Прошлой осенью свой eMotion сломал, этой весной VoWIFI за границей.

если вы будуте в РФ сёрфить с этой симки в интернете то никакие блокировки интернета на вас распространяться не будут. Во всяком случае согласно регламентам.

Приеду, проверю. Но есть сомнения, потому-что в последний приезд у меня все тот же VoWIFI на финской сим-карте напрочь отказался включаться. А он через IPSec работает.

Это никакой не бэкдор, автор просто упоротый (о чем любезно поведует его ник), и впаривает какой-то инфомусор, сгенерированный дипсиком, приправленный какими-то больными метафорами и воплями.
1) Приложение запукает на хосте (сиречь на Андроиде) tcp/udp сервер, открывает порт, делает LISTEN. Абсолютно ничего незаконного, это суть архитектуры клиент-сервер.
2) Юзер открывает в браузере специальный сайт, который загружает JS-код, которые берет куки с этого сайта и шлет их рандомно на рандомные порты(поскольку порты в диапазоне 1000-65535 могут быть заняты любым приложением/службой.
3) Приложение получает куки через лупбэк (хотя скрипт на странице мог эти прекрасно выслать на любой адрес в сети вообще, если ему это нужно)
4) Автор жжжолтой статьи на Хабре кричит "ужос", все пропало, нас взломали!!! Ахтунг!

Реально народ, читайте книжки, хотя бы "Компьютерные сети" Таненбаума и его же "Современные операционые системы", и будет вам счастье. А то смешно, внук у бабушки удалил все ярлыки с рабочего стола, стопудово хацкер.

В firefox на android в uBlock есть возможность подписаться на Block Outsider Intrusion into LAN

Тоже был опыт лечения битрикса от гидры.
Если коротко, то добавил в php.ini:
disable_functions = "apache_setenv, chown, chgrp, closelog, define_syslog_variables, dl, exec, ftp_exec, openlog, passthru, pcntl_exec, popen, posix_getegid, posix_geteuid, posix_getpwuid, posix_kill, posix_mkfifo, posix_setpgid, posix_setsid, posix_setuid, posix_uname, proc_close, proc_get_status, proc_nice, proc_open, proc_open, proc_terminate, shell_exec, syslog, system"


Оставлю это здесь. Аналитика перспектив и популярности языка по пачке разных бенчмарков от JetBrains, свежая.
https://blog.jetbrains.com/research/2025/04/is-golang-still-growing-go-language-popularity-trends-in-2024/

Webstorm (ts) отвратительно работает с дженериками, а про более сложные вещи вроде ConstructorParameters молчу. Лично сделал 4 ишью, которые в работе уже как 2 месяца...

Да в vscode реально работает лучше, это скорее характеристика IDE

Если точнее - она не затирает никакие переменные. Она легитимно использует пустое место на стеке для своих переменных. Это как раз функция LoadVehicleObject, зарезервировав место на стеке, читает оттуда значения которые никто туда не записывал - вполне логично что читается всякая хрень. Но раньше везло - данные сохранялись с предидущего вызова этой функции.
Совпадения никакого нет - поскольку функция вызывается в цикле - вполне логично, что позиция стека на последующих итерациях будет такой же, как и на предидущих.

Она затирает переменные на стеке (локальные), время жизни которых уже закончилось. Просто так совпадало, что новые локльные переменные оказывались на том же месте, что и при предыдущем вызове sscanf().

Запустить можно хоть с nvme на домашнем ПК, для больших MoE это сейчас частое явление набирающее популярность. Всё упирается в скорость работы, и тут нет простого ответа. Если модель влезает в VRAM - всё будет очень быстро.

Цифра рядом с B это в среднем и есть количество памяти, то есть 32B будет требовать 32гб памяти в кванте не отличимом от оригинала (Q6 или Q8). Но если нужен размер точнее, то зайдя в карточку gguf версии модели, все размеры будут указаны:

Пример для Qwen3-32B-GGUF
Пример для Qwen3-32B-GGUF

В gguf файл спроектирован так, что он повторяет структуру памяти и просто мапятся в память как есть, поэтому размер файла будет равен размеру занимаемому памяти. Сверх этого места нужно сколько гб на контекст. Чем больше контекст, тем больше ГБ нужно. Для 128k может потребоваться в 2 раза больше размера самой модели. Контекст тоже можно квантовать и использовать flash attention и скользящее окно.

Q6 и Q8 это часто избыточные кванты для больших моделей, типичные кванты которые считаются близким к оригиналу это Q4_K_M или Q5_K_M, или если памяти впритык, то IQ4_XS.
I-кванты это квантование через матрицу важности imatrix, они обычно точнее, чем K-кванты, поэтому могут выдавать тоже качество с меньшим размером, но требуют в ~2 раза больше вычислительных мощностей при выполнении, весят меньше, поэтому они могут помочь засунуть модель в память, когда Q4_K_M никак не влезает.

На практике, чем больше модель, тем меньше шансов, что она влезет в железо, и тем легче она переносит квантование, поэтому появился вариант UD квантов, это динамическое квантование от Unsloth.
Такие кванты можно брать и UD-IQ3 и даже UD-IQ2 - они будут хуже, чем Q4_K_M, но за счет нового подхода они выступают на достойном уровне, даже 1.58 битные версии.

Забыл добавить в статью, что переключаться между режимом размышления и без размышления нужно тегами /think и /no_think в системном промпте, либо прямо в тексте.

Запрос без размышлений, в системной промпте указал /no_think, что делает этот тег по умолчанию для всего, блок размышлений создается, но он пустой:

После этого, несмотря на системный промпт, можно послать запрос на размышление через /think, и блок с размышлениями заполняется:

Если вы качали UD - динамические кванты, они сейчас сломаны, работают только Q6 и Q8.
Пока протестировал Qwen3-30B-A3B-Q6_K, он работает нормально.

Так мы переходим к более длинному ответу.

  1. Проверки типов не противоречат компиляции. Variant в Delphi под капотом имел проверки, при том, что Delphi вполне себе компилируемый.

  2. В PyPy есть JIT-компилятор.

  3. Cython компилирует код. Используем cdef и получаем си-код.

Так что компилировать уже научились, но придётся чем-то поступиться. "Просто" тут неуместно, но научились настолько, насколько возможно.

Не научилась. Имеются SDK без доков в публичном сегменте интернет. Пример - Mintegral Ads. Попытка ее интегрировать при помощи Claude 3.7 сейчас приводит к вызовам несуществующих методов. Проблема здесь в том, что инструмент "не осознает" отсутсвтие необходимой информации в своих недрах. Полноценный интеллект выдал бы здесь: я не знаю, как это сделать, дай мне дополнительную информацию.

Закиньте нужные файлы определений из SDK в контекстное окно, и он перестанет "галлюцинировать" методами.

аналогично. а я из-за нормальных метрик в бесплатной версии и Prometheus экспортера поставил

1
23 ...

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность