Обновить
28
1.1
Славик Фурсов@SlavikF

Developer

Отправить сообщение

я попробовал --fit . Очень удобно, но ещё немного сыро. Не умеет брать в расчёт "слой зрения" (или как это правильно по русски?) - крэшится:

https://github.com/ggml-org/llama.cpp/issues/18111 Eval bug: llama-fit-params does not include vision stack in calculations

Есть ещё баг, что они слои не в том порядки загружают.

Но думаю в ближайшее время пофиксят.

Что ещё нужно знать про этот режим:

  • по умолчанию llama.cpp держит в памяти 4 модели. Поэтому если у вас 24GB VRAM, вы отправили запрос к первой модели на 16GB - она загрузится и ответит. Если теперь придёт запрос ко второй модели на 10+GB, то она попробует загрузиться и свалится с ошибкой OutOfMemory. Решается --models-max 1 - это означает что на VRAM нужно держать только одну модель и при обращении ко второй, первую нужно выгрузить.

  • по умолчанию все модели загружаются с длиной контекста 8192. Если прописать другое значение - то оно будет использоваться для всех моделей. А если надо для каждой модели использовать своё значение контекста, температуры, ... то нужно использовать --models-preset config.ini

Пользуюсь Proxmox 9 у себя дома.

В общем, всё неплохо.

Но вот нарвался на такую проблему:

  • в случае использования NVMe дисков и файловой системы ZFS, - как только есть серьёзная нагрузка IOPS на диск, то зависает и крэшится как сама виртуалка, так и сам гипервизор.

Про эту проблему много трэдов написано на их форуме. Решения с ZFS - нету.

Я решил это тем, что использую BTRFS.

Уже не первая статья про n8n.

А я всё не могу понять: где же этот n8n может быть полезен?

Кто-нибудь, напишите, пожалуйста, пост о реальном, жизненном сценарии (use case) использовании n8n.

Почему "выходит двойной перевод через english"?

В случае использования NLLW:

  • Whisper делает только транскрибацию (перевод не делает)

  • NLLW делает перевод

Очень интересно. Спасибо за код в Github.

В декабре-2023 "книгалиц" написали у себя в блоге, что у нас есть AI для аудио-перевода... У них есть демка (русский не поддерживается), которую я тогда попробовал (я тут говорю по английски, а меня переводят на испанский):

https://s3.fursov.family/shares/fb_translate.mp4

Тут используется технология VOICE CLONING. Которая сохраняет и тембр голоса и интонацию.

Месяц назад QWEN выкатила вот эту модель:

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct

Эта модель может:

  • распознавать аудио (STT)

  • переводить (LLM)

  • синтезировать речь (TTS)

У них на сайте есть демка, по 30 секунд работает. Но открытого движка для этой модели вроде бы ещё ни у кого нет. VLLM и llama.cpp могут с этой моделью работать как с LLM, но TTS не поддерживается пока.

Qwen2.5-Coder?
deepseek-r1?

Вы из прошлого века?

Как-то я сомневаюсь, что AI выдаст адекватную презентацию... Так - черновик может быть.

Я экперементировал вот с этим open-source:

https://github.com/presenton/presenton

И оно работает. Я использовал локальную модель OSS-GPT-120B, а картинки - через API Google Gemini.

Какой-то мутный список в статье...

Gemma 3 - это модель Британии? Серьёзно?

А сегодня согласно законов убивают детей.

Этот диалог можно продолжать бесконечно...

Вот поэтому я в Южной Каролине: потому что мои дети (у меня их 9) здесь ходят в частную христианскую школу. В которой и близко не подпустят учить и преподавать человека, который считает что аборт - это нормально. Или который считает что мальчик может стать девочкой.

А какой будет академический уровень образования, в какой университет поступят мои дети - вопросы конечно важные, но второстепенные. Думаю, что с этим у них тоже всё будет нормально, потому что один мой двоюродный брат тут - доктор, другие два - программисты (я - тоже) и т.д. Но главное - никто из них детей не убивает.

Если нет малыша, то кого же тогда абортируют? Это называется "расчеловечевание".

В какой момент "не малыш" становится "малышом"? Уже на 6й неделе бьётся сердце. На 13й неделе есть развитая нервная система способная чувствовать боль. Даже на 5-ом месяце беременности недоношенный младенец уже способен выжить.

У человечества уже есть опыт, когда некоторых считали "недочеловеками", и сейчас стесняются об этом вспоминать.

Вот решать за женщину, что ей нельзя убить ребёнка, когда он уже родился - это в нашем обществе нормально. А решать за женщину, что ей нельзя убить ребёнка до того, как он родился - это ая-яй-яй, нельзя! Какие-то двойные стандарты.

ни разу не родные родители

Ну да, родные родители, которые тебя убили, чтобы найти "лучше оплачиваемую работу" - это лучшие родители. (сарказм)

"Жизнь лучше сложилась"?

А как сложилась жизнь у малыша, которого убили абортом?

Кстати, тут в США, во всех штатах, можно добровольно отдать ребёнка сразу после рождения. Вопрос "полного содержания" решён.

Давить - нельзя, а "опекать" - можно. Только бы не перепутать.

Вот в штате Missouri аборты запрещены, поэтому в школах "опекали" девочек: возили делать аборты в соседний штат, - там можно. А родителям - не говорили.

И подобных примеров - много. Поэтому народ тут массово валит из школ: будет ли моя дочь делать аборт или нет - намного важнее того, какая у неё оценка по биологии...

Рейтинг образования может и волнует конгрессменов, но большинству родителей - до лампочки. А даже если и волнует родителей - мало кто может что-то сделать по этому поводу.

А вот активисты реально страху нагнали на родителей. Показательный пример: у нас тут в прошлом году вопрос получил вот такой оборот:

  • родители обнаружили в школьных библиотеках книги про геев, трансов и т.д.

  • родители подняли шум и в нашем округе запретили, чтобы в школьных библиотеках были "порнографические" книги.

  • активисты подняли шум, что дикие варвары (это про родителей) запрещают книги! У нас свобода слова, а тут хотят ввести "цензуру"!

Я так и не понял чем кончилась именно эта баталия, но показательно, что именно такие вот книжки вызвали очень резкую реакцию родителей, чем какие-то непонятные "рейтинги образования".

Я уже 4 года живу в Южной Каролине. Это один из самых консервативных штатов США.

Последние годы в США повсеместно поднимали голову разные активисты - голубые, розовые, с оттенками серого... и почему-то очень многие из них чувствуют призвание идти "учить": те, кто поумнее - в университеты, потупее - в школы... Понятно чему и как они учат. И это происходит даже в консервативных штатах. Трамп вроде бы пытается "вернуть всё взад" (например расформировано федеральное министерство образования), но как-то не очень получается.

Из-за этого большинство адекватных людей, которых тут немало, поняли что от школы лучше держаться подальше, потому что сейчас учителя в государственных школах США - это большая вероятность, что ребёнку на всю жизнь засрут мозги.

Как сделать, чтобы учителя были адекватные тут ещё не придумали. Но сделали альтернативный ход: с этого года штат платит не только за общеобразовательные школы (как и везде), но теперь и за частные (в том числе и церковные) и за домашнее обучение. Причём этот закон приняли 3 года назад, с этим законом боролись активисты, подавали в суд (типа это неконституционно, чтобы государство платило за религиозные школы), но вот с этого учебного года закон утверждён. Что объясняет почему именно в этом году тут резко выросло количество тех, кто больше не хочет ходить в государственные школы.

700 миллиардов параметров, даже в q4 - мало кто сможет такое запустить.

В последние несколько недель вышли несколько очень неплохих open-source моделей, которые - MoE и количество активных параметров - 10-12B:

  • MiniMax-M2-230B - 10B активных параметров

  • GLM4.5-106B-air - 12B активных параметров

Вот такой размер реально запустить у себя с более-менее практичной скоростью. А если ещё и сделать QAT (Quantization-Aware Training), как это сделали для gpt-oss-120B, то будет вообще топчик.

Я пробовал несколько экспериментов с драфтовыми моделями, но что-то толку от них было мало.

А вот вынести контекст на GPU - реально ускоряло:

MiniMax-M2-GGUF:UD-Q5_K_XL (162GB, MOE, 10 миллиардов активных параметров):

  • DDR5-4800 * 8 каналов: генерация: 9 т/c

  • DDR5-4800 * 8 каналов и NVIDIA RTX 4090D 48GB: генерация: 15 т/c

У меня xm4 и корпус треснул, теперь одно ухо болтается, висит на проводе

Я запускал некоторые модели у себя без GPU.

Система:

  • Intel Xeon W5-3425 (12 cores, AMX)

  • DDR5-4800 * 8 каналов (правда я не уверен, что память запустилась на максимальной скорости: mlc показывает 190GB/s)

ggml-org/gpt-oss-120b-GGUF

  • MOE, 5 миллиардов активных параметров

  • промпт: 43 т/c

  • генерация: 15 т/c

  • размер модели: 61 GB

MiniMax-M2-GGUF:UD-Q5_K_XL

  • MOE, 10 миллиардов активных параметров

  • промпт: 25 т/c

  • генерация: 9 т/c

  • размер: 162 GB

  • это одна из лучших открытых моделей на сегодня, по benchmark - лучше чем все модели в статье. Лучше неё - только GLM 4.6, но она в несколько раз больше.

  • у меня llama.cpp иногда не очень корректно обрабатывает <think> тэги для этой модели

1
23 ...

Информация

В рейтинге
1 685-й
Откуда
Greenville, South Carolina, США
Зарегистрирован
Активность