по умолчанию llama.cpp держит в памяти 4 модели. Поэтому если у вас 24GB VRAM, вы отправили запрос к первой модели на 16GB - она загрузится и ответит. Если теперь придёт запрос ко второй модели на 10+GB, то она попробует загрузиться и свалится с ошибкой OutOfMemory. Решается --models-max 1 - это означает что на VRAM нужно держать только одну модель и при обращении ко второй, первую нужно выгрузить.
по умолчанию все модели загружаются с длиной контекста 8192. Если прописать другое значение - то оно будет использоваться для всех моделей. А если надо для каждой модели использовать своё значение контекста, температуры, ... то нужно использовать --models-preset config.ini
в случае использования NVMe дисков и файловой системы ZFS, - как только есть серьёзная нагрузка IOPS на диск, то зависает и крэшится как сама виртуалка, так и сам гипервизор.
Про эту проблему много трэдов написано на их форуме. Решения с ZFS - нету.
В декабре-2023 "книгалиц" написали у себя в блоге, что у нас есть AI для аудио-перевода... У них есть демка (русский не поддерживается), которую я тогда попробовал (я тут говорю по английски, а меня переводят на испанский):
У них на сайте есть демка, по 30 секунд работает. Но открытого движка для этой модели вроде бы ещё ни у кого нет. VLLM и llama.cpp могут с этой моделью работать как с LLM, но TTS не поддерживается пока.
Вот поэтому я в Южной Каролине: потому что мои дети (у меня их 9) здесь ходят в частную христианскую школу. В которой и близко не подпустят учить и преподавать человека, который считает что аборт - это нормально. Или который считает что мальчик может стать девочкой.
А какой будет академический уровень образования, в какой университет поступят мои дети - вопросы конечно важные, но второстепенные. Думаю, что с этим у них тоже всё будет нормально, потому что один мой двоюродный брат тут - доктор, другие два - программисты (я - тоже) и т.д. Но главное - никто из них детей не убивает.
Если нет малыша, то кого же тогда абортируют? Это называется "расчеловечевание".
В какой момент "не малыш" становится "малышом"? Уже на 6й неделе бьётся сердце. На 13й неделе есть развитая нервная система способная чувствовать боль. Даже на 5-ом месяце беременности недоношенный младенец уже способен выжить.
У человечества уже есть опыт, когда некоторых считали "недочеловеками", и сейчас стесняются об этом вспоминать.
Вот решать за женщину, что ей нельзя убить ребёнка, когда он уже родился - это в нашем обществе нормально. А решать за женщину, что ей нельзя убить ребёнка до того, как он родился - это ая-яй-яй, нельзя! Какие-то двойные стандарты.
ни разу не родные родители
Ну да, родные родители, которые тебя убили, чтобы найти "лучше оплачиваемую работу" - это лучшие родители. (сарказм)
Давить - нельзя, а "опекать" - можно. Только бы не перепутать.
Вот в штате Missouri аборты запрещены, поэтому в школах "опекали" девочек: возили делать аборты в соседний штат, - там можно. А родителям - не говорили.
И подобных примеров - много. Поэтому народ тут массово валит из школ: будет ли моя дочь делать аборт или нет - намного важнее того, какая у неё оценка по биологии...
Рейтинг образования может и волнует конгрессменов, но большинству родителей - до лампочки. А даже если и волнует родителей - мало кто может что-то сделать по этому поводу.
А вот активисты реально страху нагнали на родителей. Показательный пример: у нас тут в прошлом году вопрос получил вот такой оборот:
родители обнаружили в школьных библиотеках книги про геев, трансов и т.д.
родители подняли шум и в нашем округе запретили, чтобы в школьных библиотеках были "порнографические" книги.
активисты подняли шум, что дикие варвары (это про родителей) запрещают книги! У нас свобода слова, а тут хотят ввести "цензуру"!
Я так и не понял чем кончилась именно эта баталия, но показательно, что именно такие вот книжки вызвали очень резкую реакцию родителей, чем какие-то непонятные "рейтинги образования".
Я уже 4 года живу в Южной Каролине. Это один из самых консервативных штатов США.
Последние годы в США повсеместно поднимали голову разные активисты - голубые, розовые, с оттенками серого... и почему-то очень многие из них чувствуют призвание идти "учить": те, кто поумнее - в университеты, потупее - в школы... Понятно чему и как они учат. И это происходит даже в консервативных штатах. Трамп вроде бы пытается "вернуть всё взад" (например расформировано федеральное министерство образования), но как-то не очень получается.
Из-за этого большинство адекватных людей, которых тут немало, поняли что от школы лучше держаться подальше, потому что сейчас учителя в государственных школах США - это большая вероятность, что ребёнку на всю жизнь засрут мозги.
Как сделать, чтобы учителя были адекватные тут ещё не придумали. Но сделали альтернативный ход: с этого года штат платит не только за общеобразовательные школы (как и везде), но теперь и за частные (в том числе и церковные) и за домашнее обучение. Причём этот закон приняли 3 года назад, с этим законом боролись активисты, подавали в суд (типа это неконституционно, чтобы государство платило за религиозные школы), но вот с этого учебного года закон утверждён. Что объясняет почему именно в этом году тут резко выросло количество тех, кто больше не хочет ходить в государственные школы.
700 миллиардов параметров, даже в q4 - мало кто сможет такое запустить.
В последние несколько недель вышли несколько очень неплохих open-source моделей, которые - MoE и количество активных параметров - 10-12B:
MiniMax-M2-230B - 10B активных параметров
GLM4.5-106B-air - 12B активных параметров
Вот такой размер реально запустить у себя с более-менее практичной скоростью. А если ещё и сделать QAT (Quantization-Aware Training), как это сделали для gpt-oss-120B, то будет вообще топчик.
DDR5-4800 * 8 каналов (правда я не уверен, что память запустилась на максимальной скорости: mlc показывает 190GB/s)
ggml-org/gpt-oss-120b-GGUF
MOE, 5 миллиардов активных параметров
промпт: 43 т/c
генерация: 15 т/c
размер модели: 61 GB
MiniMax-M2-GGUF:UD-Q5_K_XL
MOE, 10 миллиардов активных параметров
промпт: 25 т/c
генерация: 9 т/c
размер: 162 GB
это одна из лучших открытых моделей на сегодня, по benchmark - лучше чем все модели в статье. Лучше неё - только GLM 4.6, но она в несколько раз больше.
у меня llama.cpp иногда не очень корректно обрабатывает <think> тэги для этой модели
я попробовал
--fit. Очень удобно, но ещё немного сыро. Не умеет брать в расчёт "слой зрения" (или как это правильно по русски?) - крэшится:https://github.com/ggml-org/llama.cpp/issues/18111 Eval bug: llama-fit-params does not include vision stack in calculations
Есть ещё баг, что они слои не в том порядки загружают.
Но думаю в ближайшее время пофиксят.
Что ещё нужно знать про этот режим:
по умолчанию llama.cpp держит в памяти 4 модели. Поэтому если у вас 24GB VRAM, вы отправили запрос к первой модели на 16GB - она загрузится и ответит. Если теперь придёт запрос ко второй модели на 10+GB, то она попробует загрузиться и свалится с ошибкой OutOfMemory. Решается
--models-max 1- это означает что на VRAM нужно держать только одну модель и при обращении ко второй, первую нужно выгрузить.по умолчанию все модели загружаются с длиной контекста 8192. Если прописать другое значение - то оно будет использоваться для всех моделей. А если надо для каждой модели использовать своё значение контекста, температуры, ... то нужно использовать
--models-preset config.iniПользуюсь Proxmox 9 у себя дома.
В общем, всё неплохо.
Но вот нарвался на такую проблему:
в случае использования NVMe дисков и файловой системы ZFS, - как только есть серьёзная нагрузка IOPS на диск, то зависает и крэшится как сама виртуалка, так и сам гипервизор.
Про эту проблему много трэдов написано на их форуме. Решения с ZFS - нету.
Я решил это тем, что использую BTRFS.
Уже не первая статья про n8n.
А я всё не могу понять: где же этот n8n может быть полезен?
Кто-нибудь, напишите, пожалуйста, пост о реальном, жизненном сценарии (use case) использовании n8n.
Почему "выходит двойной перевод через english"?
В случае использования NLLW:
Whisper делает только транскрибацию (перевод не делает)
NLLW делает перевод
Очень интересно. Спасибо за код в Github.
В декабре-2023 "книгалиц" написали у себя в блоге, что у нас есть AI для аудио-перевода... У них есть демка (русский не поддерживается), которую я тогда попробовал (я тут говорю по английски, а меня переводят на испанский):
https://s3.fursov.family/shares/fb_translate.mp4
Тут используется технология VOICE CLONING. Которая сохраняет и тембр голоса и интонацию.
Месяц назад QWEN выкатила вот эту модель:
https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct
Эта модель может:
распознавать аудио (STT)
переводить (LLM)
синтезировать речь (TTS)
У них на сайте есть демка, по 30 секунд работает. Но открытого движка для этой модели вроде бы ещё ни у кого нет. VLLM и llama.cpp могут с этой моделью работать как с LLM, но TTS не поддерживается пока.
Qwen2.5-Coder?
deepseek-r1?
Вы из прошлого века?
Как-то я сомневаюсь, что AI выдаст адекватную презентацию... Так - черновик может быть.
Я экперементировал вот с этим open-source:
https://github.com/presenton/presenton
И оно работает. Я использовал локальную модель OSS-GPT-120B, а картинки - через API Google Gemini.
Какой-то мутный список в статье...
Gemma 3 - это модель Британии? Серьёзно?
А сегодня согласно законов убивают детей.
Этот диалог можно продолжать бесконечно...
Вот поэтому я в Южной Каролине: потому что мои дети (у меня их 9) здесь ходят в частную христианскую школу. В которой и близко не подпустят учить и преподавать человека, который считает что аборт - это нормально. Или который считает что мальчик может стать девочкой.
А какой будет академический уровень образования, в какой университет поступят мои дети - вопросы конечно важные, но второстепенные. Думаю, что с этим у них тоже всё будет нормально, потому что один мой двоюродный брат тут - доктор, другие два - программисты (я - тоже) и т.д. Но главное - никто из них детей не убивает.
Если нет малыша, то кого же тогда абортируют? Это называется "расчеловечевание".
В какой момент "не малыш" становится "малышом"? Уже на 6й неделе бьётся сердце. На 13й неделе есть развитая нервная система способная чувствовать боль. Даже на 5-ом месяце беременности недоношенный младенец уже способен выжить.
У человечества уже есть опыт, когда некоторых считали "недочеловеками", и сейчас стесняются об этом вспоминать.
Вот решать за женщину, что ей нельзя убить ребёнка, когда он уже родился - это в нашем обществе нормально. А решать за женщину, что ей нельзя убить ребёнка до того, как он родился - это ая-яй-яй, нельзя! Какие-то двойные стандарты.
Ну да, родные родители, которые тебя убили, чтобы найти "лучше оплачиваемую работу" - это лучшие родители. (сарказм)
"Жизнь лучше сложилась"?
А как сложилась жизнь у малыша, которого убили абортом?
Кстати, тут в США, во всех штатах, можно добровольно отдать ребёнка сразу после рождения. Вопрос "полного содержания" решён.
Давить - нельзя, а "опекать" - можно. Только бы не перепутать.
Вот в штате Missouri аборты запрещены, поэтому в школах "опекали" девочек: возили делать аборты в соседний штат, - там можно. А родителям - не говорили.
И подобных примеров - много. Поэтому народ тут массово валит из школ: будет ли моя дочь делать аборт или нет - намного важнее того, какая у неё оценка по биологии...
Рейтинг образования может и волнует конгрессменов, но большинству родителей - до лампочки. А даже если и волнует родителей - мало кто может что-то сделать по этому поводу.
А вот активисты реально страху нагнали на родителей. Показательный пример: у нас тут в прошлом году вопрос получил вот такой оборот:
родители обнаружили в школьных библиотеках книги про геев, трансов и т.д.
родители подняли шум и в нашем округе запретили, чтобы в школьных библиотеках были "порнографические" книги.
активисты подняли шум, что дикие варвары (это про родителей) запрещают книги! У нас свобода слова, а тут хотят ввести "цензуру"!
Я так и не понял чем кончилась именно эта баталия, но показательно, что именно такие вот книжки вызвали очень резкую реакцию родителей, чем какие-то непонятные "рейтинги образования".
Я уже 4 года живу в Южной Каролине. Это один из самых консервативных штатов США.
Последние годы в США повсеместно поднимали голову разные активисты - голубые, розовые, с оттенками серого... и почему-то очень многие из них чувствуют призвание идти "учить": те, кто поумнее - в университеты, потупее - в школы... Понятно чему и как они учат. И это происходит даже в консервативных штатах. Трамп вроде бы пытается "вернуть всё взад" (например расформировано федеральное министерство образования), но как-то не очень получается.
Из-за этого большинство адекватных людей, которых тут немало, поняли что от школы лучше держаться подальше, потому что сейчас учителя в государственных школах США - это большая вероятность, что ребёнку на всю жизнь засрут мозги.
Как сделать, чтобы учителя были адекватные тут ещё не придумали. Но сделали альтернативный ход: с этого года штат платит не только за общеобразовательные школы (как и везде), но теперь и за частные (в том числе и церковные) и за домашнее обучение. Причём этот закон приняли 3 года назад, с этим законом боролись активисты, подавали в суд (типа это неконституционно, чтобы государство платило за религиозные школы), но вот с этого учебного года закон утверждён. Что объясняет почему именно в этом году тут резко выросло количество тех, кто больше не хочет ходить в государственные школы.
700 миллиардов параметров, даже в q4 - мало кто сможет такое запустить.
В последние несколько недель вышли несколько очень неплохих open-source моделей, которые - MoE и количество активных параметров - 10-12B:
MiniMax-M2-230B - 10B активных параметров
GLM4.5-106B-air - 12B активных параметров
Вот такой размер реально запустить у себя с более-менее практичной скоростью. А если ещё и сделать QAT (Quantization-Aware Training), как это сделали для gpt-oss-120B, то будет вообще топчик.
Я пробовал несколько экспериментов с драфтовыми моделями, но что-то толку от них было мало.
А вот вынести контекст на GPU - реально ускоряло:
MiniMax-M2-GGUF:UD-Q5_K_XL (162GB, MOE, 10 миллиардов активных параметров):
DDR5-4800 * 8 каналов: генерация: 9 т/c
DDR5-4800 * 8 каналов и NVIDIA RTX 4090D 48GB: генерация: 15 т/c
Если флагман, то - Qwen3-VL-235B-A22B
У меня xm4 и корпус треснул, теперь одно ухо болтается, висит на проводе
Я запускал некоторые модели у себя без GPU.
Система:
Intel Xeon W5-3425 (12 cores, AMX)
DDR5-4800 * 8 каналов (правда я не уверен, что память запустилась на максимальной скорости: mlc показывает 190GB/s)
ggml-org/gpt-oss-120b-GGUF
MOE, 5 миллиардов активных параметров
промпт: 43 т/c
генерация: 15 т/c
размер модели: 61 GB
MiniMax-M2-GGUF:UD-Q5_K_XL
MOE, 10 миллиардов активных параметров
промпт: 25 т/c
генерация: 9 т/c
размер: 162 GB
это одна из лучших открытых моделей на сегодня, по benchmark - лучше чем все модели в статье. Лучше неё - только GLM 4.6, но она в несколько раз больше.
у меня llama.cpp иногда не очень корректно обрабатывает <think> тэги для этой модели