P.S. локальные модели очень удобны в SRE/Devops задачах. На внешний LLM нельзя просто так отправить конфиги. Напротив, в локальную модель отправить конфиги со всеми секретами - безопасно. Все ConfigMap, DeploymentSet, etc из k8s и прочую SRE инфу ~30B модели достаточно хорошо обрабатывают.
На 5090 Gemma4 26B Q6_K/Qwen3.6 35B Q4_K_M влезает с полным контекстом 256К (без квантизации).
Скорость генерации начинается от 170 т/с - очень хорошая скорость для агентов. На 200К контекста скорость падает до 90 т/с.
Минимально умные модельки для агентов как раз начинаются в районе 30B. При наличии RAM, можно запускать гораздо большие MoE около 120B (20т/с) - это почти уровень GPT4.
У меня локальные модели в обычном применении заменяют 90% запросов (справка, суммаризация, анализ текста, перевод, простые программки, или когда код нельзя отправлять в сторонние сервисы). 10% приходится на платные через openrouter. Но я не обмазываюсь агентами openclaw/hermes/etc. Легкое использование opencode - для вайбкодинга элементарных вещей или нарисовать mermaid блок-схему неизвестного кода чтобы ускорить загрузку кода себе в голову.
Из минусов, хоть prompt processing легко переваливает за 1000 т/с, но т.к. все модели запускаются через llama.cpp и его форки, то поддержка часто сырая. Что приводит к тому что такие агенты как opencode/claude code/codex не совсем совместимы. Из-за несовместимости kv-кеш достаточно часто инвалидируется, а значит весь сеанс приходится пересчитывать. 100К контекста со скоростью prompt processing 1000 т/с занимает полторы минуты.
В общем не следует считать 5090 альтернативой, а только дополнением. После покупки 5090 где-то через месяц, два, три, захочется что-то типа RTX 6000 Blackwell.
Это мне напомнило как линупсоиды с пеной у рта доказывают что настраивать софт через текстовый файл это верх удобства.
Мало того что не понятно какие возможно написать параметры. Так ещё и ошибки никак не контроллируются. Всплывёт только после ошибки или не верного поведения.
Быстро настроить мышкой за пару кликов ?
Фу фу
Муторно скроллить а потом писать на клавиатуре воображая себя мамкиным хакером ?
У меня вот на новом мониторе тоже немного похожая бага. Если монитор подключен через DP 1.2 в разрешении 2к@360Hz то при переключении из полноэкранного отображения на рабочий стол была пауза секунды на полторы в виде черного экрана.
Решилось подключением через HDMI 2.1 и отключением в мониторе DSC. К сожалению при этом потерял в герцах. Пропускной способности хватает только на 2К@240Гц.
Докер. Это только Линукс. И нативно он работает только в Линуксе. Для запуска в других ОС докер контейнеров, всегда нужна виртуальная машина с линуксом.
Так что в этом случае без виртуализации не возможно использовать контейнеризацию.
Не надо забывать что существует также виртуализация процессора. Полностью программная. Так что иногда нужно запустить приложение на принципиально другой архитектуре. Не всё в ограничивается запуском другой ОС.
Предлагаю проверить задачу. Написать на html + css + js аналоговые часы. Секундная стрелка должна идти плавно. Должна быть кнопка настроек. В настройках менять шрифт текста, цвет циферблата и цвет стрелок. Включать или отключать минутные метки.
У меня пока ни одна нейронка не смогла родить работающий код.
Внутри одного кластера
P.S. локальные модели очень удобны в SRE/Devops задачах. На внешний LLM нельзя просто так отправить конфиги. Напротив, в локальную модель отправить конфиги со всеми секретами - безопасно. Все ConfigMap, DeploymentSet, etc из k8s и прочую SRE инфу ~30B модели достаточно хорошо обрабатывают.
На 5090 Gemma4 26B Q6_K/Qwen3.6 35B Q4_K_M влезает с полным контекстом 256К (без квантизации).
Скорость генерации начинается от 170 т/с - очень хорошая скорость для агентов. На 200К контекста скорость падает до 90 т/с.
Минимально умные модельки для агентов как раз начинаются в районе 30B. При наличии RAM, можно запускать гораздо большие MoE около 120B (20т/с) - это почти уровень GPT4.
У меня локальные модели в обычном применении заменяют 90% запросов (справка, суммаризация, анализ текста, перевод, простые программки, или когда код нельзя отправлять в сторонние сервисы). 10% приходится на платные через openrouter. Но я не обмазываюсь агентами openclaw/hermes/etc. Легкое использование opencode - для вайбкодинга элементарных вещей или нарисовать mermaid блок-схему неизвестного кода чтобы ускорить загрузку кода себе в голову.
Из минусов, хоть prompt processing легко переваливает за 1000 т/с, но т.к. все модели запускаются через llama.cpp и его форки, то поддержка часто сырая. Что приводит к тому что такие агенты как opencode/claude code/codex не совсем совместимы. Из-за несовместимости kv-кеш достаточно часто инвалидируется, а значит весь сеанс приходится пересчитывать. 100К контекста со скоростью prompt processing 1000 т/с занимает полторы минуты.
В общем не следует считать 5090 альтернативой, а только дополнением. После покупки 5090 где-то через месяц, два, три, захочется что-то типа RTX 6000 Blackwell.
Есть ещё дистилляция top tier моделей. Не дает ли это уменьшение перплексии для deepseek/mimo и иже с ними ?
Так суть статьи в том чтобы у агента был верный контекст. Много контекста - шум. Мало контекста - нет конкретики, модель будет делать наугад.
В Твиттере уже писали что бенчмарки, в частности swe-bench verified, не правильно выполнены. Модель видела историю гита и таким образом сжульничала.
Также другие тесты от пользователей показали что ей далеко до gpt 5.2, claude и других топовых моделей.
В windows 98 был active desktop.
В папках можно было сделать чтобы она отображалась как веб страница
Места жрёт на 80, а скорость как на 13, круто.
Судя по наличию мобильных ОС.
Это скорее замена react native.
может тогда через docker model распространять
Как же вы заманали с этими дистилятами.
О, да!
Это мне напомнило как линупсоиды с пеной у рта доказывают что настраивать софт через текстовый файл это верх удобства.
Мало того что не понятно какие возможно написать параметры. Так ещё и ошибки никак не контроллируются. Всплывёт только после ошибки или не верного поведения.
Быстро настроить мышкой за пару кликов ?
Фу фу
Муторно скроллить а потом писать на клавиатуре воображая себя мамкиным хакером ?
ДА!!
Драйверы, windows 95. Ерунда.
Вы вспомните игры 8 и 16 битных консолей.Никакого сохранения.
Умер, начинай игру заново! Вот что нас закалило!!
А зачем резолвить эти хосты если атака "мужик по середине" итак осуществляется этими хостами.
У меня вот на новом мониторе тоже немного похожая бага. Если монитор подключен через DP 1.2 в разрешении 2к@360Hz то при переключении из полноэкранного отображения на рабочий стол была пауза секунды на полторы в виде черного экрана.
Решилось подключением через HDMI 2.1 и отключением в мониторе DSC. К сожалению при этом потерял в герцах. Пропускной способности хватает только на 2К@240Гц.
Не существует нативных docker контейнеров для windows. существуют windows контейнеры.
Это разные виды контейнеров. Docker container только для linux, windows container только для windows.
Другими словами контейнеры - это упаковка приложений и их изоляция друг от друга и от хоста. Один для linux приложений и другой для windows.
Нельзя на чистом linux запустить windows приложение, и наоборот.
Чтобы это сделать надо прибегать к помощи wine или wsl 1.
Докер. Это только Линукс. И нативно он работает только в Линуксе. Для запуска в других ОС докер контейнеров, всегда нужна виртуальная машина с линуксом.
Так что в этом случае без виртуализации не возможно использовать контейнеризацию.
Не надо забывать что существует также виртуализация процессора. Полностью программная. Так что иногда нужно запустить приложение на принципиально другой архитектуре. Не всё в ограничивается запуском другой ОС.
Предлагаю проверить задачу. Написать на html + css + js аналоговые часы. Секундная стрелка должна идти плавно. Должна быть кнопка настроек. В настройках менять шрифт текста, цвет циферблата и цвет стрелок. Включать или отключать минутные метки.
У меня пока ни одна нейронка не смогла родить работающий код.
Мудрых за всю документально отраженную историю маловато. А если учесть "большой взрыв" Интернет публикаций, то ещё меньше.
Не получится ли так, что ИИ всегда будет стремиться к плохим качествам человечества ?