KastorTroy Nov 10 2025 at 09:59

Как мы перестали использовать Python в production LLM-системах — и почему это было необходимо

9 min

14K

Java * Python * Artificial Intelligence

+10

Comments 15

muhachev Nov 11 2025 at 04:34

Сладкий звон жэпэтэллера.

KastorTroy Nov 12 2025 at 08:04

Жэпэтэллер пишет сказки.
Я — собираю систему.
Бинарник. Индекс. Поды.
Не GPT — инфраструктура.

Elaugaste Nov 11 2025 at 20:27

Много воды, почти никакой конкретики.

Очень хотелось бы посмотреть на то как приложение для прода собирается за 2-4 недели, без возможности использовать фреймворки. Под go с этим вообще весьма туго, есть всего пара фреймворков

KastorTroy Nov 12 2025 at 07:54

Не пишут с нуля — интегрируют.
llama.cpp/ollama — готовый инференс.
Go: библиотек мало, но ollama — весь стек на Go.
Java: Spring Boot, DJL, ONNX Runtime — готовый фреймворк.
gin — 200 строк API.
Opensearch — векторный и классический поиск за день.
OpenTelemetry, Kubernetes/Helm — всё быстро и надёжно.
2–4 недели — сборка из готовых кирпичей.
Go/Java — не для обучения, а для надёжного инференса.

Elaugaste Nov 12 2025 at 08:04

Окей, тоесть вы просто берете ollama, раните там какой то gguf. И видимо далее используете ollama api чтобы просто кидать запросики из java (или чего то еще) ?

Я почему то подумал что речь про оптимизацию и приложение целиком собрано в go монолит, вероятно с использованием langchaingo/eino и вот это все за 2-4 недели

KastorTroy Nov 12 2025 at 08:11

Да, именно так — но это один из сценариев:
— ollama — CPU-инференс без Python
— Java/Go — аудит, SLA, безопасность
— Kubernetes, OpenTelemetry — стабильность, наблюдаемость

Это и есть 2–4 недели на готовый стек — когда вам не нужен GPT, а нужна надёжность, контроль и цена.

Есть попытки запускать GGUF напрямую в Java — через экспериментальные API, например, Vector API (JEP 469) или TornadoVM, но пока с ограниченной поддержкой.
Мы также тестировали Qwen3 4B в ONNX — инференс из Java дал прирост скорости по сравнению с Python-аналогом.

Вывод: Go/Java — не для всех моделей, но для production-оркестрации — лучший выбор.

Andreas_Fogel Nov 13 2025 at 17:51

Большое вам спасибо за статью. Вы единственный автор на хабре, который в этом направлении не стал писать шляпу из GPT. По поводу vLLM и ONNX. Эти движки прям вещь, но с пользовательской стороны чувствуется, что разрабы лютые нерды математики, что не скажешь про ollama, которая бодрее запускает модели, чем lms. Кубер и контейнеризация простые и удобные вещи, но KubeFlow тоже завоз не очень понятный, но конечно полезный. Все эти многослойные уровни это не очень хорошая зависимость, чем больше нового софта, тем больше шанс получить вилами в спину. По опыту скажу, моделей в формате GGUF нету лучше, чем линейка qwen3, да есть минусы с иероглифами, но в остальном это лучшая легковесная модель для любых задач. Мне нравятся такого рода статьи, поэтому жду от вас таких же полезных статей.

KastorTroy Nov 14 2025 at 08:50

Спасибо за комментарий.
Буду рад писать дальше!

FireAndIce Nov 14 2025 at 08:35

Даже комменты через гпт

KastorTroy Nov 14 2025 at 08:54

Есть в психологии приём:
когда научился распознавать отклонения —
перестань искать их в каждом.

FireAndIce Nov 14 2025 at 08:59

Ахах. Гпт слишком хорошо видно. Длинные тире, выделения, списки, редко встречаемые в речи слова.

KastorTroy Nov 14 2025 at 09:19

Тогда все, кто соблюдают code style и использует форматирование — тоже GPT

Gnet21 Nov 11 2025 at 21:39

Компании, которые не могут себе позволить нормальные GPU, в состоянии оплатить разработку и поддержку такого стэка технологий?

ИМХО тут описаны работы сильно дороже, чем стоит RTX 5090 и возможно дороже А100. А если эти разработчики ещё и сторонние(что часто дешевле), то с их пропажей поддержка такого зоопарка будет отдельным приключением. Есть сомнения, что малый бизнес такое способен поиянуть

KastorTroy Nov 12 2025 at 07:38

Вы правы — стек сложнее, чем RTX 5090.
Но инференс на GPU — это не только карта за 300–800 тыс. ₽: это электричество, охлаждение, сопровождение, и — если вы работаете с конфиденциальными данными — ещё и привязка к поставщику внутри ЦОДа, где GPU не всегда доступен.
CPU-сервер с GGUF-моделью — прост, универсален и его может обслужить любой, кто работает с локальной инфраструктурой.
Поддержка — не «зоопарк», а изолированные сервисы: инференс через llama.cpp или Ollama, оркестрация — на Java/Go.
Не все могут.
Но тем, у кого данные важны — это осознанный выбор.

Fardeadok Nov 15 2025 at 09:42

Питон не является узким местом. Это обман. Не знаю что вы там собрали на CPU с поддержкой тысяч запросов в секунду но это звучит сказочно. Для раста/го нет полноценных либ для ИИ и не будет тк интерпретатор удобнее чем бесконечно тыкать сохранить-скомпилить-запустить-глянуть логи

PS попробуйте ryzen ai 395: огромная расширяемая память, скорость на уровне 70т/сек на квене как у топ карт