Comments 34
У меня плохие новости. Lm studio делают в Нью-Йорке и туда же видимо утекает аналитика Авито.
Возможно, там, где они используют лм студио, нет выхода в глобальный интернет.
Но все равно как-то плохо, что затащили lm studio к корп. тайне, пд и, возможно, инфраструктуре.
LM Studio — это open source программа
Нет, сама по себе LM Studio - не open source. Более того, бесплатная и не опенсорс.
Вот просто собрались в дорогом американском городе "альтруисты", которые бесплатно делают программу на фуллтайме. Только почему-то не хотят код показывать этой программы...
А если они используют лм студио в месте с выходом в глобальный интернет, то...
Всегда считал, что если код открытый и лицензия MIT, то это называется opensource.
https://github.com/lmstudio-ai/lms
lms - Command Line Tool for LM Studio
Built with lmstudio.js
Это не сама LM Studio.
Сама LM Studio не является опенсорсом. Код не открыт и не залит никуда.
Привет, спасибо за комментарий. Действительно LM Studio сам по себе не является открытым проектом. Ввело в заблуждение, что у них часть компонентов лежат в git. Если есть ссылки на подтверждения по сливу данных прошу прислать.
Читал вот такое
1) Обсуждение на Редите сливает или не сливает
2) Официальная политика, где они пишут что все локально
3) Как проверить, что LM Studio работает локально и обезопасить себя от потенциальных рисков.
4) Тоже про то, как обезопасить себя
P.S.: Если коротко, "на всякий случай" можно настроить фаервол (Lulu например для macbook) или запускать в docker контейнере.
А есть локальные модели для нахождения объектов на фото? Скажем бутылку на фото? А то вроде только с текстовыми моделями lm работал
YOLO
У автора странный набор моделей. Гемма-3 и вашу задачу, и задачу работы с русскими текстами отлично решает. При этом, модель желательно выбирать от Unsloth и с динамическим квантом, а не как написано в гайде выше.
Привет! Если говорить в контексте открытых llm, то можно например mistralai/magistral-small-2509 с ее помощью, можно получить описание изображения в целом.
Llama.cpp запущенный из консоли содержит в себе веб сервер и все что нужно для работы с локальным апи. Тем более что большинство llm продуктов, если не все, используют под капотом llama.cpp.
Подтверждаю.
Тем более, что есть curl.
Через него на c++ работать с llama.cpp короче и, что главное, яснее и внятнее, чем из питона.
В Python обработка строк и работа с сетью попроще, чем в С++ будет.
Я не знаю C++ поэтому спросил у ИИ:
give an examble of requesting llama Server from Python and C++
Теперь сравним этот неясный Python со своим невнятным Requests
import requests
url = "http://localhost:8000/completion"
payload = {
"prompt": "What is the capital of France?",
"max_tokens": 50,
"temperature": 0.7,
"top_p": 0.9
}
response = requests.post(url, json=payload)
if response.status_code == 200:
result = response.json()
print("Response:", result.get("completion", result))
else:
print("Error:", response.status_code, response.text)
И С++ сверкающий совершенством и его оруженосец libcurl
#include <iostream>
#include <string>
#include <curl/curl.h>
int main() {
CURL *curl;
CURLcode res;
const std::string url = "http://localhost:8000/completion";
const std::string jsonData = R"({
"prompt": "What is the capital of France?",
"max_tokens": 50,
"temperature": 0.7,
"top_p": 0.9
})";
curl_global_init(CURL_GLOBAL_DEFAULT);
curl = curl_easy_init();
if (curl) {
struct curl_slist *headers = nullptr;
headers = curl_slist_append(headers, "Content-Type: application/json");
curl_easy_setopt(curl, CURLOPT_URL, url.c_str());
curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers);
curl_easy_setopt(curl, CURLOPT_POSTFIELDS, jsonData.c_str());
// Optional: capture response
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, [](char *ptr, size_t size, size_t nmemb, void *userdata) -> size_t {
std::string *response = static_cast<std::string *>(userdata);
response->append(ptr, size * nmemb);
return size * nmemb;
});
std::string responseStr;
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &responseStr);
res = curl_easy_perform(curl);
if (res != CURLE_OK)
std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
else
std::cout << "Response from server:\n" << responseStr << std::endl;
curl_slist_free_all(headers);
curl_easy_cleanup(curl);
}
curl_global_cleanup();
return 0;
}
Насколько я вижу, одна инициализация Curl занимает больше строк, чем весь запрос и его обработка из Python. А ведь в примере с C++ даже не брались за JSON еще.
Phi-3 3.8B точно адекватно с русским языком работает? С ним даже Phi-4 большей размерности не очень дружит.
Забудьте про lm studio в нем вшита цензура что по крайней мере - расходует ресурсы компьютера. Она работает на рунтаймах откройте эту вкладку и получите список их и откуда она их тянет.
Почему все сидят на lmstudio и ollama..ну это же не прод вариант, localai посмотрите. Уже год использую, быстро развивается, модели можно добавлять самому через шаблон
Потому что морда отдельно, запуск отдельно, а не всё в одном. Ту же ollama отлично можно использовать где-нибудь в кластере и обращаться к ней будут далеко не люди.
Ну так это же не прод вариант. Это так для внутреннего использования
И что? Оно работает, дохрена док по всему инету, можно сделать морду у себя, бекенд — где-то там. Ну то есть, можно разрабатывать на сетапе, идентичном продовому и потом выкатить тупо ту же конфигурацию, а не разбираться, в чём разница в запуске модели, отчего это она на одном и том же тестовом запросе выдаёт разные результаты в разных местах.
тоесть там есть балансировка запросов?
очереди ответов?
кэширование?
Зачем в ollama балансировка запросов, если это бекенд, запускающий инстанс конкретной модели (моделей, если влезут) на конкретном сервере или даже конкретной видеокарте в сервере?
Очередь запросов там есть. Кеширование тоже. Балансировать должен фронтенд, если бекендов несколько.
Не устраивает ollama (всё-таки не всегда подходит и не всё может запустить из новых) — берём vllm, настраиваем несколько больше, чем ollama (опций сильно больше) и пользуемся практически так же, через api. Но там уже строго одна модель в одном запущенном бекенде.
Фронтендом к ним можно много чего в проде поставить, начиная с nginx+lua, заканчивая чем-то вроде litellm.
А вообще, мы, похоже, чуть-чуть о разном — localai про единую инфраструктуру (не знаю, насколько она гибкая и переиспользуемая не в рамках dev), ollama/vllm — кирпичики, которые очень легко встраиваются куда-то ещё.
Насчет легких моделей gemma 3n очень не плохая.
Мда, чтобы убиться - человек пытался создать оружие и все более изощереннее подходил к этому вопросу, но даже самые искуссные мастера и инженера самого страшного оружия - не предполагали, что можно создать инструмент, когда человек сам себе накидывает петлю на шею и при этом радуется, как дитя: о том что все утекает за бугор - сказано… контролировать - конечно можно, хотя не уверен, что весь трафик они снифили (сомневаюсь, если они свято верят, что продукт полностью открытый), но даже в этом случае - скармливать всю информацию и радоваться?! Сверх мазохизма…
Куда утечет информация, если доступа во внешнюю сеть нет?
Т.е. уверенности в таком классном ПО - нет? Ага, понятно… очень интересно - держите нас вкурсе
Zero trust, шарите?
Сцуко, ну ни одному сервису не выдают выход в интернет, кроме определенных портов, но почему то к той же графане нет претензии, RDP у нас наоборот еще защитят, если смотрит в мир (а как показывает статистика - полмира), открывая доступ jabber - мы осознаем риски, но понимаем по каким протоколам и портам идет обмен трафика и почему то не кричим , что freepbx может слить данные абонентов, хотя все возможности есть, а тут взяли за яйки, включив режим бога и сами накинули себе петлю на шею и все-равно найдется уникум, который скажет «ну и что, то другое» - правильно сказал один киногерой: «страна непуганных идиотов» (с)
Спасибо за статью, делаем подобные вещи, подскажите несколько вопросов
Почему в рекомендации не попала gpt oss ?
Какие инструменты для моделирования бизнес процессов используются ? N8n к примеру или аналоги ?
Привет. Спасибо за комментарий. На момент написания статьи она еще не вышла в открытый доступ. Статья проходит долгую процедуру проверки. Могу сказать свое субьективное мнение, что сейчас пользуемся в основном :
qwen/qwen3-30b-a3b-2507
qwen3-coder-30b-a3b-instruct-mlx
gpt-oss-20b-mlx
К сожалению по моделированию бизнес процессов не подскажу, наша команда этим не занимаестя.
Information
- Website
- avito.tech
- Registered
- Founded
- 2007
- Employees
- 5,001–10,000 employees
- Location
- Россия
- Representative
- vvroschin
Как с помощью локальной LLM автоматизировать рутину и облегчить жизнь себе и коллегам