kuz119 мар в 09:29

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос

Простой

6 мин

8.7K

Python * Искусственный интеллектNatural Language Processing * Проектирование API *

Туториал

Комментарии 20

ErshoffPeter 19 мар в 11:26

Начало уже многообещающее!

Не останавливайтесь!

kuz1 19 мар в 12:49

Спасибо! За мотивацию!)

Moog_Prodigy 19 мар в 11:36

Не совсем понятно для чего нужна именно liteLLM , если есть стандартный requests, и код на питоне при работе с ним будет фактически такой же? Плюс requests это не только для работы с llm-ами, но и другими нейронками типа ace step, stable diffusion...

kuz1 19 мар в 12:25

requests — это просто транспортный слой HTTP.
LiteLLM — это унифицированный слой именно для LLM-провайдеров.

Через requests можно вызвать что угодно, но всю специфику разных LLM API вы обрабатываете сами.
Через LiteLLM вы платите зависимостью, но получаете единый интерфейс, единый формат ответов и более лёгкое переключение между моделями и провайдерами.

Moog_Prodigy 19 мар в 12:58

Хотелось бы в следующей статье увидеть примеры этого :) Потому что переключение между моделями и провайдерами обычно заключается в изменении начальных переменных, иногда точки входа API, да...и всё по сути. Что с облачным, что с локальным - одинаково работает. А по сути это перекидывание json запросов, что так, что эдак. У вас тоже надо инициализировать API, чтобы она ответила. Почти так же как это делает requests. Вот и хочется примеров. Вдруг и правда лучше )

kuz1 19 мар в 15:02

Именно так и будет как вы сказали, в следующих частях. Переключение между Ollama и облачным провайдером — это реально изменение одной-двух строк в конфиге. Покажу конкретно, с кодом. Следите за серией.

WhiteBehemoth 19 мар в 13:12

Для обучения это почти идеальный вариант. Вы не отвлекаетесь на инфраструктуру и сразу видите базовую механику интеграции.

Olama - обёртка над llama.cpp

LiteLLM - обёртка над Open AI запросами

llama.cpp ставится не сложнее оламы. Open AI spec в простых случаях - тоже не китайская грамота. Понятно, что каждого джежая свой путь обучения, но не слишком ли упрощаете?

kuz1 19 мар в 15:00

Упрощаю осознанно. Цель серии — не объяснить стек до уровня llama.cpp, а показать рабочую механику LLM-интеграции на Python человеку, который раньше с этим не работал. Ollama как обёртка над llama.cpp и LiteLLM как обёртка над OpenAI spec — это честное описание. Если читатель дойдёт до конца серии и захочет глубже — у него уже будет рабочий контекст, в котором это понимание ляжет. Каждый джедай свой путь, согласен.

WhiteBehemoth 19 мар в 16:25

У вас подача материала хорошая, учительская. Если бы вы так рассказали про llama.cpp... Просто обёртки не только упрощают, но и ограничивают.
Например ollama list Это, конечно, просто, но скрывает такой важный параметр как квантование моделей и размер контекста. Вы говорите в статье "если модель тормозит, выберите поменьше". Но ведь память ест не только сама модель, но и окно контекста. Тогда становится понятнее, почему при свободной видео памяти 8 GB модель 7.5 GB "не влезает".
Я, погружаясь в тему с полного нуля полтора месяца назад, благодаря вот этому комментарию https://habr.com/ru/articles/991560/#comment_29467748 (думаю, что) сэкономил кучу времени на понимании принципов локальной LLM. Да, может чуть непонятнее в начале, но и Hugging Face и Llama.cpp - весьма дружественные к новичкам (особенно когда есть под рукой ИИ чат какой-нить).

Moog_Prodigy 19 мар в 16:59

Там еще есть ключик --keepalive про который в интернетах вообще сложно найти инфу, хотя ничего секретного нету. И в мелочах скрыты многие приколы. Конкретно этот ключик задает время удержания модели в памяти с последнего обращения. Меня сильно бесило, что по дефолту там 15 минут моделька висит, а потом выгружается, моделька может быть не то чтобы на hdd а даже на внешней флешке, с которой она грузиться будет полчаса. Там еще ключики всякие веселые есть, но имхо, оллама последнее время пошла куда-то не туда.

Incognito4pda 19 мар в 20:37

Тоже перешёл на llama.cpp + llama-swap т.к. ollama уже давно скатился в какое-то полу коммерческое дно. Да и по скорости генераций llama.cpp обходит ollama на целую голову - а это, на секундочку ключевой фактор в подобной деятельности.

Мой совет новичкам, даже не думайте это трогать, существует целый вагон качественного, быстрого, адекватного по для работы с локальными моделями. Ollama юзают те, кто далеко от темы локальной нейро генерации.

WhiteBehemoth 19 мар в 23:24

а зачем llama-swap, если только llama.cpp ?

Wid07 19 мар в 17:04

Запускаю файл. python main.py и ничего не происходит

aladkoi 19 мар в 18:49

Если хочется "убить" время, делайте, как написано в статье, все равно не получите никакого адекватного результата. Для более менее "нормального" общения с моделью нужен GPU ускоритель на 16 гиг и модель не хуже qwen3 и то - это на уровне "поиграться". Локальные модели обычно ставят под эмбидинги и reranker для rag систем. Для анализа информации и работы с инструментами нужна нормальная облачная модель. Локальные модели , если у Вас только не своя минифабрика с GPU ускорителями, на уровне облачных моделей работать не будут, таковое на сегодня развитие технологий.

WhiteBehemoth 19 мар в 21:34

кстати да. Это ОЧЕНЬ важный момент, обойдённый автором. Если нету GPU (желательно от NVidia) то локальная LLM это грустно, медленно и малоинтересно.
16GB это очень хорошо, но сейчас и в более популярные 8GB можно поместить не сильно обрезанную (4 бита) qwen 3.5. (модель 5,6 gb + 0.9 gb на распознавание картинок, еще и на 8к+ токенов контекстного окна останется).
Это вполне себе интересный собеседник, да еще и без цензуры, спрашивай о чем хочешь.
если что, краткая инструкция (если вдруг у кого возникнет желание проверить, а лламы еще нету)

Скачать llama.cpp под свою видео карту (или cpu, но это грустно) https://github.com/ggml-org/llama.cpp/releases
Скачать модель https://huggingface.co/HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive/blob/main/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf
(опционально) модуль для распознавания картинок https://huggingface.co/HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive/blob/main/mmproj-Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf
Запустить сервер llama-server.exe --model [путь до модели] --mmproj [путь до модуля] Остальные параметры можно попробовать по умолчанию - в последних релизах уже и окно контекста можно не указывать - обрежется по имеющийся памяти.
Открыть WebUI localhost:8080

thunderspb 20 мар в 18:48

А подскажите, какая самая легковесная модель? Врядли такие есть, но чтобы влезла в vps 2cpu, 2gb :) "разум " не нужен, скорость посути тоже особо.чисто приркутить к телеграм боту, чтобы он, например на основе базовых входных данных, типа погодных, писал чтото вроде "сегодня пасмурно/ясно/дождь, температура от хх до хх, ветер блабла и т.п" я чисто экспериментирую для себя.

El_ferrum 23 мар в 10:19

Антон, привет!

Этот гайд входит в курс на степике?

kuz1 23 мар в 10:44

Да. Это выжимка из курса.

El_ferrum 23 мар в 10:58

Спасибо, заскочу на курс

Vertoletto 4 часа назад

C LiteLLM случилась неприятность: https://github.com/BerriAI/litellm/issues/24518
Рекомендуется срочно проверить свои версии (скомпрометированы v1.82.7 + v1.82.8) и сменить креды.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий