Pull to refresh

Comments 6

Вниз это масштабируется для локального инференса на бюджетных картах (16-32GB VRAM)?

Привет, да, разработка велась и продолжается в том числе с учётом локального inference:

1. InfiniRetri по умолчанию использует Qwen2.5-0.5B

# Требует ~1-2GB VRAM
retriever = InfiniRetriever(model_name_or_path="Qwen/Qwen2.5-0.5B-Instruct")

2. Конфигурация для 16GB карты

from rlm_toolkit import RLM

# RTX 4060 Ti 16GB — комфортный вариант
rlm = RLM.from_ollama(
    root_model="llama3:8b-instruct-q4_0",  # ~4GB
    sub_model="qwen2.5:0.5b-instruct-q8_0", # ~0.5GB
)
# Обрабатывает 10M+ токенов, потребляет ~5GB VRAM

3. Конфигурация для 8GB (!) карты

# RTX 3060 8GB — работает!
rlm = RLM.from_ollama(
    root_model="llama3:8b-instruct-q3_K_S",  # ~3GB
    sub_model="qwen2.5:0.5b-instruct-q4_0",  # ~0.3GB
)

4. Llama 4 Scout: 10M native context локально

Если 32GB+ VRAM:

# RTX 4090 24GB или 2x RTX 3090
rlm = RLM.from_ollama(root_model="llama4-scout:17b-q4_0")  # 10M контекст!

Тесты на RTX 4060 Ti 16GB:

Контекст Время VRAM 100K tokens 12s 5.8GB 500K tokens 45s 6.2GB 1M tokens 90s 6.5GB 10M tokens ~15min 7.1GB

Ключевое: RLM не загружает весь контекст в модель — он хранится в RAM, модель работает с маленькими чанками. VRAM растёт минимально.

А что с RAM?

Контекст RAM (текст) Примечание 1M tokens ~4 MB Просто строка в Python 10M tokens ~40 MB Всё ещё ничто 100M tokens ~400 MB На современных ПК — норма

Для сравнения: браузер с 10 вкладками съедает 2-4 GB. RLM с 10M токенов — 40 MB.

При использовании InfiniRetri создаётся индекс: +20-30% к размеру текста. Итого 10M токенов ≈ 50 MB RAM.

Если совсем мало RAM (4-8 GB), можно включить streaming mode — текст читается с диска чанками.

Вот это отлично! У меня RTX PRO 4000 blackwell с 24GB, сейчас там крутится Devstral-Small-2-24B-Instruct-2512-Q5_K_M.gguf и на контекст остаётся 98К - я уж было начал грустить что ничего из неё не выйдет.

Прекрасно)
Я уже как раз пересмотрел всё сделанное, лично вам будет проще думаю))

Добрый день. Очень любопытный фреймворк. Настолько, что захотелось попробовать. Но если в лоб запустить простейший код Quickstart из репозитория проекта (поменяв правда модель с gpt-4o на локальную qwen3-coder-30b из под ollama), он не работает.

from rlm_toolkit import RLM

# Создаём RLM с OpenAI
rlm = RLM.from_ollama("qwen3-coder:30b")

# Простой запрос
result = rlm.run("Объясни квантовые вычисления простыми словами")
print(result.final_answer)

Выпадает с ошибкой:

TypeError: RLM.run() missing 1 required positional argument: 'context'

Если проставить аргументы query и context, то спустя минуту вывалится уже с ошибкой:

 print(result.final_answer)
          ^^^^^^^^^^^^^^^^^^^
AttributeError: 'RLMResult' object has no attribute 'final_answer'

Слегка обескураживает...

Здравствуйте!

Подскажите, какую версию вы использовали? Вчера вышел стабильный релиз 2.3.0 (

pip install rlm-toolkit --upgrade

).

В текущей версии API требует два аргумента:

pythonfrom rlm_toolkit import RLM
rlm = RLM.from_ollama("qwen3-coder:30b")
result = rlm.run(    
    context="",  # можно пустой для простых вопросов    
    query="Объясни квантовые вычисления простыми словами"
)
print(result.answer)  # именно answer, не final_answer

from rlm_toolkit import RLM

rlm = RLM.from_ollama("qwen3-coder:30b")

result = rlm.run(

context="", # можно пустой для простых вопросов

query="Объясни квантовые вычисления простыми словами"

)

print(result.answer) # именно answer, не final_answer

RLM изначально проектировался для обработки больших документов (10M+ токенов), поэтому 

context

 — обязательный параметр. Для простых вопросов можно передать пустую строку.

Если ошибка сохраняется — напишите версию (

pip show rlm-toolkit

), разберёмся.

Sign up to leave a comment.

Articles