Комментарии 4
Вниз это масштабируется для локального инференса на бюджетных картах (16-32GB VRAM)?
Привет, да, разработка велась и продолжается в том числе с учётом локального inference:
1. InfiniRetri по умолчанию использует Qwen2.5-0.5B
# Требует ~1-2GB VRAM
retriever = InfiniRetriever(model_name_or_path="Qwen/Qwen2.5-0.5B-Instruct")
2. Конфигурация для 16GB карты
from rlm_toolkit import RLM
# RTX 4060 Ti 16GB — комфортный вариант
rlm = RLM.from_ollama(
root_model="llama3:8b-instruct-q4_0", # ~4GB
sub_model="qwen2.5:0.5b-instruct-q8_0", # ~0.5GB
)
# Обрабатывает 10M+ токенов, потребляет ~5GB VRAM
3. Конфигурация для 8GB (!) карты
# RTX 3060 8GB — работает!
rlm = RLM.from_ollama(
root_model="llama3:8b-instruct-q3_K_S", # ~3GB
sub_model="qwen2.5:0.5b-instruct-q4_0", # ~0.3GB
)
4. Llama 4 Scout: 10M native context локально
Если 32GB+ VRAM:
# RTX 4090 24GB или 2x RTX 3090
rlm = RLM.from_ollama(root_model="llama4-scout:17b-q4_0") # 10M контекст!
Тесты на RTX 4060 Ti 16GB:
Контекст Время VRAM 100K tokens 12s 5.8GB 500K tokens 45s 6.2GB 1M tokens 90s 6.5GB 10M tokens ~15min 7.1GB
Ключевое: RLM не загружает весь контекст в модель — он хранится в RAM, модель работает с маленькими чанками. VRAM растёт минимально.
А что с RAM?
Контекст RAM (текст) Примечание 1M tokens ~4 MB Просто строка в Python 10M tokens ~40 MB Всё ещё ничто 100M tokens ~400 MB На современных ПК — норма
Для сравнения: браузер с 10 вкладками съедает 2-4 GB. RLM с 10M токенов — 40 MB.
При использовании InfiniRetri создаётся индекс: +20-30% к размеру текста. Итого 10M токенов ≈ 50 MB RAM.
Если совсем мало RAM (4-8 GB), можно включить streaming mode — текст читается с диска чанками.

RLM-Toolkit: Полное руководство по обработке 10M+ токенов