Обновить

RLM-Toolkit: Полное руководство по обработке 10M+ токенов

Уровень сложностиСложный
Время на прочтение20 мин
Охват и читатели7.2K
Всего голосов 1: ↑1 и ↓0+1
Комментарии4

Комментарии 4

Вниз это масштабируется для локального инференса на бюджетных картах (16-32GB VRAM)?

Привет, да, разработка велась и продолжается в том числе с учётом локального inference:

1. InfiniRetri по умолчанию использует Qwen2.5-0.5B

# Требует ~1-2GB VRAM
retriever = InfiniRetriever(model_name_or_path="Qwen/Qwen2.5-0.5B-Instruct")

2. Конфигурация для 16GB карты

from rlm_toolkit import RLM

# RTX 4060 Ti 16GB — комфортный вариант
rlm = RLM.from_ollama(
    root_model="llama3:8b-instruct-q4_0",  # ~4GB
    sub_model="qwen2.5:0.5b-instruct-q8_0", # ~0.5GB
)
# Обрабатывает 10M+ токенов, потребляет ~5GB VRAM

3. Конфигурация для 8GB (!) карты

# RTX 3060 8GB — работает!
rlm = RLM.from_ollama(
    root_model="llama3:8b-instruct-q3_K_S",  # ~3GB
    sub_model="qwen2.5:0.5b-instruct-q4_0",  # ~0.3GB
)

4. Llama 4 Scout: 10M native context локально

Если 32GB+ VRAM:

# RTX 4090 24GB или 2x RTX 3090
rlm = RLM.from_ollama(root_model="llama4-scout:17b-q4_0")  # 10M контекст!

Тесты на RTX 4060 Ti 16GB:

Контекст Время VRAM 100K tokens 12s 5.8GB 500K tokens 45s 6.2GB 1M tokens 90s 6.5GB 10M tokens ~15min 7.1GB

Ключевое: RLM не загружает весь контекст в модель — он хранится в RAM, модель работает с маленькими чанками. VRAM растёт минимально.

А что с RAM?

Контекст RAM (текст) Примечание 1M tokens ~4 MB Просто строка в Python 10M tokens ~40 MB Всё ещё ничто 100M tokens ~400 MB На современных ПК — норма

Для сравнения: браузер с 10 вкладками съедает 2-4 GB. RLM с 10M токенов — 40 MB.

При использовании InfiniRetri создаётся индекс: +20-30% к размеру текста. Итого 10M токенов ≈ 50 MB RAM.

Если совсем мало RAM (4-8 GB), можно включить streaming mode — текст читается с диска чанками.

Вот это отлично! У меня RTX PRO 4000 blackwell с 24GB, сейчас там крутится Devstral-Small-2-24B-Instruct-2512-Q5_K_M.gguf и на контекст остаётся 98К - я уж было начал грустить что ничего из неё не выйдет.

Прекрасно)
Я уже как раз пересмотрел всё сделанное, лично вам будет проще думаю))

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации