Pull to refresh
5
1
Дмитрий Павлов@dimakpa

ML-инженер исследователь

Send message

Как мы автоматизировали чанкование для RAG в Gramax: от прототипа до 95%+ точности

Reading time5 min
Reach and readers8.2K

Недавно на Хабре вышла статья про создание RAG-системы для строительных ГОСТов. Команда Цифрового стандарта проделала титаническую работу — полгода вручную разбивали документы на смысловые чанки. Респект за настойчивость и результат.

Их история вдохновила поделиться собственным опытом. Мы тоже столкнулись с проблемой чанкования для умного поиска по базе знаний. Тоже прошли через RAG, векторные базы и поиски оптимального решения. Но пошли по пути полной автоматизации.

Всем привет, меня зовут Дима, я делаю ИИ-функции в Gramax. Эта статья для тех, кто сейчас воюет с чанками вручную или пытается найти оптимальный подход. Делимся нашим путем от быстрого прототипа до продакшен-решения с метриками 90%+.

Читать далее

Information

Rating
1,868-th
Location
Москва и Московская обл., Россия
Registered
Activity