Comments / Profile of rocoss / Habr

User

Корпоративная память как инфраструктура: как мы построили RAG-систему внутри ИТ-компании с промышленной экспертизой

Ваша стратегия бустов источников решает проблему приоритетов (доки > тикеты), но создает новую: как вы калибруете бусты динамически, если тикет содержит свежий багфикс (дата > freshness_threshold), который отсутствует в доках? Есть ли у вас A/B-тестирование ранкеров или синтетический датасет для валидации precision@K при edge cases (например, 'обходной путь настройки X в версии Y.Z')?

Второй слой - постобработка LLM: как вы детектируете conflict в соседних чанках до генерации? Используете ли cross-encoder scoring между adjacent chunks или graph-based consistency check (KG из чанков → cycle detection)? И наконец, метрика 80% полезных ответов это human eval или proxy (source citation rate × LLM confidence)?

ИИ, который запретил сам себя: как нейросеть Claude стала тайным оружием Пентагона

rocoss 1 hour ago

Интересно, а если "военная" версия модели работает в изолированном контуре, обучена на закрытых данных и не допускает внешнего аудита, то как в принципе можно гарантировать её точность и отсутствие катастрофических галлюцинаций, когда решения имеют необратимые последствия?

Coreness Flow: локальный AI-агент без облака и без лишнего кода

rocoss 9 hours ago

Вы используете BGE-M3 с гибридным поиском (dense + sparse) и слиянием через RRF для локального RAG. Это элегантное решение для офлайн-сценариев, но поднимает вопрос калибровки: как вы валидируете, что веса методов в RRF (или значение k=60) не «заглушают» редкий, но критичный факт, который попал в топ только по sparse-потоку (например, специфичный термин или аббревиатура), но провалился по dense-семантике?

Конкретнее: есть ли у вас размеченный датасет запросов для оценки precision@5 или nDCG отдельно для dense-only, sparse-only и RRF-фьюжна? И как вы детектируете деградацию качества при обновлении модели BGE-M3 или изменении конфигурации квантования (INT8 → INT4), если бенчмаркинг должен оставаться полностью локальным и без облачных зависимостей?

Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP

rocoss Mar 6 at 18:26

Как вы валидируете, что квантованная модель + сокращённый контекст не теряют важные нюансы при извлечении фактов? Есть ли у вас практический чеклист или бенчмарк для сравнения «полная модель в облаке» vs «AWQ-квантованная локально» по метрикам вроде faithfulness или factual consistency?

Научил ИИ-агента помнить важное и забывать лишнее в SQLite

rocoss Mar 6 at 17:16

Мне очень понравилась ваша статья, хотел бы уточнить один пару моментов, а именно увидел, что в Вашей архитектуре разрешение конфликтов реализовано через LLM-консолидацию на запись (supersedes-рёбра + soft-delete), а не через pre-load детектирование противоречий на уровне векторного сходства, как в некоторых GraphRAG-подходах. Как вы обеспечиваете семантическую точность при слиянии фактов из разнородных источников (например, клинические рекомендации с разным уровнем доказательности), если: (1) векторный поиск использует сокращённые Matryoshka-эмбеддинги (256 dim), которые могут терять нюансы для коротких фактов, (2) гибридный RRF-фьюжн объединяет результаты с несопоставимыми скорами (BM25 vs. cosine vs. graph rank), и (3) механизм Эббингауза ускоряет «забывание» старых фактов, что может преждевременно удалить важный, но редко используемый контекст? Есть ли в вашей схеме нативный способ взвешивать рёбра по уровню доверия к источнику (аналог GRADE), или это требует кастомной логики поверх write-path агента - и как это влияет на latency при масштабировании до сотен тысяч узлов в одном SQLite-файле?

Выбор готового ИИ чат-бота: почему мы в результате написали своего гибридного агента

rocoss Mar 6 at 16:37

Если гибридная система намеренно ограничивает ИИ «детерминированным ядром», чтобы снизить галлюцинации, то не измеряем ли мы тогда «точность» лишь внутри искусственно суженного пространства допустимых ответов и не рискуем ли принять за качество просто отсутствие отклонений, даже когда отклонение было бы полезным?

45 000 лет на обучение Dota 2: Почему современный AI — это просто эффективная зубрежка

rocoss Mar 6 at 15:33

Вы аргументированно показываете, что RAG, аугментации и промпт-инжиниринг - это "костыли", которые не решают фундаментальные проблемы (причинность, здравый смысл, эффективность данных). Но если принять эту рамку, возникает практический парадокс: пока архитектуры вроде JEPA или DreamerV3 не стали мейнстримом, бизнесу нужно строить работающие системы сейчас. И можно ли рассматривать графовые методы (GraphRAG, causal edges, explicit relations) не как очередной "костыль", а как промежуточный мост между статистическими корреляциями LLM и истинным причинным моделированием? Ведь граф знаний дает явное кодирование причинно-следственных связей, которое модель не выучивает, а получает в готовом виде в качестве ретривера.

Ну т.е если использовать граф не для "запоминания фактов" (что действительно можно решить фундаментально), а для структурирования пространства поиска и верификации выводов (evidence tracing, supersedes-рёбра, conflict detection) - не становится ли такая гибридная система более устойчивой к галлюцинациям, даже если базовая модель остаётся как есть?

Как запускать LLM локально с LM Studio: Полное руководство 2026

rocoss Mar 6 at 15:26

Если векторный поиск с 256-dim эмбеддингами теряет способность различать близкие доменные термины, а квантованная модель чаще "додумывает" при генерации, то есть ли у вас практический бенчмарк для оценки комбинированного эффекта (квантование + сокращение эмбеддингов) на метрики вроде faithfulness или contextual recall?

Эпистемологические пределы искусственного интеллекта в его современном понимании

rocoss Mar 6 at 15:22

Вы аргументируете, что инсайт требует смены семантической сетки, а LLM оптимизируют только внутри заданной. Но в прикладных high-stakes доменах критична не генерация новых сеток, а точность и надёжная верификация фактов внутри текущей.

И если принять вашу рамку, означает ли это, что архитектурно стоит разделить «инсайт-генерацию» (человек) и «факт-верификацию» (ИИ)? Или есть паттерны (например, evidence-трассировка в GraphRAG, гибридный поиск с RRF, разрешение конфликтов через supersedes-рёбра), которые позволяют системе детектировать границы своей семантической сетки и сигнализировать: «здесь мой ответ ненадёжен, нужен человек»?

Уже пора программировать с помощью LLM или пока рановато?

rocoss Jul 11 2024 at 05:49

Отличное применение для упрощения жизни и экономии времени!)

Уже пора программировать с помощью LLM или пока рановато?

rocoss Jul 11 2024 at 05:48

Именно, что нет, писать код не может просто образованный или начитанный человек. Если очень подробно и разжевать задание, но без навыков и знания синтаксиса, даже биолог или маркетолог не сможет справиться с задачей, тем более секретарша. Поэтому ллм обученные на кодовой базе, гиты, парадигмах и книгах , stack overflow, чаты разработчиков и т.д смогут это сделать. Автор корректно указал про объём параметров от 70В, phind решает огромное количество задач. Попробуйте, вы будете сильно удивлены, что необходимо прокачивать доп.навыки, чтобы не стать кожаным мешком)

-1

Уже пора программировать с помощью LLM или пока рановато?

rocoss Jul 11 2024 at 05:13

Однозначно второе нет, суть в том, что просты условно типовые, а код каждый раз уникальный. Да и текстом большинству людей легче общаться. Данная статья направлена на то ,что ллм могут заменить низкоуровневых специалистов, но на серьезные вещи пока не способна. Безусловно столь детерминированная область как код будет замещена машиной, вопрос времени, надеюсь тут никто спорить не будет. Вопрос времени.