Модели уровня 1 (датчики: температура, влажность, спектральный индекс) — это не LLM. Температура инференса = 0, детерминизм, минимум параметров, работают на Raspberry Pi или CPU. Никакой статистики текста — только физические измерения. Можно называть это узкой ML-моделью, классификатором, пороговой логикой — суть та же что вы описываете.
LLM в архитектуре один — координатор уровня 2. Его задача не «контролировать температуру», а агрегировать выходы всех узких моделей и сформулировать рекомендацию для эксперта на его языке. Здесь нужны рассуждения, а не детерминизм — поэтому LLM.
То есть полностью согласен: для узких задач типа «температура вышла за порог» LLM избыточен. Именно поэтому его там нет.
Системный промпт тут не поможет — проблема глубже. Токенизатор DeepSeek-R1 при add_generation_prompt=True сам добавляет <think> в конец промпта. Если просто дописать </no think> или любой текст в системный промпт — модель увидит незакрытый тег и всё равно начнёт думать. Нужно проверять что токенизатор уже добавил и корректно закрывать тег до генерации.
Согласен, семантический чанкинг правильнее. Механическая нарезка по 800 символов — это было на старте, быстро закинуть документы и проверить что вообще работает. Ваш подход с разделением на заголовки, абзацы и блоки кода — то к чему пришёл потом. Особенно добавление названия страницы и заголовка в начало каждого чанка, это сильно помогает поиску
Нет, 100-500 символов — это нормальные чанки, там осмысленные куски текста. Проблема была именно в огрызках по 11-56 символов, которые создавали случайные эмбеддинги и вылезали в топ поиска. После удаления трёх — поиск сразу заработал корректно. Но да, правильнее фиксить чанкер чтобы такое не появлялось, а не чистить постфактум — об этом в конце поста.
У меня RAG это просто одна из баз, не главная память. Главная память — в постоянно переобучаемом LoRA адаптере, плюс есть Project Context для управления проектом. RAG дополняет, а не заменяет.
Интересный подход. Согласен со сравнением с блокчейном, не редактируешь старое, а добавляешь новое поверх, и история сохраняется. У меня задача другая — база стабильная, документы не меняются, запросы приходят в свободной форме от модели-координатора, поэтому нужен семантический поиск. Но для быстро меняющихся знаний тегированная база без векторов звучит разумно, эмбеддинг же не знает что документ устарел.
Чисто русские есть. GigaEmbeddings от Сбера (3B параметров) и FRIDA. Есть ещё ru-en-RoSBERTa — базовая, но лёгкая. BGE-M3 тоже хорошо себя показывает на русском, входит в топ на ruMTEB среди моделей до 1B. Но у меня задача была проще — уйти от MiniLM, который русский вообще не понимает, и не раздувать VRAM на одной карте с inference. Поэтому multilingual-MiniLM хватило. Для серьёзного продакшна на русском — да, GigaEmbeddings или BGE-M3 стоит смотреть.
Если прочитать новость до конца, контекст совсем другой чем заголовок. Полигон без защиты, без детектирования, без алертов — стерильные условия. И даже на них модель прошла полностью только 3 из 10 раз, в остальных 7 застряла. То есть 70% провал без какого-либо сопротивления. Но заголовок «20 часов эксперта» уже разлетелся, IPO Антропик приблежается)
«Случайно» слили анонс через открытую БД ровно когда готовят IPO. Модель закрыта — «слишком опасна для релиза» — проверить нельзя. 181 эксплойт на Firefox звучит красиво, но условия бенчмарка непрозрачны, роль людей в фильтрации неизвестна. Один ИБшник хорошо сформулировал: «сажают семена в саду хайпа». Превращение бага в рабочий эксплойт — это отдельная история, требующая знания раскладки памяти и поведения конкретной системы, LLM-ки этого пока не умеют надёжно. Короче, технология реальная, прогресс есть, но драматизация на порядок больше чем прорыв. Классический хайп под инвесторов.
Интересно, потому что в утёкшем исходнике Claude Code та же механика есть под именем KAIROS — и архитектурно она другая.
Там два слоя. Первый — инфраструктурный keepalive, агент вообще не участвует. Второй — KAIROS tick: агенту инжектируется «ты проснулся, что теперь?» и он решает что делать.
Главное отличие от OpenAI: у Anthropic агент сам управляет расписанием через Sleep(duration). Нет фиксированных 30 минут — оценил ситуацию, сказал «разбуди через 2 минуты» или «через 4 часа». Если делать нечего — обязан вызвать Sleep, ответить текстом запрещено явно. Потому что каждый wake-up = API call = деньги.
У OpenAI агент — пассивный получатель сигнала от внешнего планировщика. У Anthropic — кооперативный планировщик собственного ритма. Cron проще в реализации. Самопланирование адаптивнее, но сложнее в отладке — когда агент «забыл» проснуться, найти причину труднее чем со сломанным cron.
Реализую похожую схему, но на своём железе вместо аренды MY.VPN.
Роутер — GL-MT6000 Flint 2 на OpenWrt, стоит в офисе со статическим IP. К нему прицеплен Raspberry Pi как минисервер: крутит VLESS+Reality как точку входа для мобильников, плюс ноды SimpleX Chat (SMP + XFTP) и coturn для WebRTC звонков. Трафик с RPi идёт напрямую на мой VPS на той стороне через VLESS+Reality.
Для SimpleX отдельная история: ноды подняты с доменами на .ru DNS, так что SimpleX с этими серверами работает без VPN — с любой мобильной сети напрямую. При этом через VPS ноды работают глобально, можно переписываться с кем угодно. Но звонки через coturn идут через российский IP — медиатрафик между теми, у кого подключены эти ноды, за границу не выходит. Используем как корпоративный мессенджер — всё своё, никакой зависимости от сторонних серверов.
Information
Rating
Does not participate
Registered
Activity
Specialization
UTXO Blockchain Protocol Developer · ML Engineer · AI Researcher
Вы правы — и именно так в архитектуре и устроено.
Модели уровня 1 (датчики: температура, влажность, спектральный индекс) — это не LLM. Температура инференса = 0, детерминизм, минимум параметров, работают на Raspberry Pi или CPU. Никакой статистики текста — только физические измерения. Можно называть это узкой ML-моделью, классификатором, пороговой логикой — суть та же что вы описываете.
LLM в архитектуре один — координатор уровня 2. Его задача не «контролировать температуру», а агрегировать выходы всех узких моделей и сформулировать рекомендацию для эксперта на его языке. Здесь нужны рассуждения, а не детерминизм — поэтому LLM.
То есть полностью согласен: для узких задач типа «температура вышла за порог» LLM избыточен. Именно поэтому его там нет.
Системный промпт тут не поможет — проблема глубже. Токенизатор DeepSeek-R1 при
add_generation_prompt=Trueсам добавляет<think>в конец промпта. Если просто дописать</no think>или любой текст в системный промпт — модель увидит незакрытый тег и всё равно начнёт думать. Нужно проверять что токенизатор уже добавил и корректно закрывать тег до генерации.Согласен, семантический чанкинг правильнее. Механическая нарезка по 800 символов — это было на старте, быстро закинуть документы и проверить что вообще работает. Ваш подход с разделением на заголовки, абзацы и блоки кода — то к чему пришёл потом. Особенно добавление названия страницы и заголовка в начало каждого чанка, это сильно помогает поиску
Нет, 100-500 символов — это нормальные чанки, там осмысленные куски текста. Проблема была именно в огрызках по 11-56 символов, которые создавали случайные эмбеддинги и вылезали в топ поиска. После удаления трёх — поиск сразу заработал корректно. Но да, правильнее фиксить чанкер чтобы такое не появлялось, а не чистить постфактум — об этом в конце поста.
У меня RAG это просто одна из баз, не главная память. Главная память — в постоянно переобучаемом LoRA адаптере, плюс есть Project Context для управления проектом. RAG дополняет, а не заменяет.
Интересный подход. Согласен со сравнением с блокчейном, не редактируешь старое, а добавляешь новое поверх, и история сохраняется. У меня задача другая — база стабильная, документы не меняются, запросы приходят в свободной форме от модели-координатора, поэтому нужен семантический поиск. Но для быстро меняющихся знаний тегированная база без векторов звучит разумно, эмбеддинг же не знает что документ устарел.
Чисто русские есть. GigaEmbeddings от Сбера (3B параметров) и FRIDA. Есть ещё ru-en-RoSBERTa — базовая, но лёгкая. BGE-M3 тоже хорошо себя показывает на русском, входит в топ на ruMTEB среди моделей до 1B. Но у меня задача была проще — уйти от MiniLM, который русский вообще не понимает, и не раздувать VRAM на одной карте с inference. Поэтому multilingual-MiniLM хватило. Для серьёзного продакшна на русском — да, GigaEmbeddings или BGE-M3 стоит смотреть.
Если прочитать новость до конца, контекст совсем другой чем заголовок. Полигон без защиты, без детектирования, без алертов — стерильные условия. И даже на них модель прошла полностью только 3 из 10 раз, в остальных 7 застряла. То есть 70% провал без какого-либо сопротивления. Но заголовок «20 часов эксперта» уже разлетелся, IPO Антропик приблежается)
«Случайно» слили анонс через открытую БД ровно когда готовят IPO. Модель закрыта — «слишком опасна для релиза» — проверить нельзя. 181 эксплойт на Firefox звучит красиво, но условия бенчмарка непрозрачны, роль людей в фильтрации неизвестна. Один ИБшник хорошо сформулировал: «сажают семена в саду хайпа». Превращение бага в рабочий эксплойт — это отдельная история, требующая знания раскладки памяти и поведения конкретной системы, LLM-ки этого пока не умеют надёжно. Короче, технология реальная, прогресс есть, но драматизация на порядок больше чем прорыв. Классический хайп под инвесторов.
Интересно, потому что в утёкшем исходнике Claude Code та же механика есть под именем KAIROS — и архитектурно она другая.
Там два слоя. Первый — инфраструктурный keepalive, агент вообще не участвует. Второй — KAIROS tick: агенту инжектируется «ты проснулся, что теперь?» и он решает что делать.
Главное отличие от OpenAI: у Anthropic агент сам управляет расписанием через Sleep(duration). Нет фиксированных 30 минут — оценил ситуацию, сказал «разбуди через 2 минуты» или «через 4 часа». Если делать нечего — обязан вызвать Sleep, ответить текстом запрещено явно. Потому что каждый wake-up = API call = деньги.
У OpenAI агент — пассивный получатель сигнала от внешнего планировщика. У Anthropic — кооперативный планировщик собственного ритма. Cron проще в реализации. Самопланирование адаптивнее, но сложнее в отладке — когда агент «забыл» проснуться, найти причину труднее чем со сломанным cron.
Реализую похожую схему, но на своём железе вместо аренды MY.VPN.
Роутер — GL-MT6000 Flint 2 на OpenWrt, стоит в офисе со статическим IP. К нему прицеплен Raspberry Pi как минисервер: крутит VLESS+Reality как точку входа для мобильников, плюс ноды SimpleX Chat (SMP + XFTP) и coturn для WebRTC звонков. Трафик с RPi идёт напрямую на мой VPS на той стороне через VLESS+Reality.
Для SimpleX отдельная история: ноды подняты с доменами на .ru DNS, так что SimpleX с этими серверами работает без VPN — с любой мобильной сети напрямую. При этом через VPS ноды работают глобально, можно переписываться с кем угодно. Но звонки через coturn идут через российский IP — медиатрафик между теми, у кого подключены эти ноды, за границу не выходит. Используем как корпоративный мессенджер — всё своё, никакой зависимости от сторонних серверов.