Comments / Profile of rullwull / Habr

User

Subscribers

Почему ИИ-пилоты не доходят до реального производства и как это исправить архитектурой

Вы правы — и именно так в архитектуре и устроено.

Модели уровня 1 (датчики: температура, влажность, спектральный индекс) — это не LLM. Температура инференса = 0, детерминизм, минимум параметров, работают на Raspberry Pi или CPU. Никакой статистики текста — только физические измерения. Можно называть это узкой ML-моделью, классификатором, пороговой логикой — суть та же что вы описываете.

LLM в архитектуре один — координатор уровня 2. Его задача не «контролировать температуру», а агрегировать выходы всех узких моделей и сформулировать рекомендацию для эксперта на его языке. Здесь нужны рассуждения, а не детерминизм — поэтому LLM.

То есть полностью согласен: для узких задач типа «температура вышла за порог» LLM избыточен. Именно поэтому его там нет.

Как отключить reasoning у локального DeepSeek-R1 и не сойти...

rullwull Apr 16 at 09:25

Системный промпт тут не поможет — проблема глубже. Токенизатор DeepSeek-R1 при add_generation_prompt=True сам добавляет <think> в конец промпта. Если просто дописать </no think> или любой текст в системный промпт — модель увидит незакрытый тег и всё равно начнёт думать. Нужно проверять что токенизатор уже добавил и корректно закрывать тег до генерации.

3 мусорных документа (1.7%) отравили весь мой RAG Строю...

rullwull Apr 15 at 06:53

Согласен, семантический чанкинг правильнее. Механическая нарезка по 800 символов — это было на старте, быстро закинуть документы и проверить что вообще работает. Ваш подход с разделением на заголовки, абзацы и блоки кода — то к чему пришёл потом. Особенно добавление названия страницы и заголовка в начало каждого чанка, это сильно помогает поиску

3 мусорных документа (1.7%) отравили весь мой RAG Строю...

rullwull Apr 15 at 06:51

Нет, 100-500 символов — это нормальные чанки, там осмысленные куски текста. Проблема была именно в огрызках по 11-56 символов, которые создавали случайные эмбеддинги и вылезали в топ поиска. После удаления трёх — поиск сразу заработал корректно. Но да, правильнее фиксить чанкер чтобы такое не появлялось, а не чистить постфактум — об этом в конце поста.

Идеальная база знаний, а RAG возвращает мусор — проблема не...

rullwull Apr 13 at 19:47

У меня RAG это просто одна из баз, не главная память. Главная память — в постоянно переобучаемом LoRA адаптере, плюс есть Project Context для управления проектом. RAG дополняет, а не заменяет.

Идеальная база знаний, а RAG возвращает мусор — проблема не...

rullwull Apr 13 at 19:45

Интересный подход. Согласен со сравнением с блокчейном, не редактируешь старое, а добавляешь новое поверх, и история сохраняется. У меня задача другая — база стабильная, документы не меняются, запросы приходят в свободной форме от модели-координатора, поэтому нужен семантический поиск. Но для быстро меняющихся знаний тегированная база без векторов звучит разумно, эмбеддинг же не знает что документ устарел.

Идеальная база знаний, а RAG возвращает мусор — проблема не...

rullwull Apr 13 at 19:37

Чисто русские есть. GigaEmbeddings от Сбера (3B параметров) и FRIDA. Есть ещё ru-en-RoSBERTa — базовая, но лёгкая. BGE-M3 тоже хорошо себя показывает на русском, входит в топ на ruMTEB среди моделей до 1B. Но у меня задача была проще — уйти от MiniLM, который русский вообще не понимает, и не раздувать VRAM на одной карте с inference. Поэтому multilingual-MiniLM хватило. Для серьёзного продакшна на русском — да, GigaEmbeddings или BGE-M3 стоит смотреть.

Claude Mythos первым справился со взломом, на который уходит 20 часов

rullwull Apr 13 at 18:43

Если прочитать новость до конца, контекст совсем другой чем заголовок. Полигон без защиты, без детектирования, без алертов — стерильные условия. И даже на них модель прошла полностью только 3 из 10 раз, в остальных 7 застряла. То есть 70% провал без какого-либо сопротивления. Но заголовок «20 часов эксперта» уже разлетелся, IPO Антропик приблежается)

+28

«Самая способная кибермодель, которую мы оценивали»: британские власти созывают совещание из-за Claude Mythos

rullwull Apr 13 at 17:57

«Случайно» слили анонс через открытую БД ровно когда готовят IPO. Модель закрыта — «слишком опасна для релиза» — проверить нельзя. 181 эксплойт на Firefox звучит красиво, но условия бенчмарка непрозрачны, роль людей в фильтрации неизвестна. Один ИБшник хорошо сформулировал: «сажают семена в саду хайпа». Превращение бага в рабочий эксплойт — это отдельная история, требующая знания раскладки памяти и поведения конкретной системы, LLM-ки этого пока не умеют надёжно. Короче, технология реальная, прогресс есть, но драматизация на порядок больше чем прорыв. Классический хайп под инвесторов.

В утечке Codex-супераппа нашли функции из OpenClaw

rullwull Apr 13 at 14:53

Интересно, потому что в утёкшем исходнике Claude Code та же механика есть под именем KAIROS — и архитектурно она другая.

Там два слоя. Первый — инфраструктурный keepalive, агент вообще не участвует. Второй — KAIROS tick: агенту инжектируется «ты проснулся, что теперь?» и он решает что делать.

Главное отличие от OpenAI: у Anthropic агент сам управляет расписанием через Sleep(duration). Нет фиксированных 30 минут — оценил ситуацию, сказал «разбуди через 2 минуты» или «через 4 часа». Если делать нечего — обязан вызвать Sleep, ответить текстом запрещено явно. Потому что каждый wake-up = API call = деньги.

У OpenAI агент — пассивный получатель сигнала от внешнего планировщика. У Anthropic — кооперативный планировщик собственного ритма. Cron проще в реализации. Самопланирование адаптивнее, но сложнее в отладке — когда агент «забыл» проснуться, найти причину труднее чем со сломанным cron.

Строим VPN, устойчивый к SpyWare

rullwull Apr 13 at 14:33

Реализую похожую схему, но на своём железе вместо аренды MY.VPN.

Роутер — GL-MT6000 Flint 2 на OpenWrt, стоит в офисе со статическим IP. К нему прицеплен Raspberry Pi как минисервер: крутит VLESS+Reality как точку входа для мобильников, плюс ноды SimpleX Chat (SMP + XFTP) и coturn для WebRTC звонков. Трафик с RPi идёт напрямую на мой VPS на той стороне через VLESS+Reality.

Для SimpleX отдельная история: ноды подняты с доменами на .ru DNS, так что SimpleX с этими серверами работает без VPN — с любой мобильной сети напрямую. При этом через VPS ноды работают глобально, можно переписываться с кем угодно. Но звонки через coturn идут через российский IP — медиатрафик между теми, у кого подключены эти ноды, за границу не выходит. Используем как корпоративный мессенджер — всё своё, никакой зависимости от сторонних серверов.

Information

Specialization