Comments / Profile of Front-Den / Habr

@Front-Den

User

8,4

Rating

ProfileArticles2PostsNewsComments41

GLM 5.2 и Kimi K2.6 — развернули на своих GPU и ждём ваши API-вызовы

Front-Den 13 hours ago

Всё для того чтобы российские компании выбирали наших провайдеров AI, а не сливали данные за бугор🎉

+11

Энтузиаст запустил GLM-5.2 на ноутбуке с 25 ГБ RAM: без дистилляции, но на скорости от 0,05 токена в секунду

Front-Den Jul 12 at 08:30

Это на чем дип запускаешь? Я на своем смогу на что-то рассчитывать? 😁

Энтузиаст запустил GLM-5.2 на ноутбуке с 25 ГБ RAM: без дистилляции, но на скорости от 0,05 токена в секунду

Front-Den Jul 11 at 08:04

Да. Например десятки тысяч сообщений из выгрузки рабочих ТГ чатов, тикетов, задач в трекере очистить от мусора, дедуп, классификация. LLM чанкинг, составление графа и прочего, где не требуется сложная аналитика и мышление. Всё что требует тысяч вызовов к API платных моделей и что может решить локальная - делаю на локальной.

Энтузиаст запустил GLM-5.2 на ноутбуке с 25 ГБ RAM: без дистилляции, но на скорости от 0,05 токена в секунду

Front-Den Jul 10 at 20:37

Владею ноутбуком на RTX 5080, 64Gb DDR5, 2Tb SSD, Ultra 9 275HX. Так вот под рукой всегда qwen3.6-35b-a3b - MoE модель, которая не требуя интернета достаточно быстро работает 65-85 т/с, в зависимости от контекстного окна. Очень помогает в рутинных повторяющихся задачах. Для основной работы есть подписка на Codex. Было бы здорово чтобы реально появилась возможность запускать такие модели как GLM 5.2, Kimi, DeepSeek в приемлемой скорости 10-20 т/с на таком железе. Учитывая двухсторонние ограничения РФ<>Европа/США, это даст хорошую опору и независимость от политоты и прочего. Надеюсь такие энтузиасты найдут способ это сделать. Moe 120b/20 (oss) уже получается запускать на 20+- т/с.

+16

У пользователей Android появилась возможность выбрать Алису AI ассистентом по умолчанию на смартфоне

Front-Den Jul 4 at 17:05

Гемини включает 🔦

Fable 5 вернули в Claude Code. Как не сгенерировать себе...

Front-Den Jul 2 at 09:34

Этому товарищу (fable), лучше заранее говорить, что бы больше 2-3 субагентов не запускал.

Попросил его провести аудит проекта небольшого и ушел, а он запустил 115 субагентов и за 6 минут съел 5 часовой лимит х20. Opus таким расточительством не занимается

Как я строил трактор(RAG) для клумбы, а клумбы не оказалось

Front-Den Jun 25 at 16:35

Спасибо!

То что нормализацию делаете в . md правильно. Прогоняйте через ИИ чтобы переписывала документы в нужный под чанкер формат. Тогда сразу двух зайцев убьете, - нормализация и с алгоритмом чанкования не будете париться. Сами свой универсальный чанкер под свою документацию напишете.

С bpmn , диаграммами я не сталкивался лично, не подскажу. А так берите опенсорс qwen3-4b эмбеддер, смотрите метрики, реранкер тоже можете попробовать квена взять 0.6b. Зафиксируйте метрики на базовом квене и lora делайте на своих доках. У меня разные метрики выросли уже на 50-300% , на дообученном эмбеддере и реранкере. Но возможно вас и сырой гибрид с бм25 устроит. В любом случае каждый домен и пул документов как правило требует длительного тестирования и метрик. RAG нормальный без этого не построить.

Начните с бм25, реранкера(если его еще нет). Возможно этого хватит для выполнения ТЗ. Cohere 3.5 можете на опенроутере или российском провайдере-прокладке попробовать. Т.к иногда с ру серверов cohere отбивает 403

Как я строил трактор(RAG) для клумбы, а клумбы не оказалось

Front-Den Jun 23 at 07:31

Спасибо!

Да, с вашим количеством документов подход явно иной. Это статья скорее для таких же как я, чтобы не городили оверкил там, где не нужно🫡

Закон об ИИ в России: насколько он стал лояльнее для бизнеса и что теперь будет

Front-Den Jun 22 at 17:55

Извините, я какую задачу может решить модель 1b, если мы не про реранкеры/эмбеддеры ?! Генерация текста? Это можно и без модели решить

Как я строил трактор(RAG) для клумбы, а клумбы не оказалось

Front-Den Jun 20 at 20:32

Да, раньше пробовал коробочные решения. Но там нет гибкости, нет возможности метаинфу к докам креплять и прочего. Это как раз подходит для того чтобы просто найти похожие фрагменты, но аналитики и диагностики ИИ на базе этой, система не даст. Достаточно примитивная

OCC-RAG: компактные модели, которые отвечают только по источникам

Front-Den Jun 19 at 06:11

Спасибо, Интересно!

А вы думали тоже самое делать с моделями по крупнее? Qwen 8-14b или MoE 35b?

AMD выпустила мини-ПК для ИИ — дешевле NVIDIA DGX Spark и тянет 200B-модели

Front-Den Jun 17 at 20:13

Ну хорошо 200B тянет. Пусть и 500b тянет. Насколько это в проде практично использовать или хотя бы как тестовую среду? В плане скорости. Вот есть допустим MoE Qwen235b, при входящем контексте в 200к токенов, сколько займет проглатывание контекста и какая будет скорость генерации? Даже если упереться во все оптимизации и трюки, аля https://inllm.ru/inferens/optimizaciya-inferensa#pagedattention-и-vllm

Насколько эти спарки и прочее юзабельны?

ПростоГраф: как я сделал глубокий форк LightRAG под свои (и, возможно, ваши) нужды

Front-Den Jun 16 at 12:13

Это было в прошедшем) сейчас я понимаю и про слои, куда-сколько и про движки инференса и прочее. Тогда опыта было 0

В «Доктор Веб» анонсировали отдельный платный продукт под названием Dr.Web CureIt! Pro

Front-Den Jun 15 at 23:00

Ловишь майнер, достаешь флешку с dr.web с надеждой что ты умный и думаешь на шаг вперед, вставляешь > запускаешь, а он, - "Обновите меня! Без обновлений не могу, скачайте с офф сайта новую версию". А офф сайт и браузер крашатся майнером, который на два шага вперед:)

Вот лучше бы это нашли как обойти.

Почему мы спорим о памяти для AI-агентов

Front-Den Jun 12 at 17:08

Человек который придумает реально элегантную память для агента и в целом RAG, станет кумиром. Это реальная боль.. Казалось бы пол года бился за красивые recall и прочее, перебрал десятки моделей БЯМ, реранкеров, эмбеддеров, добавил бм25, накатил еще граф сверху, но как только к системе нужно подключить другой отдел своей же компании с немного другим форматом документации, ее объёмом и структурой, все идет через одно место и нужно снова проводить тесты, гонять метрики и молиться чтобы ранее рабочий алгоритм не отвалился.

Но одну истину я уяснил, если объём и формат документации позволяют сделать через библиотекаря(навигатора, роутера), лучше сделать так. Это прослеживается более адекватно, а не надежда на вектора, это одна точка отказа - LLM, а не три - LLM, embedding, reranker. Не нужно БД лишние держать. Но это не всегда серебряная пуля и нужно реально гонять тесты, как я вначале сказал. Так что ждем гения, который даст такую пулю🙂

Anthropic выпустили Fable 5 (модель уровня Mythos) для всех

Front-Den Jun 9 at 21:51

Лендинги без цензуры делает😁

А так да, даже на сервер по SSH не сразу зашла, а пришлось мягко промптить. При этом лимиты она явно больше чем х2 жрет от 4.8. Я на х20 сижу давно на одном проекте и знаю хорошо сколько ест, х5-х8 на глаз. Х2 там не пахнет.

NetFix: как я сделал GUI-обёртку для Zapret и TgWsProxy, которой самому приятно пользоваться

Front-Den Jun 6 at 16:41

Поставил ради интереса, спасибо, здорово работает🫡 хоть и один конфиг из 20 только полностью валидный в моём случае

LLMStart.ru запускает продвинутую программу Deep Agents для разработки сложных ИИ-систем

Front-Den May 22 at 21:10

Сделайте уже какую нибудь хотя бы ИИ модерацию постов. Ну серьёзно, noname ресурс, без авторских авторитетных постов, без репутации, на сайте которого даже бургер свёрстан криво, предлагает курсы по 50к.

UFO landed and left these words here

Гиперэкономия на токенах с API SpeShu.AI: как работает новое кэширование

Front-Den May 16 at 13:13

Пожалуй откажусь в пользу официального API который многократно дешевле

2 3