Комментарии / Профиль xonika9 / Хабр

Алексей@xonika9

Инди-хакер

15,1

Рейтинг

Подписчики

ПрофильСтатьи19ПостыНовости21Комментарии51

Галлюцинации недели: Grok 4.5, Muse Spark и GPT-5.6-Sol, который съел все недельные лимиты

xonika9 5 часов назад

"ненужное ненужно" в цифрах, плюс 128 багфиксов. А так да, шах.

Галлюцинации недели: Claude Sonnet 5, Nano Banana 2 Lite и возвращение блудного Fable

xonika9 7 июл в 08:30

Anthropic методично заходит в каждую нишу, где крутится много токенов и пишется код. Claude Code стал базой для разработчиков. Дальше Cowork для менеджеров и прочих клерков, а он лепит docx, xlsx, pptx, это под капотом та же надстройка над xml. Следом Claude Design в связке с Figma для дизайнеров, а макет в Figma это дерево узлов в json. Теперь Science для учёных, там в промо ролике даже код прямо показывают. Схема везде одна: абстракция над моделью, которую сейчас и зовут harness. Хотят каждой когорте профессионалов дать удобные кнопки в интерфейсе поверх одного и того же Опуса.

Галлюцинации недели: SpaceX покупает Cursor за $60 млрд, GLM-5.2 догоняет Opus, а Midjourney просвечивает людей звуком

xonika9 23 июн в 10:11

Разве что в маммографии и взлетит, там грудь целиком в воде, ни газа, ни кости на пути луча. А "сканер всего тела" это сразу органы за рёбрами и кишечник с газом.

Галлюцинации недели: Gemma 4 12B, Odysseus от PewDiePie и MiniMax M3, который научился видеть

xonika9 9 июн в 05:49

Да, и не у вас одного. У Gemini наглухо убит агентный цикл и нормально он работает только в их продуктах (Antigravity, Gemini CLI). С января ноль прогресса в этом направлении, к сожалению.

Галлюцинации недели: Gemma 4 12B, Odysseus от PewDiePie и MiniMax M3, который научился видеть

xonika9 8 июн в 15:52

Готовые файнтюны с HuggingFace вроде Hermes или Lotus брать можно, но только как базу, а не как готовый результат. Сами по себе они дадут вам чужой характер, а не ваш. Поэтому возьмите одну нормальную базу, чистый instruct типа Qwen3.6-27B или один приличный RP-файнтюн, и сверху обучите свой LoRA под персонажа. Десяток форков подряд стакать не надо. Характер должен жить в вашем адаптере и в системном промпте, а не в том, какой форк вы удачно нашли.

Теперь почему у вас модель заучивала датасет, а не брала характер. Это переобучение, и причин обычно три. Первая и главная это слишком много эпох: для характера хватает 1-3, а если примеров меньше 500, то 1-2. Вторая это высокий learning rate, стартуйте с 2e-4 и снижайте, если всё равно зубрит. Третья это обучение на всём тексте вместо реплик персонажа, маскируйте промпт и учите только на ответах (train on completions only). И отдельно датасет: нужен один персонаж в куче разных ситуаций, 200-500 диалогов, собранных руками, дадут больше, чем 5000 скачанных и однообразных.

Обязательно отложите 10-15% на валидацию и следите за eval loss. Как только train loss падает, а eval loss поехал вверх, это и есть момент, когда модель перешла от характера к зубрёжке. Вот тут и останавливайтесь.

Из инструментов берите Unsloth, на одной A100 или H100 он быстрый, и там есть готовые ноутбуки под QLoRA. Для старта: LoRA rank 16-32, alpha вдвое больше ранга, dropout 0.05, lr 2e-4, две эпохи, cosine с небольшим прогревом. Дальше подкручивайте эпохи и lr, ориентируясь на eval loss и на живые примеры генерации.

Галлюцинации недели: Gemma 4 12B, Odysseus от PewDiePie и MiniMax M3, который научился видеть

xonika9 8 июн в 08:42

Привет!

Живость это не про размер модели. У самой Neuro-sama под капотом всего около 2 миллиардов параметров, сильно сжатая, кастомный файнтюн на открытой базе. Её характер сделан не жирной моделью, а дообучением под персонажа плюс обвязкой вокруг: память, управление личностью, быстрый отклик. Поэтому ваши форки на 8, 12 и 70 B из коробки и не звучали как Claude, им надо не параметры, а файнтюн под конкретный образ.

За самыми топовыми открытыми моделями не гонитесь. Kimi K2.6, DeepSeek V4, GLM-5.1, MiniMax M3 это MoE на сотни миллиардов параметров, на одну карту они не влезут и заточены под код и агентный цикл, а не под характер. Вам нужна плотная модель среднего размера как база под дообучение: Qwen3.6 27B, Gemma 4 или Mistral Medium 3.5. И дальше LoRA-файнтюн на диалогах и характере вашего персонажа, это и есть главный рычаг. Грамотно дообученная 9-12B часто живее голой 70B, для образа стабильность важнее сырого ума.

По железу решает не мощность, а задержка, отвечать надо почти сразу. L4 на 24 гига маловато, максимум 14B. A100 на 80 спокойно тащит 32B и 70B в 4 бита. H100 та же память, но отклик быстрее и QLoRA на 70B идёт комфортно, под живой темп разговора берите её. И посмотрите Open-LLM-VTuber, там уже готовый каркас с Live2D и голосом, не придётся собирать с нуля.

Галлюцинации недели: Antigravity 2.0, Codex в телефоне и тихий бунт подписчиков Claude

xonika9 5 июн в 11:31

А что именно за ошибка, таймаут или 403 "service not available in your country"?

Если геоблок Google, точечные прокси не спасут, нужен туннель в TUN-режиме (sing-box или Hiddify) с выходом за границей. Reality обойдёт DPI, зарубежный IP снимет геоблок.

Галлюцинации недели: Opus 4.8, Step 3.7 Flash и 683 преступления в государстве под управлением Gemini

xonika9 2 июн в 10:40

Тема и правда любопытная. Эти токены в подписках в сообществе называют "субсидированными", но субсидируется не сам инференс, а захват рынка. Сами ответы компании отдают, скорее всего, с прибылью: по оценке SemiAnalysis маржа Anthropic на инференсе около 70%, годом ранее была 38%. Получается, "API-стоимость" из статьи это не себестоимость, а ценник для тех, кто платит по полной. Реальная себестоимость токена давно ниже и падает быстрее, чем они снижают цены.

Мне кажется, у таких компаний два контура:

захват рынка: подписки за 20/100/200, где активный пользователь может выгрести больше, чем заплатил.
корпораты, которые берут бизнес-аккаунты или жгут токены напрямую по API.

И зарабатывают, похоже, именно на втором: по разным данным около 80% выручки даёт бизнес, а не розница. Так что подписка за 200 долларов это скорее вложение в долю рынка и в привычку, чем способ заработать прямо сейчас.

Отсюда, по-моему, и сама бизнес-модель: можно жечь деньги на захвате рынка, потому что инференс уже прибыльный, а выход в общий плюс это вопрос времени. Классическая стартап-история, когда параллельно ещё и конкурируешь с OpenAI. Кстати, цены недавно и сошлись из-за этой гонки. OpenAI подняла прайс, и теперь GPT-5.5 стоит $5/$30 долларов за вход и выход, а Opus 4.8 $5/$25, почти впритык.

Поэтому S-1 жду тоже с интересом. Не удивлюсь, если окажется, что на инференсе компания в плюсе, а в минус её уводит обучение следующих моделей.

Галлюцинации недели: Antigravity 2.0, Codex в телефоне и тихий бунт подписчиков Claude

xonika9 25 мая в 17:58

Точнее и не скажешь)

Галлюцинации недели: Antigravity 2.0, Codex в телефоне и тихий бунт подписчиков Claude

xonika9 25 мая в 11:37

Пункт меню мобильного приложения отправляет открыть приложение на ПК

Навести камеру телефона на qr-код
profit

Пк выступает как хост, на телефоне в приложении доступен весь функционал. Пейринг между телефоном и приложением на маке делается один раз и навсегда.

Пока это лучшее решение на рынке, удобнее, чем сделали в Claude. Не надо возиться с tmux, termius и прочими терминалами.

Галлюцинации недели: Antigravity 2.0, Codex в телефоне и тихий бунт подписчиков Claude

xonika9 25 мая в 08:13

У нас же еще есть опенсорсный Гигачат)

Галлюцинации недели: DeepSeek V4, Kimi K2.6 и неконтролируемые галлюцинации нового флагмана OpenAI

xonika9 28 апр в 13:03

Галлюцинации недели: Claude Opus 4.7, Qwen3.6 35B-A3B и конец pull request как формата

xonika9 22 апр в 08:25

Исправил. Пусть успокаивается учитель.

Галлюцинации недели: Claude Capybara, GigaChat-3.1, кража ключей через LiteLLM и CLI для всего на свете

xonika9 31 мар в 11:26

GLM-5.1 сейчас не open-weight, на huggingface ее нет. Пока они на своих мощностях ее отдают.

Галлюцинации недели: Nemotron 3 Super, DLSS 5 и агент, который заменит вашего маркетолога

xonika9 19 мар в 07:06

Для любителей фотожаб сделали сервис по генерации https://huggingface.co/spaces/victor/dlss-5-anything.

Clawdbot → Moltbot → OpenClaw ≠ магия: честный гайд по приручению AI-ассистента

xonika9 12 мар в 17:21

На подписке Plus лимит на Codex - 3 RPM / 200 RPD

Изучите - https://developers.openai.com/codex/pricing?codex-usage-limits=gpt-5-4#what-are-the-usage-limits-for-my-plan.

Clawdbot → Moltbot → OpenClaw ≠ магия: честный гайд по приручению AI-ассистента

xonika9 26 фев в 06:10

Нет, из коробки cron должен работать. В Веб-интерфейсе во вкладке Crons будут отображаться все созданные задачи. Попробуйте дать прямое указание "Создай cron на 8 утра".

Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp

xonika9 25 фев в 22:13

Я использую Gemini 3 Flash по API для перевода больших лонгридов с англ на русский. Очень хорошо получается. Выдает куски по 30к символов / 3650 слов / 8200 токенов.

В промпте прописал:

Параметр Output Length в AI Studio не заставляет модель писать длинно, он только говорит: “длиннее этого нельзя”. На практике он помогает гарантировать краткость ответа для задач классификации, суммаризации или контроля затрат, latency.

Лучше работать именно с промптом. Для Gemini 3 Google рекомендует температуру 1.0.

Clawdbot → Moltbot → OpenClaw ≠ магия: честный гайд по приручению AI-ассистента

xonika9 21 фев в 09:09

Да, верно, дают бесплатно на $5 посидеть. Надо поставить лимит на эти $5, чтобы реальные деньги не снимались.

Clawdbot → Moltbot → OpenClaw ≠ магия: честный гайд по приручению AI-ассистента

xonika9 19 фев в 08:37

Ну что, получилось?)

2 3