Обновить
16K+
39
Алексей@xonika9

Инди-хакер

4,9
Рейтинг
92
Подписчики
Отправить сообщение

Да, и не у вас одного. У Gemini наглухо убит агентный цикл и нормально он работает только в их продуктах (Antigravity, Gemini CLI). С января ноль прогресса в этом направлении, к сожалению.

Готовые файнтюны с HuggingFace вроде Hermes или Lotus брать можно, но только как базу, а не как готовый результат. Сами по себе они дадут вам чужой характер, а не ваш. Поэтому возьмите одну нормальную базу, чистый instruct типа Qwen3.6-27B или один приличный RP-файнтюн, и сверху обучите свой LoRA под персонажа. Десяток форков подряд стакать не надо. Характер должен жить в вашем адаптере и в системном промпте, а не в том, какой форк вы удачно нашли.

Теперь почему у вас модель заучивала датасет, а не брала характер. Это переобучение, и причин обычно три. Первая и главная это слишком много эпох: для характера хватает 1-3, а если примеров меньше 500, то 1-2. Вторая это высокий learning rate, стартуйте с 2e-4 и снижайте, если всё равно зубрит. Третья это обучение на всём тексте вместо реплик персонажа, маскируйте промпт и учите только на ответах (train on completions only). И отдельно датасет: нужен один персонаж в куче разных ситуаций, 200-500 диалогов, собранных руками, дадут больше, чем 5000 скачанных и однообразных.

Обязательно отложите 10-15% на валидацию и следите за eval loss. Как только train loss падает, а eval loss поехал вверх, это и есть момент, когда модель перешла от характера к зубрёжке. Вот тут и останавливайтесь.

Из инструментов берите Unsloth, на одной A100 или H100 он быстрый, и там есть готовые ноутбуки под QLoRA. Для старта: LoRA rank 16-32, alpha вдвое больше ранга, dropout 0.05, lr 2e-4, две эпохи, cosine с небольшим прогревом. Дальше подкручивайте эпохи и lr, ориентируясь на eval loss и на живые примеры генерации.

Привет!

Живость это не про размер модели. У самой Neuro-sama под капотом всего около 2 миллиардов параметров, сильно сжатая, кастомный файнтюн на открытой базе. Её характер сделан не жирной моделью, а дообучением под персонажа плюс обвязкой вокруг: память, управление личностью, быстрый отклик. Поэтому ваши форки на 8, 12 и 70 B из коробки и не звучали как Claude, им надо не параметры, а файнтюн под конкретный образ.

За самыми топовыми открытыми моделями не гонитесь. Kimi K2.6, DeepSeek V4, GLM-5.1, MiniMax M3 это MoE на сотни миллиардов параметров, на одну карту они не влезут и заточены под код и агентный цикл, а не под характер. Вам нужна плотная модель среднего размера как база под дообучение: Qwen3.6 27B, Gemma 4 или Mistral Medium 3.5. И дальше LoRA-файнтюн на диалогах и характере вашего персонажа, это и есть главный рычаг. Грамотно дообученная 9-12B часто живее голой 70B, для образа стабильность важнее сырого ума.

По железу решает не мощность, а задержка, отвечать надо почти сразу. L4 на 24 гига маловато, максимум 14B. A100 на 80 спокойно тащит 32B и 70B в 4 бита. H100 та же память, но отклик быстрее и QLoRA на 70B идёт комфортно, под живой темп разговора берите её. И посмотрите Open-LLM-VTuber, там уже готовый каркас с Live2D и голосом, не придётся собирать с нуля.

А что именно за ошибка, таймаут или 403 "service not available in your country"?

Если геоблок Google, точечные прокси не спасут, нужен туннель в TUN-режиме (sing-box или Hiddify) с выходом за границей. Reality обойдёт DPI, зарубежный IP снимет геоблок.

Тема и правда любопытная. Эти токены в подписках в сообществе называют "субсидированными", но субсидируется не сам инференс, а захват рынка. Сами ответы компании отдают, скорее всего, с прибылью: по оценке SemiAnalysis маржа Anthropic на инференсе около 70%, годом ранее была 38%. Получается, "API-стоимость" из статьи это не себестоимость, а ценник для тех, кто платит по полной. Реальная себестоимость токена давно ниже и падает быстрее, чем они снижают цены.

Мне кажется, у таких компаний два контура:

  • захват рынка: подписки за 20/100/200, где активный пользователь может выгрести больше, чем заплатил.

  • корпораты, которые берут бизнес-аккаунты или жгут токены напрямую по API.

И зарабатывают, похоже, именно на втором: по разным данным около 80% выручки даёт бизнес, а не розница. Так что подписка за 200 долларов это скорее вложение в долю рынка и в привычку, чем способ заработать прямо сейчас.

Отсюда, по-моему, и сама бизнес-модель: можно жечь деньги на захвате рынка, потому что инференс уже прибыльный, а выход в общий плюс это вопрос времени. Классическая стартап-история, когда параллельно ещё и конкурируешь с OpenAI. Кстати, цены недавно и сошлись из-за этой гонки. OpenAI подняла прайс, и теперь GPT-5.5 стоит $5/$30 долларов за вход и выход, а Opus 4.8 $5/$25, почти впритык.

Поэтому S-1 жду тоже с интересом. Не удивлюсь, если окажется, что на инференсе компания в плюсе, а в минус её уводит обучение следующих моделей.

Точнее и не скажешь)

Пункт меню мобильного приложения отправляет открыть приложение на ПК

  1. Навести камеру телефона на qr-код

  2. profit

Пк выступает как хост, на телефоне в приложении доступен весь функционал. Пейринг между телефоном и приложением на маке делается один раз и навсегда.

Пока это лучшее решение на рынке, удобнее, чем сделали в Claude. Не надо возиться с tmux, termius и прочими терминалами.

Исправил. Пусть успокаивается учитель.

GLM-5.1 сейчас не open-weight, на huggingface ее нет. Пока они на своих мощностях ее отдают.

Для любителей фотожаб сделали сервис по генерации https://huggingface.co/spaces/victor/dlss-5-anything.

Нет, из коробки cron должен работать. В Веб-интерфейсе во вкладке Crons будут отображаться все созданные задачи. Попробуйте дать прямое указание "Создай cron на 8 утра".

Я использую Gemini 3 Flash по API для перевода больших лонгридов с англ на русский. Очень хорошо получается. Выдает куски по 30к символов / 3650 слов / 8200 токенов.

В промпте прописал:

Параметр Output Length в AI Studio не заставляет модель писать длинно, он только говорит: “длиннее этого нельзя”. На практике он помогает гарантировать краткость ответа для задач классификации, суммаризации или контроля затрат, latency.

Лучше работать именно с промптом. Для Gemini 3 Google рекомендует температуру 1.0.

Да, верно, дают бесплатно на $5 посидеть. Надо поставить лимит на эти $5, чтобы реальные деньги не снимались.

Ну что, получилось?)

Спустя 3 недели подтверждаю. У gemini очень плохо работает tool calling. Перешел на gpt 5.2.

Тут не поспоришь. Я ей слово, она мне два!

Привет, я подсяду? 🙃

Информация

В рейтинге
1 365-й
Зарегистрирован
Активность