Комментарии 5
Два месяца - это и есть стартап за выходные.
Почти все решения вы реализуете два раза: сначала неправильно, а потом как надо. Неужели у вас в команде нет ни одного человека, который до реализации не видит, что решение нерабочее?
С точки зрения бизнеса, сама идея делать решение как сервис - провальная. Идея с клонированием голоса рабочая, но пользователю здесь не нужен риалтайм и не нужна платформа. Ему нужен менеджер (прямо человек), которому он отдает имеющиеся материалы. Потом вы спокойно работаете, делаете клона и отдаете человеку ссылку. Вот эта вся спешка, реакты, лоадеры, собственная модель - не нужны.
Спасибо за развёрнутый фидбек. Отвечу по пунктам:
Про "два раза"
Статья специально написана в формате "проблема → решение". Это не хроника провалов — это сжатый опыт. За кадром остаются десятки решений, которые сработали сразу.
Почему показываем именно косяки? Потому что про успехи писать неинтересно и бесполезно. "Мы сделали кэширование и оно заработало" — кому это поможет? А вот "WebSocket без heartbeat умирает через 5 минут в мобильном интернете" — это реальный урок, который сэкономит кому-то день дебага.
Команда из двух человек, два месяца, работающий продукт. Идеальной архитектуры с первого раза не бывает — бывает работающий продукт и итерации.
Про "менеджер вместо сервиса"
Интересная мысль, но не сходится экономика:
Стоимость создания одного голоса — примерно 2-4 часа работы специалиста (приём материалов, очистка аудио, обучение модели, проверка качества, правки). При зарплате 150к это 1,500-3,000₽ себестоимости. А клиент платит 2,990₽/мес за подписку. Маржа отрицательная.
Масштабирование — при 100 клиентах нужен 1 менеджер. При 1,000 — уже 10. При 10,000 — 100 человек на обработку. Консалтинговый бизнес, а не tech-продукт.
Ценность в диалоге, а не в файле — люди приходят не за "ссылкой на голос". Они приходят за возможностью поговорить с тем, кого больше нет. Это процесс, не артефакт. Real-time тут не прихоть — это суть продукта.
Retention — если отдать файл и забыть, LTV = один платёж. Если это живой диалог — подписка, удержание, развитие отношений с продуктом.
Собственная модель нужна не для красоты, а для unit-экономики. ElevenLabs съедает 60-70% выручки на высоких тарифах.
Ваш вариант работал бы как премиум-услуга: "VIP-сопровождение за 50,000₽". Но это рынок на 100-200 клиентов в год. Мы строим продукт на тысячи.
Да, это красиво звучит, но кейс "бабушка слушает умершего мужа со старого телефона в метро" выглядит очень нежизнеспособно. Но поживем, увидим. Может и правда взлетит.

Как мы за два месяца построили платформу для клонирования голоса: 12 проблем, mass-рефакторинги в 3 ночи и mass-фейлы