Обновить

Как мы за два месяца построили платформу для клонирования голоса: 12 проблем, mass-рефакторинги в 3 ночи и mass-фейлы

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели6.6K
Всего голосов 4: ↑4 и ↓0+5
Комментарии5

Комментарии 5

Два месяца - это и есть стартап за выходные.

Почти все решения вы реализуете два раза: сначала неправильно, а потом как надо. Неужели у вас в команде нет ни одного человека, который до реализации не видит, что решение нерабочее?

С точки зрения бизнеса, сама идея делать решение как сервис - провальная. Идея с клонированием голоса рабочая, но пользователю здесь не нужен риалтайм и не нужна платформа. Ему нужен менеджер (прямо человек), которому он отдает имеющиеся материалы. Потом вы спокойно работаете, делаете клона и отдаете человеку ссылку. Вот эта вся спешка, реакты, лоадеры, собственная модель - не нужны.

Спасибо за развёрнутый фидбек. Отвечу по пунктам:

Про "два раза"

Статья специально написана в формате "проблема → решение". Это не хроника провалов — это сжатый опыт. За кадром остаются десятки решений, которые сработали сразу.

Почему показываем именно косяки? Потому что про успехи писать неинтересно и бесполезно. "Мы сделали кэширование и оно заработало" — кому это поможет? А вот "WebSocket без heartbeat умирает через 5 минут в мобильном интернете" — это реальный урок, который сэкономит кому-то день дебага.

Команда из двух человек, два месяца, работающий продукт. Идеальной архитектуры с первого раза не бывает — бывает работающий продукт и итерации.

Про "менеджер вместо сервиса"

Интересная мысль, но не сходится экономика:

  1. Стоимость создания одного голоса — примерно 2-4 часа работы специалиста (приём материалов, очистка аудио, обучение модели, проверка качества, правки). При зарплате 150к это 1,500-3,000₽ себестоимости. А клиент платит 2,990₽/мес за подписку. Маржа отрицательная.

  2. Масштабирование — при 100 клиентах нужен 1 менеджер. При 1,000 — уже 10. При 10,000 — 100 человек на обработку. Консалтинговый бизнес, а не tech-продукт.

  3. Ценность в диалоге, а не в файле — люди приходят не за "ссылкой на голос". Они приходят за возможностью поговорить с тем, кого больше нет. Это процесс, не артефакт. Real-time тут не прихоть — это суть продукта.

  4. Retention — если отдать файл и забыть, LTV = один платёж. Если это живой диалог — подписка, удержание, развитие отношений с продуктом.

Собственная модель нужна не для красоты, а для unit-экономики. ElevenLabs съедает 60-70% выручки на высоких тарифах.

Ваш вариант работал бы как премиум-услуга: "VIP-сопровождение за 50,000₽". Но это рынок на 100-200 клиентов в год. Мы строим продукт на тысячи.

Да, это красиво звучит, но кейс "бабушка слушает умершего мужа со старого телефона в метро" выглядит очень нежизнеспособно. Но поживем, увидим. Может и правда взлетит.

вроде ж в этом и пойнт. Мне не нужен голос, мне нужна иллюзия того, что чувак жив и я с ним сейчас говорю. Для этого абсолютно точно необходим риалтайм.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации