Обновить
4K+
6
Kir Moisha@Kir_Moisha

Помогаю кожаным терять работу от AI

24,1
Рейтинг
3
Подписчики
Отправить сообщение

Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5.1K

Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло

AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech

Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо? Мне - до зубного скрежета.

Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог.

И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord.

Пошёл искать. И тут началось.

Читать далее

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели7.2K

30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час — это приговор для бизнеса

Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю — документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что‑то сложнее «I agree» — начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо?

Я CTO, серийный предприниматель, последние годы плотно работаю с AI‑интеграциями. И вот парадокс: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.

Решил наконец закрыть этот гештальт. Полез искать real‑time переводчик. Что‑то типа: я говорю по‑русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.

И тут началось интересное.

Читать далее

Информация

В рейтинге
370-й
Откуда
ЮАР
Зарегистрирован
Активность

Специализация

Фулстек разработчик, Архитектор программного обеспечения
Старший
Ведение переговоров
Управление проектами
Управление людьми
Построение команды
Оптимизация бизнес-процессов
Автоматизация процессов
Управление разработкой
Стратегическое планирование
Руководство стартапом