Вышел проект CopySpeak — легковесное приложение для Windows, которое читает текст из буфера обмена вслух с помощью ИИ / Хабр

Состоялся выпуск открытого проекта CopySpeak. Это легковесное настольное приложение для Windows, которое читает текст из буфера обмена вслух с помощью ИИ-алгоритмов преобразования текста в речь.

Используемые технологии в проекте:

бэкенд: Rust (Tauri v2);
фронтенд: Svelte 5, TypeScript, Vite;
менеджер пакетов: Bun v1.3;
аудио: rodio;
UI: shadcn-svelte, Tailwind, CSS v4.2.

Основные возможности проекта:

несколько режимов запуска: двойное копирование (окно 1,5 с), горячие клавиши или ручная вставка/воспроизведение;
5 движков TTS:
- Kitten TTS (по умолчанию) — cверхлёгкий оптимизированный для ЦП вывод ONNX, 8 встроенных голосов;
- Piper TTS — локальный движок CLI с более чем 20 голосами EN/US;
- Kokoro TTS — локальный движок CLI с несколькими голосами;
- OpenAI TTS — облачный API с 9 голосами;
- ElevenLabs TTS — облачный API с поддержкой библиотеки голосов.
HUD-наложение — плавающий интерфейс с визуализацией волновой формы в реальном времени;
постоянная история генерации TTS с воспроизведением и пакетным управлением;
настройки:
- общие: автозапуск, режим отладки;
- воспроизведение: скорость (0,25x–4x), высота тона (0,5x–2x), громкость;
- удаление разметки Markdown, нормализация текста;
- аудио: выбор устройства вывода, преобразование формата (MP3/OGG/FLAC);
- режим сохранения аудиовывода TTS в файлы;
- тёмный/светлый режим оформления.