Состоялся выпуск открытого проекта CopySpeak. Это легковесное настольное приложение для Windows, которое читает текст из буфера обмена вслух с помощью ИИ-алгоритмов преобразования текста в речь.

Используемые технологии в проекте:

  • бэкенд: Rust (Tauri v2);

  • фронтенд: Svelte 5, TypeScript, Vite;

  • менеджер пакетов: Bun v1.3;

  • аудио: rodio;

  • UI: shadcn-svelte, Tailwind, CSS v4.2.

Основные возможности проекта:

  • несколько режимов запуска: двойное копирование (окно 1,5 с), горячие клавиши или ручная вставка/воспроизведение;

  • 5 движков TTS:

    • Kitten TTS (по умолчанию) — cверхлёгкий оптимизированный для ЦП вывод ONNX, 8 встроенных голосов;

    • Piper TTS — локальный движок CLI с более чем 20 голосами EN/US;

    • Kokoro TTS — локальный движок CLI с несколькими голосами;

    • OpenAI TTS — облачный API с 9 голосами;

    • ElevenLabs TTS — облачный API с поддержкой библиотеки голосов.

  • HUD-наложение — плавающий интерфейс с визуализацией волновой формы в реальном времени;

  • постоянная история генерации TTS с воспроизведением и пакетным управлением;

  • гастройки:

    • общие: автозапуск, режим отладки;

    • воспроизведение: скорость (0,25x–4x), высота тона (0,5x–2x), громкость;

    • удаление разметки Markdown, нормализация текста;

    • аудио: выбор устройства вывода, преобразование формата (MP3/OGG/FLAC);

    • режим сохранения аудиовывода TTS в файлы;

    • тёмный/светлый режим оформления.