Эта статья описывает практическую реализацию системы записи и обработки аудио на Rust. Мы рассмотрим полный цикл работы со звуком — от захвата с микрофона до эффективного сжатия в формат Opus.
Кто я: Копылов Евгений, Rust-разработчик в Мануспект. Отвечаю за работоспособность десктопного приложения по сбору данных об активности пользователя, где аудио — один из ключевых, но далеко не единственный компонент.
💻 Исходный код: https://gitlab.com/Evgene-Kopylov/audio-in-rust
Для кого эта статья:
Разработчики Rust среднего уровня, знакомые с основами языка
Те, кто хочет понять принципы работы с аудио в реальном времени
Разработчики, сталкивающиеся с задачами записи и обработки звука
Решаемая проблема: Создание надежной, кросс-платформенной системы аудиозаписи с минимальными зависимостями и эффективным сжатием данных.
Запуск демонстрации
📦 Установка зависимостей
# Ubuntu/Debian sudo apt install ffmpeg # Проверка установки ffmpeg -version
🚀 Команды запуска
# Клонирование репозитория git clone https://gitlab.com/Evgene-Kopylov/audio-in-rust.git cd audio-in-rust # Полный пайплайн: запись + конвертация (рекомендуемый способ) cargo run # Отдельные компоненты: # Запуск аудио-рекордера (создает WAV файл) cargo run -p audio-recorder # Запуск аудио-конвертера (конвертирует WAV → OPUS) cargo run -p audio-converter
Файлы создаются в корневой директории проекта.
Что происходит при запуске полного пайплайна:
Запись аудио (7 секунд) с визуализацией RMS уровня
Автоматическое сохранение в WAV файл с временной меткой
Конвертация в OPUS с отображением уровня сжатия
Сравнение размеров файлов и расчет экономии места
Пример вывода:
🎵 Запуск полного цикла аудио-обработки... 🎤 Запуск аудио-рекордера... [визуализация записи с RMS] 🔄 Запуск аудио-конвертера... 🎵 Конвертирую demo_audio_20251025_171441.wav... ✅ Успешно 📊 Сравнение размеров: WAV: 2.4 MB OPUS: 57.0 KB Сжатие: 42.5x (97.6% экономии) 🎉 Полный цикл аудио-обработки завершен!
Ключевые компоненты системы
1. Захват аудио с использованием CPAL
use cpal::traits::{DeviceTrait, HostTrait, StreamTrait}; use cpal::{Device, FromSample, Sample, Stream, SupportedStreamConfig};
❓ Почему именно CPAL?
В экосистеме Rust выбор аудио-библиотек ограничен, что делает CPAL стандартом де-факто для кросс-платформенной работы со звуком.
CPAL (Cross-Platform Audio Library), как и указано в названии, кросс-платформенная библиотека. И достаточно производительная.
✅ Преимущества подхода
Кросс-платформенный доступ к аудиоустройствам через единый API
Асинхронная обработка через
tokioдля неблокирующих операцийНадежная библиотека для работы с WAV-форматом
Запись с микрофона в реальном времени с минимальной задержкой
Гибкая конфигурация: поддержка различных форматов сэмплов и частот дискретизации
2. Буферы и семплы: основы цифрового аудио
📚 Ключевые понятия
Семпл (Sample): Отдельное числовое значение, представляющее амплитуду звуковой волны в конкретный момент времени
Частота дискретизации (Sample Rate): Количество семплов в секунду (например, 44.1 кГц = 44100 семплов/сек)
Кадр (Frame): Набор семплов для всех каналов в один момент времени (для моно = 1 семпл, для стерео = 2 семпла)
💾 Что хранится в Vec?
// Буфер аудиоданных - вектор чисел с плавающей точкой let audio_buffer: Vec<f32> = vec![-0.5, 0.3, 0.8, -0.2, 0.1];
Каждый элемент Vec<f32> представляет:
Амплитуду звука в диапазоне от -1.0 до 1.0
Отрицательные значения: фаза сжатия воздушных волн
Положительные значения: фаза разрежения воздушных волн
0.0: тишина (нейтральное положение мембраны)
3. Запись в WAV с помощью Hound
use hound::WavWriter;
❓ Почему формат WAV?
WAV (Waveform Audio File Format) выбран промежуточным форматом при записи по нескольким причинам:
Простота: Несжатый формат, идеальный для промежуточной обработки
Низкие накладные расходы: Минимальная обработка при записи
Широкая поддержка: Совместимость с большинством аудио-инструментов
Точность данных: Сохранение исходного качества без потерь
✅ Преимущества библиотеки Hound
Надежность: Стабильная работа с WAV-файлами
Автоматическое управление заголовками и метаданными
Поддержка различных форматов сэмплов (16-bit, 24-bit, 32-bit float)
Потоковая запись: Возможность записи данных по мере поступления
4. Конвертация в Opus через FFmpeg
// Конвертация WAV в OPUS с помощью ffmpeg fn convert_wav_to_opus(input_path: &str, output_path: &str) -> Result<()> { Command::new("ffmpeg") .arg("-i").arg(input_path) .arg("-c:a").arg("libopus") .arg("-b:a").arg("96k") .arg("-v").arg("quiet") .arg("-y").arg(output_path) .output()?; Ok(()) }
❓ Почему формат Opus?
Opus был выбран как финальный формат по нескольким веским причинам:
Высокая эффективность сжатия: Лучшее качество при том же битрейте по сравнению с MP3 и AAC
Низкая задержка: Идеально для реального времени (от 5 мс)
Адаптивный битрейт: Автоматическая адаптация к качеству сети
Стандартизация: IETF RFC 6716, поддерживается всеми современными браузерами
Бесплатность: Открытый стандарт без лицензионных отчислений
⚙️ Параметры конвертации
Битрейт 96k: Оптимальный баланс между качеством и размером файла
Кодек libopus: Эталонная реализация кодека Opus
Тихая работа: Флаг
-quietдля чистого вывода
Протестировано на Ubuntu с установленным ffmpeg
🏗️ Архитектура проекта
Полный код доступен в репозитории: https://gitlab.com/Evgene-Kopylov/audio-in-rust
Аудио-рекордер (audio-recorder/src/main.rs)
Основная точка входа демонстрационного приложения
Записывает аудио в течение 7 секунд
Сохраняет результат в WAV файл с временной меткой
🎙️ Модуль записи аудио (audio-recorder/src/audio_service/audio_recorder.rs)
Инициализация аудиоустройств через CPAL
Захват аудио-потока в реальном времени
Сохранение данных в WAV формат через Hound
🔄 Аудио-конвертер (audio-converter/src/main.rs)
Автоматический поиск WAV файлов в директории
Конвертация в формат OPUS через ffmpeg
Обработка ошибок и валидация входных данных
Детектирование речи и аудио-триггеры
Алгоритм детектирования речи
Система использует два ключевых параметра для определения наличия речи в аудио-сигнале:
/// Определяет, содержит ли входной аудиосигнал речь на основе частоты пересечения нуля и энергии сигнала pub fn is_trigger<T>(input: &[T]) -> bool where T: Sample + ToPrimitive + std::fmt::Debug, { if input.len() < 2 { return false; } let zcr = compute_zcr(input); let rms = compute_rms(input); zcr > ZCR_THRESHOLD && rms > RMS_THRESHOLD }
📈 Частота пересечения нуля (ZCR)
/// Вычисляет частоту пересечений нуля (ZCR - Zero Crossing Rate) для заданного аудиосигнала fn compute_zcr<T>(input: &[T]) -> f32 where T: Sample + ToPrimitive, { if input.len() < 2 { return 0.0; } let zero_crossings = input .iter() .zip(input.iter().skip(1)) .filter(|(a, b)| { let a = a.to_f32().unwrap_or(0.0); let b = b.to_f32().unwrap_or(0.0); (a >= 0.0 && b < 0.0) || (a < 0.0 && b >= 0.0) }) .count(); zero_crossings as f32 / input.len() as f32 }
📊 Среднеквадратичная энергия (RMS)
/// Вычисляет среднеквадратичную (RMS - Root Mean Square) энергию для заданного аудиосигнала fn compute_rms<T>(input: &[T]) -> f32 where T: Sample + ToPrimitive, { if input.is_empty() { return 0.0; } let sum_squares: f32 = input .iter() .filter_map(|s| s.to_f32()) .map(|sample| sample * sample) .sum(); let mean_squares = sum_squares / input.len() as f32; mean_squares.sqrt() }
⚖️ Пороговые значения
// Пороговые значения подобраны экспериментально /// Пороговое значение для частоты пересечения нуля (ZCR) для триггера микрофона pub const ZCR_THRESHOLD: f32 = 0.01; /// Среднеквадратичная (RMS) энергия аудио сигнала для триггера микрофона pub const RMS_THRESHOLD: f32 = 0.01;
🧪 Тестирование аудио-триггеров
Система включает комплексные unit-тесты для проверки корректности работы алгоритмов:
#[cfg(test)] mod tests { use super::*; #[test] fn test_compute_zcr() { let samples = [1.0, -1.0, 1.0, -1.0, 1.0]; let zcr = compute_zcr(&samples); assert_eq!(zcr, 4.0 / 5.0); } #[test] fn test_compute_rms_empty() { let samples: [f32; 0] = []; let rms = compute_rms(&samples); assert_eq!(rms, 0.0); } #[test] fn test_compute_rms_positive_values() { let samples = [2.0, 2.0, 2.0, 2.0]; let rms = compute_rms(&samples); assert_eq!(rms, 2.0); } #[test] fn test_compute_rms_mixed_values() { let samples = [1.0, -1.0, 1.0, -1.0]; let rms = compute_rms(&samples); assert_eq!(rms, 1.0); } }
🚀 Расширенные возможности (в полной версии Manuspect)
🌐 Кросс-платформенная конвертация
Windows: использование
opusencсCREATE_NO_WINDOWLinux и MacOS: использование
ffmpegс кодекомlibopus
Визуализации и метрики
📈 График аудиосигнала с отметками ZCR
Амплитуда 1.0 ┤ ╭─╮ ╭─╮ ╭─╮ │ ╭╯ ╰╮ ╭╯ ╰╮ ╭╯ ╰╮ 0.5 ┤ ╭╯ ╰╮ ╭╯ ╰╮ ╭╯ ╰╮ │ ╭╯ ╰╮ ╭╯ ╰╮ ╭╯ ╰╮ 0.0 ┼─╯ ╰─╯ ╰─╯ ╰─────── │ │ │ │ -0.5 ┤ ╭─╮ ╭─╮ ╭─╮ ╭─╮ ╭─╮ │ ╭╯ ╰╮ ╭╯ ╰╮ ╭╯ ╰╮ ╭╯ ╰╮ ╭╯ ╰╮ -1.0 ┤╭╯ ╰─╯ ╰─╯ ╰─╯ ╰─╯ ╰─ │Z Z Z Z Z Z Время →
Обозначения:
Волна: Аудиосигнал с положительными и отрицательными амплитудами
Z: Точки пересечения нуля (Zero Crossing)
Частота ZCR: Количество пересечений в единицу времени
Как это работает:
Высокая ZCR (частые пересечения) = шум или согласные звуки
Низкая ZCR (редкие пересечения) = гласные звуки или тишина
📊 Сравнение размеров файлов
Формат │ Размер (КБ) │ Коэффициент │ Визуализация ───────┼─────────────┼─────────────┼───────────────────────────── WAV │ 2500 │ 1x │ ████████████████████████████ Opus │ 60 │ 42x │ █ (✅ лучший) MP3* │ 175 │ 14x │ ███ AAC* │ 150 │ 17x │ ██
Примечание: MP3 и AAC показаны для сравнения, но не используются в проекте
Ключевые выводы:
WAV: Максимальное качество, но огромный размер
Opus: Лучшее сжатие среди современных кодеков
Экономия места: 7-секундная запись занимает в 40 раз меньше места
Загрузка CPU
Процесс │ CPU (%) │ Визуализация ────────────────┼─────────┼───────────────────────────── Запись (CPAL) │ 2% │ ██ Конвертация │ 10% │ ██████████ Другие задачи │ 1% │ █ ────────────────┼─────────┼───────────────────────────── Итого │ 13% │ █████████████
Запись аудио (CPAL + Hound):
~1-3% CPU на типичном современном процессоре
Основная нагрузка приходится на копирование данных в буфер
Hound работает эффективно благодаря буферизации
Конвертация (FFmpeg):
~5-15% CPU во время конвертации
Однопоточная обработка, но быстрая благодаря оптимизированному кодеку
Время конвертации: ~0.5-1 секунда для 7-секундной записи
Задержки системы
Этап обработки │ Задержка │ Визуализация ──────────────────┼──────────┼───────────────────────────── Буфер CPAL │ 23 мс │ ███████████████████████ Обработка коллбека│ <1 мс │ Системные задержки│ 26 мс │ ████████████████████████████ ──────────────────┼──────────┼───────────────────────────── Итого запись │ 50 мс │ ████████████████████████████ Конвертация │ 750 мс │ ████████████████████████████
Запись в реальном времени:
Буфер CPAL: 1024 сэмпла = 1024 / 44100 ≈ 23 мс (при 44.1 кГц)
Обработка в коллбеке: <1 мс (простое копирование данных)
Общая задержка: <50 мс (включая системные задержки)
Достаточно для большинства приложений записи голоса
Конвертация:
Не в реальном времени - выполняется после записи
Зависит от размера файла и производительности системы
Типичное время: 0.5-1 секунда для 7-секундной записи
✅ Преимущества подхода
Надежность: Единый подход к обработке ошибок на всех этапах работы
Производительность: Эффективное сжатие в формат OPUS (96k битрейт)
Тестируемость: Четкое разделение ответственности между компонентами
Расширяемость: Модульная архитектура для добавления новых функций
Безопасность: Отсутствие
.unwrap()и паник в коде
🛡️ Система обработки ошибок
Проект использует собственную, простую и элегантную систему обработки ошибок:
pub enum Error { Io(std::io::Error), Audio(String), Config(String), Conversion(String), Cpal(String), Hound(String), Other(String), } // Использование стандартного Result с нашим Error fn main() -> Result<(), Error> { ... }
🏁 Заключение
Реализованная система демонстрирует, что Rust готов к работе с аудио в production-среде. Мы получили:
📊 Технические результаты:
Задержка записи < 50 мс — достаточно для реального времени
Сжатие 42:1 без потери качества голоса
Загрузка CPU < 15% даже на слабых устройствах
Кросс-платформенность — работает на Windows, Linux, macOS
Этот код 🦀 служит отличной основой для построения более сложных аудио-приложений - от простых диктофонов до профессиональных DAW систем.
