Пишем свой voice-to-text на Python: 4 бэкенда и батч-обработка голосовых
От голосовых на 5 минут к тексту за 30 секунд: инструмент для батч-расшифровки голосовых: от локального Whisper до бесплатного Groq API, с автоопределением форматов и CLI
Программист Golang
От голосовых на 5 минут к тексту за 30 секунд: инструмент для батч-расшифровки голосовых: от локального Whisper до бесплатного Groq API, с автоопределением форматов и CLI
Фоновая музыка, гул, шипение — классические фильтры с этим не справляются. Нейросети справляются, но падают на длинных файлах. Решение: чанкование + сохранение прогресса. Делюсь инструментом.
Разбираем бинарный формат Firebird по байтам: структура страниц, транзакции, MVCC. Пишем утилиту на Delphi для восстановления данных, когда gfix и gbak бессильны.
Избавляемся от FFmpeg: конвертер аудио на чистом Go с FLAC-энкодером
Как убрать зависимость от FFmpeg в аудиоинструментах. Разбираю архитектуру, pure Go библиотеки и написание FLAC-энкодера с нуля. Результат: один бинарник для Linux, Windows, macOS.
12 000 MP3 без тегов, 15 лет прокрастинации, один выходной на код. Асинхронный распознаватель на Python + Shazam: как обойти rate limiting, починить кривые кодировки и не съесть всю память. Код открыт.