Складной Hi-Fi USB Микрофон

Небольшой рассказ об изготовлении складного Hi-Fi микрофона на студийном капсюле, но с адекватной ценой.

Это «ж-ж-ж» неспроста

Небольшой рассказ об изготовлении складного Hi-Fi микрофона на студийном капсюле, но с адекватной ценой.

В данной статье рассматривается процесс установки Navidrome Music Server на Windows для стриминга музыки со своего ПК на одно или несколько своих устройств с минимальными заморочками. Я намерено использую установку без развертывания в контейнере или на выделенном сервере дабы уменьшить порог входа в «self‑hosted музыкальный стриминг», принимая тот факт, что у кого‑то может отсутствовать желание (или возможность) разбираться с Linux и контейнерами.
Вкратце, Navidrome Music Server — это музыкальный Open‑Source медиасервер, в котором весь аудио‑контент контролируется только Вами (или другими пользователями, которых вы добавите). Это особенно актуально в текущее время, когда отдельные треки, или даже альбомы могут быть изменены или удалены с глобальных музыкальных стримингов в любое время по запросу от лейблов или регуляторов, или даже в соответствии с поправками в законе.
Сервер Navidrome разворачивается локально на ПК с Windows, а для удаленного подключения к серверу мы используем связку устройств в защищенную частную сеть через Tailscale.

В этом тексте я показал как можно разработать прототип музыкального проигрывателя на основе микроконтроллера STM32F407VG и аудио кодека WM8731. Показал как спроектировать прошивку проигрывателя wav файлов на основе I2C, I2S, DMA, SDIO и FatFs.

Привет, Хабр!
Пожалуй, многие из вас, как и я, неравнодушны к музыке, особенно когда она звучит по-настоящему качественно. В прошлых своих статьях я уже делился опытом реализации портативной беспроводной акустики, где в качестве транспорта аудиопотока используется Wi‑Fi вместо «классического» Bluetooth. Но год эксплуатации и накопленный пользовательский опыт подтолкнули меня к созданию улучшенной версии. А что из этого вышло – читайте далее.

Привет, Хабр. Мы уже показывали токенизаторы для изображений и видео, рассказывали про обновление видеомоделей KVAE-2.0, а теперь закрываем третью модальность — публикуем KVAE-Audio, непрерывный полнодиапазонный (48 кГц) токенизатор для звука. По результатам тестов наш VAE (вариационный автоэнкодер, Variational Autoencoder) показывает лучшее качество генераций в задаче text-to-audio (генерирование звука по текстовому описанию) в общем домене, при этом не отставая в качестве реконструкций от моделей конкурентов, и имея заметно меньше параметров и каналов в латентном представлении. Код, инференс — в открытом доступе под лицензией MIT, веса на HF.

Заинтересованные лица знают, что такое S/PDIF, какой он бывает и для чего предназначен. Ниже речь пойдет о простом преобразователе коаксиального S/PDIF в оптический буквально за копейки.
Оптический S/PDIF, он же Toslink, описан в документе фирмы Toshiba. В бытовой аппаратуре используются светодиод (это прямо указано в тексте) красного цвета с максимумом на длине волны 650 нм.

Привет, Хабр! У всех нас есть хобби, а выходные — самое время поговорить о своих! Не только о проектах, ИИ и о том, когда этот пузырь лопнет. Я 22 года играю на электрогитарах, и захотелось написать об этом статью — такой путеводитель по своему гитарному пути, учитывая, что в коллекцию недавно попал инструмент 1976 года выпуска.
Вспомнилось: как‑то я спросил у одного из своих техлидов, почему он так допоздна сидит и по‑прежнему что‑то пишет, создаёт свои пет‑проекты. Он ответ: «Это же моя первая любовь». Вот, наверное, про гитары я скажу так же.

Привет, Хабр! Чтобы понравиться мне (и не понравиться многим другим), электрогитара должна быть лёгкой. К созданию таких инструментов ведут два пути.
Во-первых, для этого в деке фрезеруют полости, которые затем закрываются пластиковым пикгардом, либо поверх них наклеивается тонкая деревянная дощечка — топ. На фото котик как раз инспектирует фрезеровку под звукосниматели и электронику.
Во-вторых, можно просто взять древесину с низкой плотностью, как павловния, из которой сделана обнюхиваемая котиком дека. Последняя сочетает оба облегчающих фактора и станет основой моего самодельного стратокастера.
Влияет ли всё это ещё и на звучание инструмента в усилитель — это другой вопрос. Если хотите, вы сможете ответить на него в комментариях. Тем более, что видео с аудиодорожкой тоже будет, и не одно.

Рассмотрим возможности браузеров по синтезу звука. Разберём основы и в качестве практического применения сделаем эмулятор синтезатора Yamaha DX7.

В первой статье синус оказался не просто функцией из учебника, а тенью крутящейся стрелки. Там я показал три главные двери: заморозить стрелку — проекция, пустить во времени — колебание, сложить несколько — волны. Здесь дверей будет больше — к трём главным добавятся поворот и кривизна, плюс бонус.
Эта статья — каталог. Сорок два примера по пяти дверям и бонусу, и каждый со своим живым графиком: ниже не одна обложка на дверь, а отдельная карточка на каждый случай. Три из них — Доплер, ряд Фурье и гласные — со звуком: жми «слушать» и услышишь синус ушами.
Читать подряд не обязательно — это карта, а не маршрут. Электрик, скорее всего, осядет во второй двери, фронтендер — в четвёртой, штурман — в пятой. Идите туда, где ваше; остальное подождёт в закладках.
Сразу честная оговорка: 42 — это не «столько синусов в мире», а столько, сколько набралось у нас, с понятным перекосом в физику и инженерию. Синус не «применяется в N законах», как гвоздь в N досках — он следствие одной структуры: всё, что вращается, колеблется или имеет волновую симметрию, автоматически его порождает. А таких систем не конечное число, их класс. Так что ниже — не перепись, а полевой определитель: яркие представители бесконечного семейства. В конце я отдельно перечислю, чего тут нет.

Я занимаюсь разработкой, и как большинство людей с техническим складом ума, когда что‑то работает не так — ищу способ это починить. Желательно программно.
Более десяти лет назад я серьёзно занялся звуком. Мои попытки получить хорошее качество воспроизведения в комнате заставили меня пройти длительный путь проб, ошибок и исследований.
Выяснение того, где именно была проблема и почему всё оказалось сложнее, чем я надеялся, потребовало огромного количества времени. Эта серия статей — результат того расследования. Это не туториал по измерениям акустики: таких достаточно. Скорее разбор того, что в подобных туториалах обычно остаётся за кадром. Мы пойдём всё глубже: от того, что показывают стандартные метрики, к тому, что они скрывают, и к тому, что с этим реально делать.
Начнём с самого очевидного инструмента — амплитудно‑частотной характеристики (АЧХ).

Всем привет! Листал ленту тиктока и попался американский ролик про СДВГ, где всё объясняют на утках. Понравилось. И я подумал: классно было бы сделать такой же тикток, только на русском.
Но я ленивый. Снимать, писать сценарии, делать всё с нуля - это скучно. А вот взять готовый ролик и перевести-переозвучить его на русский - вот это уже интересно, подумал я, а потом задумался, о том, как это автоматизировать. Это оказалось интересной инженерной задачей, которая увлекла меня на неделю времени, и привела к созданию ИИ утилиты с открытым исходным кодом. А тикток с утками я так и не создал...

Хотите не забывать детали диалога или то, что вас просили купить в магазине? Конечно, можно по старинке открывать блокнот в телефоне или чат в избранном и записывать все руками, но в потоке задач это неудобно. Гораздо проще надиктовать мысли голосом или записать разговор, а расшифровку доверить сервису.
Сегодня ASR-системы нового поколения способны учитывать контекст беседы и выдавать осмысленный текст. Однако у любой медали есть обратная сторона — архитектурные ограничения. Чтобы понять, готовы ли эти модели к жизненным сценариям, мы устроили им бенчмарк на Hugging Face. Ниже — разбор того, ломается ли контекстное окно алгоритмов на длинных видеозаписях и как фоновый шум влияет на итоговое качество транскрибации.

Всем привет!
Продолжу рассказ о забытой многими аудиоаппаратуре прошлого, и если в первой публикации я рассказал о магнитоле Sharp WQ-234, то на этот раз в моих руках оказался музыкальный центр Philips MC-30, симпатичный малыш начала 2000-х годов.

Я хотел одну простую вещь: чтобы на втором мониторе тихо играло lo-fi, а за виджетами крутилась уютная анимированная сцена. Готового решения не нашлось — зато нашёлся чужой MIT-проект, у которого я в итоге выкинул главный модуль и собрал из остатков совсем другой продукт. Это девлог о том, что я удалил, что добавил и на каких граблях потанцевал.
Под задачу подходящих инструментов хватало, но каждый закрывал только часть. Wallpaper Engine — живые обои, но без радио. Lofi.co — музыка в браузере, но не обои рабочего стола. Noisli — эмбиент, но без всего остального. Покупать три подписки ради фона под код было жалко, поэтому я полез на GitHub смотреть, что можно собрать самому.
Нашёл meel-hd/lofi-engine под MIT — аккуратный Tauri-проект со встроенным генеративным движком, который синтезировал lo-fi прямо в браузерном рантайме. Идея красивая, но мне быстро стало понятно, что я хочу совсем другого продукта. Так появился форк, который я в итоге назвал LoFiTyan.

Честный ответ: писать sin(x) руками в работе приходится далеко не всем. Подавляющему большинству — вообще никогда. И даже там, где синус трудится явно — в DSP, графике, геодезии — он давно спрятан за библиотеками: вы вызываете fft(), rotate(), routeTo(), а тригонометрию за вас написали тридцать лет назад.
Так что если вопрос — «набирал ли ты когда-нибудь s-i-n на клавиатуре за деньги», у тригонометрии всё плохо.
Остается час до окончания обычного рабочего дня в ИТ‑офисе. Работники организации смотрят в мониторы. Бегают задачи. Горят дедлайны. Кто‑то пишет код, кто‑то ищет баги. И в этой обычной, предсказуемой вселенной, есть пять человек, которые вдруг, получив сообщение в закрытом чате, — улыбаются. Они мысленно уже не здесь. Они уже на репетиции.
Да, это мы, мы — рок‑группа.
Вернее мы играем ту музыку, которая нам больше всего нравится. С тем звучанием, которое мы выбрали для себя. По жанрам — ближе всего к року. Но, честно говоря, границы между жанрами давно стерлись. В попсе есть роковые приемы, в роке элементы рэпа. И это неважно.
Важно другое: «Зачем айтишнику рок‑группа?»
Именно на этот вопрос мы попробуем ответить в рамках данной статьи. Расскажем, как мы создавали группу, с какими проблемами столкнулись и сколько денег потратили на хобби, когда можно было просто купить PlayStation.

Когда приходишь в Text-to-Speech из классического ML (или даже из CV/NLP), сначала кажется, что всё знакомо: датасет, модель, loss, валидация, поехали. А потом довольно быстро ловишь себя на мысли, что что-то тут не так.

Привет, Хабр! Этот весьма приятный экземпляр из Поднебесной достался мне в обмен на пару педалей эффектов, задержался всего на несколько дней, сильно понравился знакомому музыканту и был обменян на другой интересный инструмент.
Однако остались впечатления, видео и фотографии, которыми я с вами сейчас поделюсь.

Я часто пишу про звук и музыку на старых компьютерах и в ранних видеоиграх. Но, как правило, это касается зарубежной техники, и тому есть простая причина: звук там в принципе есть, и весьма разнообразный. А вот в отечественной компьютерной технике с ним туго. Но сегодня для разнообразия погрузимся именно в эту альтернативную реальность: звуковые возможности советских «бытовых», то есть недорогих персональных компьютеров.
Зарубежные компьютеры уже с начала времён могли предложить какую-никакую звуковую палитру и полифонию, сопровождая действие на экране интересными эффектами и простенькими мелодиями. Игры же на отечественных ПК не только смотрелись бледнее визуально, но и в массе своей могли ответить лишь невнятным потрескиванием. Почему так произошло и могло ли быть иначе? Попробуем разобраться!