Обновить
256K+

Звук

Это «ж-ж-ж» неспроста

99,09
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Рояль на даче: использую ПЛК на Linux как real-time-синтезатор фортепиано

Уровень сложностиСложный
Время на прочтение14 мин
Охват и читатели8.4K

Я играю на пианино с детства. Классика, саундтреки, импровизации – репертуар меняется, но привычка спонтанно сесть за клавиши остается. Лучший способ отдохнуть, переключить голову после сложной работы или вообще просто так!  На моей домашней рабочей станции установлен профессиональный синтезатор фортепиано Pianoteq от Modartt — он полностью меня устраивает: не только реалистичностью звучания, но и возможностью экспериментировать со звуком.

Достаточно давно  я собрал умную дачу на базе ПЛК под Linux и даже написал об этом статью. Контроллер исправно управляет освещением, водоснабжением и отоплением. Потом я прочитал статью о запуске Doom на этом контроллере и задумался: смогу ли приспособить его под свое хобби? Получится ли играть на даче не хуже, чем дома? 

Doom — задача хоть и культовая, но все-таки относительно простая. А справится ли контроллер с real-time-синтезом аудио? Здесь недостаточно просто воспроизводить заранее записанный звук — нужно в реальном времени рассчитывать его по физической модели инструмента. 

Сборки Pianoteq существуют под разные архитектуры, но чаще всего его используют на студийных Mac и рабочих станциях — на сцене, в студиях и при работе над киномузыкой.

Итак, для своего эксперимента я привез на дачу USB-ЦАП, MIDI-клавиатуру с педалью и подключил их к контроллеру…

Читать далее

Новости

Как я делал бесплатное приложение для своей группы прославления

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.3K

Это история про то, как боль из реальной жизни превращается в код. Без стартап-питчей, без «мы дизраптим рынок», без раунда инвестиций. Просто человек, который двадцать лет назад писал на PHP, вернулся к коду — и довёл проект до рабочего состояния, потому что иначе его команда так и продолжала бы путаться на служениях.

Приложение называется Prayer & Worship. Оно бесплатное — и остаётся таким для всего, что нужно команде на служении. Ниже расскажу, как оно появилось, на чём держится и где проходит та единственная граница, за которой бесплатно уже не получится.

Читать далее

Нейронные аудиокодеки: мощное сжатие звука с помощью LLM

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели12K

В июле 2024 года французская компания Kyutai опубликовала речевую модель Moshi с нейронным аудиокодеком Mimi. Это был первый в мире голосовой end-to-end AI с открытыми исходниками, способный вести диалог в реальном времени и свободный для использования всеми желающими, демо.

Вместо прямого предсказания сэмплов аудиокодек работает в три этапа:

1. Токенизация звука.

2. Предсказание следующих токенов в LLM.

3. Восстановление оригинала.

Читать далее

Удачная находка в комиссионном магазине

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели21K

Привет, Хабр! Сегодня мы сможем всесторонне рассмотреть и послушать один из лучших синглкатов, с которыми мне когда-либо приходилось иметь дело.

Модель называется Clevan CP-100, и в настоящее время она снята с производства. Скорее всего, это произошло по причине её высокой себестоимости.

Вот так повезло!

«Яндекс» выпустил «Дропс» — наушники с Алисой: как они работают и чего им не хватает

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели12K

В продажу поступил новый гаджет «Яндекс Дропс» — наушники со встроенной Алисой AI. Это первое носимое устройство компании с Алисой. AI-ассистент в наушниках записывает идеи, мысли, напоминания и задачи в «Мою память», чтобы ничего не забыть.

Читать далее

Как сделать свой сервис распознавания голоса вместо PLAUD и закрытых ИИ-диктофонов

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.4K

Звук сегодня является важным интерфейсом. Работа с чат-ботом своей "ИИшечки" упрощается в разы. Кроме того, помимо вайб-кодинга - есть еще и обычная жизнь - с совещаниями, лекциями, собраниями, которых столько, что не успеваешь фиксировать все, о чем было обсуждение. С этими мыслями, а также увидев потрясающий по своей внешней эстетике приборчик - был заказан ИИ-диктофон PLAUD. Но. Ограничения для России такие, что заплатить за сервис (ок 20 тыс. руб.) - не получилось. Но, уже появилось желание и даже потребность в удобном цифровом распознавании. Конечно, были установлены все простые приложения на телефон, а также распознавание в Telegram, но все это было не то. Сформилировал требования, которые у меня есть:

Читать далее

Акустика гибридного офиса: как подобрать и расставить микрофоны, чтобы слышать голос, а не посторонний шум

Время на прочтение8 мин
Охват и читатели9.2K

Привет, Хабр! Я Дмитрий Белозеров из МТС Линк, моя команда отвечает за ПО и оборудование для переговорных комнат и сервис Rooms. Одна из задач, которую компании часто решают по-разному, — это расположение микрофонов в переговорной комнате. Цель кажется простой: добиться классного звука без помех, лишнего шума и эха. Но вы замечали, что после часового видеозвонка из красивой стеклянной переговорки команда жалуется на усталость, а удаленные коллеги не могут вспомнить, о чем шла речь? Проблема почти всегда кроется не в плохом интернете, а в звуке. 

Взяв за основу свой опыт и экспертизу коллег — руководителей проектов МТС Линк Олега Бурдяка и Андрея Чернова, расскажу, какие типы микрофонов бывают, как помещение влияет на акустику и что делать, чтобы снизить уровень шума. Вы узнаете, как быстро проверить реверберацию без сложных приборов, куда размещать звуковые панели и как заставить комнату из бетона и стекла, чтобы она зазвучала почти как профессиональная студия.

Читать дальше

Pwnd Blaster: беспроводной взлом компьютера через саундбар

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели16K

В своём предыдущем посте я рассказывал о реверс-инжиниринге прошивки моего нового Creative Sound Blaster Katana V2X.

То, что начиналось как попытка написать Linux-инструмент для общения с саундбаром, закончилось обнаружением уязвимостей, позволяющих любому нападающему в радиусе примерно 15 метров от Katana V2X превратить его в шпионское устройство и Rubber Ducky без необходимости сопряжения или физического контакта с оборудованием.

Читать далее

Я перестал доверять стримингам. Поэтому написал свой iOS-плеер — с CarPlay и без вранья про звук

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.8K

Я перестал верить стримингам. Не философски, а практически. Половина любимых альбомов либо ушла из каталогов, либо вернулась пересведенной так, что слушать тошно. Концертные записи, винил-рипы, региональные релизы — их там и не было. А моя коллекция в FLAC просто лежит на диске и никуда не девается.

Для своей коллекции я написал плеер. Для себя. Через полгода это превратилось в нишевое приложение для iOS на 11 языках: с собственным DSP, распознаванием музыки, онлайн радио и CarPlay.

Что в итоге внутри и где было не очевидно. Места, в которых документация молчит, а ты сидишь и гадаешь, почему оно вообще так себя ведет.

Читать далее

Насколько обоснован хайп вокруг электрогитар марки JET, и при чём здесь ИИ?

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели19K

Привет, Хабр! Меня попросили доработать кастомизированный телекастер JET JT-300 SB. Сейчас мы его рассмотрим и послушаем, а заодно научимся делать автоотсечку хамбакера стандартным трёхпозиционным переключателем и корректировать звучание датчиков простыми пассивными фильтрами.

Последнее позволяет не только сэкономить на приобретении новых фирменных звукоснимателей, но и разнообразить палитру звучаний инструмента.

Под катом вы увидите 12-струнный баc!

Распространение CD-R и кризис музыкальной индустрии

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели15K

В 1982 году Philips и Sony выпустили компакт-диск, и музыкальная индустрия получила самый доходный физический носитель вплоть до наступления эпохи стриминга. В пиковом 1999 году CD-продажи в США принесли около $12,8 млрд из общих $14,6 млрд отраслевой выручки. Совсем скоро эта же технология стала главным врагом индустрии и запустила ожесточенную битву за авторские права. Расскажем об этом подробнее в нашем материале. 

Читать далее

Недостающее звено при обработке медиа на Go

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели10K

Большинство медиа-библиотек для Go рано или поздно упираются в одну и ту же проблему.

У них нет собственного декодера.

Вместо этого они полагаются на установленный в системе пакет FFmpeg, shared библиотеки, платформозависимые DLL или внешние исполняемые файлы, которые должны присутствовать на целевой системе.

На этапе разработки всё работает. Затем начинается развертывание.

И внезапно вы отлаживаете отсутствующие DLL в Windows, несовместимые версии FFmpeg в Linux, различия версий из Homebrew на macOS, образы контейнеров без нужных библиотек или продуктовые серверы, где рядовое обновление пакета неожиданно ломает обработку медиа.

Читать далее

Звук в мультиплатформенной MMO: как упаковать взрывы, щиты и монеты в 35 голосов

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели5.8K

Привет, Хабр! Меня зовут Андрей Довгало, я — Senior Sound Designer в команде Tanks Blitz.

Когда речь заходит об оптимизации звука, первым делом смотрят на целевую платформу и её лимиты. Но что, если ваш проект — это онлайн free-to-play MMO-экшен, который выходит на PC, macOS, iOS и Android, ежемесячно обрастает новым контентом и в него одинаково комфортно должно играть как на мощном гейминг-компьютере, так и на слабом Android-смартфоне в метро?

Задача звукового дизайнера в таких условиях превращается в постоянный поиск баланса между качеством и производительностью. Сегодня я расскажу, как мы решаем эти задачи в проекте Tanks Blitz — бесплатном многопользовательском танковом экшне 7 на 7 с множеством фановых режимов.

Мой опыт на проекте — три года. Достаточно, чтобы не только поддерживать наследие, выстроенное на Wwise предыдущей командой, но и развивать его в условиях постоянного роста игры. Выделю три ключевых принципа нашей работы.

 

Читать далее

Ближайшие события

Голос для станка: создание модуля аудио оповещения

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели7.7K

Что бы информировать оператора или персонал о событиях, происходящих в цехе, например, в станке можно использовать аудио оповещение. Оно может быть использовано в разных устройствах от станка до теплицы. Его можно добавить в процессе изготовления оборудования или добавить к уже существующему.
В этой статье я расскажу историю и процесс создания модулей аудио оповещения.
Разрабатывать систему аудио оповещения я начал ещё в 2008 году, когда сделал плату расширения востпроизведения аудио для контроллера сигнализации. Потом сделал первую версию DAO1, затем модифицировал её и получилась DAO2, которая выпускается и сейчас. За это время сменились микроконтроллеры, интерфейсы, подходы к трассировке, технология монтажа, но основная его функция аудио оповещения осталась.

Читать далее

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6.3K

Пару месяцев назад мы публиковали статью про то, как получили 3.3% WER для русского ASR на CPU с GigaAM — главный тезис тогда был «специализация бьёт универсальность». Замеры в той статье шли на пяти TTS‑фрагментах из аудиокниг. Всё дало идеальные 3,3% WER. С тех пор мы перемерили обе модели на реальных продакшен‑записях и часть прошлых выводов здесь уточняем.

Кандидата у нас по‑прежнему два: SberDevices GigaAM v3-e2e‑rnnt и OpenAI Whisper large‑v3-turbo. Приложение оффлайновое — корпоративные пользователи диктуют текст, облачные сервисы вроде Yandex SpeechKit или Whisper API им запрещены политикой безопасности. По публичным метрикам GigaAM выглядит сильнее, и новые бенчмарки мы рассчитывали как подтверждение прошлого выбора.

Подтверждения не случилось. По дороге мы попали в три ловушки, которые ждут любого, кто меряет ASR на собственном корпусе. Каждая из них переворачивает итоговый вывод: по опубликованным замерам GigaAM выглядит сильнее Whisper на 5–7 pp, как только мы сами померили на тех же данных — обе модели идут вровень, а на шумных записях Whisper выходит вперёд. Качество материала и эталонов в итоге решает больше, чем выбор самой модели.

Финальный выбор у нас такой:

Читать далее

3D Stereo Home Cinema, эргономичный домашний кинотеатр с иммерсивным звуком

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели8K

В этой небольшой статье я хочу поделиться своим концептом домашнего кинотеатра в формате 3D Stereo. Главные достоинства предлагаемой системы — ценовая доступность, высокая эргономика и максимальная эффективность без привязки к конкретному помещению.

Читать далее

Navidrome: поднимаем свой стриминговый сервер за один вечер

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели11K

Правообладатели убирают треки, платформы выполняют требования по контенту. Решение — свой стриминговый сервер. Navidrome + Docker: поднимается за один вечер на любом Linux, работает со всеми Subsonic-клиентами.

Читать далее

Дешёвая электрогитара Rockdale Stars HT HSS

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели16K

Привет, Хабр! Мне давно хотелось опробовать какой-нибудь инструмент этой популярной марки, и сегодня задумка, наконец, осуществилась. Под катом вы сможете заглянуть внутрь гитары и послушать её звучание до и после доработки.

Спойлер: инструмент не идеальный, но весьма порадовал, и даже приятно удивил!

Читать далее

От папки с созвонами до 5K+ юзеров: как pet-проект «для себя» встретился с реальными пользователями

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8.8K

Записать созвон — легко. Сложнее потом найти, где именно обсуждали сроки, бюджет и того самого человека, которого нужно было добавить в копию письма.

В какой-то момент я понял, что проблема не в записях, а в доступе к смыслу: файл лежит, но пользоваться им почти так же неудобно, как если бы его не было.

Из этой боли получился pet-проект для работы с голосовой информацией — с распознаванием, поиском, AI-сценариями, шарингом и всеми радостями реального мира: 20 ГБ видео, многочасовыми аудио, плохим интернетом, бот-скриптами и пользователями, которые всегда используют продукт не так, как ты ожидал.

Читать далее

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели8K

Музыкальные стриминговые сервисы давно перестали быть просто каталогами треков. Сегодня значительная часть пользовательского опыта формируется рекомендательными системами: персональными подборками, автоматическими плейлистами, «волнами» и похожими механизмами. Пользователь может сам искать музыку, добавлять треки в библиотеку и слушать знакомых артистов, а может переходить по рекомендациям алгоритма. Возникает естественный исследовательский вопрос: рекомендации действительно расширяют музыкальный кругозор или, наоборот, закрепляют уже существующие предпочтения пользователя?

Читать далее
1
23 ...