Обновить
256K+

Звук

Это «ж-ж-ж» неспроста

131,39
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Распространение CD-R и кризис музыкальной индустрии

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4.8K

В 1982 году Philips и Sony выпустили компакт-диск, и музыкальная индустрия получила самый доходный физический носитель вплоть до наступления эпохи стриминга. В пиковом 1999 году CD-продажи в США принесли около $12,8 млрд из общих $14,6 млрд отраслевой выручки. Совсем скоро эта же технология стала главным врагом индустрии и запустила ожесточенную битву за авторские права. Расскажем об этом подробнее в нашем материале. 

Читать далее

Новости

Недостающее звено при обработке медиа на Go

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели8.8K

Большинство медиа-библиотек для Go рано или поздно упираются в одну и ту же проблему.

У них нет собственного декодера.

Вместо этого они полагаются на установленный в системе пакет FFmpeg, shared библиотеки, платформозависимые DLL или внешние исполняемые файлы, которые должны присутствовать на целевой системе.

На этапе разработки всё работает. Затем начинается развертывание.

И внезапно вы отлаживаете отсутствующие DLL в Windows, несовместимые версии FFmpeg в Linux, различия версий из Homebrew на macOS, образы контейнеров без нужных библиотек или продуктовые серверы, где рядовое обновление пакета неожиданно ломает обработку медиа.

Читать далее

Звук в мультиплатформенной MMO: как упаковать взрывы, щиты и монеты в 35 голосов

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели5K

Привет, Хабр! Меня зовут Андрей Довгало, я — Senior Sound Designer в команде Tanks Blitz.

Когда речь заходит об оптимизации звука, первым делом смотрят на целевую платформу и её лимиты. Но что, если ваш проект — это онлайн free-to-play MMO-экшен, который выходит на PC, macOS, iOS и Android, ежемесячно обрастает новым контентом и в него одинаково комфортно должно играть как на мощном гейминг-компьютере, так и на слабом Android-смартфоне в метро?

Задача звукового дизайнера в таких условиях превращается в постоянный поиск баланса между качеством и производительностью. Сегодня я расскажу, как мы решаем эти задачи в проекте Tanks Blitz — бесплатном многопользовательском танковом экшне 7 на 7 с множеством фановых режимов.

Мой опыт на проекте — три года. Достаточно, чтобы не только поддерживать наследие, выстроенное на Wwise предыдущей командой, но и развивать его в условиях постоянного роста игры. Выделю три ключевых принципа нашей работы.

 

Читать далее

Голос для станка: создание модуля аудио оповещения

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели6.5K

Что бы информировать оператора или персонал о событиях, происходящих в цехе, например, в станке можно использовать аудио оповещение. Оно может быть использовано в разных устройствах от станка до теплицы. Его можно добавить в процессе изготовления оборудования или добавить к уже существующему.
В этой статье я расскажу историю и процесс создания модулей аудио оповещения.
Разрабатывать систему аудио оповещения я начал ещё в 2008 году, когда сделал плату расширения востпроизведения аудио для контроллера сигнализации. Потом сделал первую версию DAO1, затем модифицировал её и получилась DAO2, которая выпускается и сейчас. За это время сменились микроконтроллеры, интерфейсы, подходы к трассировке, технология монтажа, но основная его функция аудио оповещения осталась.

Читать далее

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели5.4K

Пару месяцев назад мы публиковали статью про то, как получили 3.3% WER для русского ASR на CPU с GigaAM — главный тезис тогда был «специализация бьёт универсальность». Замеры в той статье шли на пяти TTS‑фрагментах из аудиокниг. Всё дало идеальные 3,3% WER. С тех пор мы перемерили обе модели на реальных продакшен‑записях и часть прошлых выводов здесь уточняем.

Кандидата у нас по‑прежнему два: SberDevices GigaAM v3-e2e‑rnnt и OpenAI Whisper large‑v3-turbo. Приложение оффлайновое — корпоративные пользователи диктуют текст, облачные сервисы вроде Yandex SpeechKit или Whisper API им запрещены политикой безопасности. По публичным метрикам GigaAM выглядит сильнее, и новые бенчмарки мы рассчитывали как подтверждение прошлого выбора.

Подтверждения не случилось. По дороге мы попали в три ловушки, которые ждут любого, кто меряет ASR на собственном корпусе. Каждая из них переворачивает итоговый вывод: по опубликованным замерам GigaAM выглядит сильнее Whisper на 5–7 pp, как только мы сами померили на тех же данных — обе модели идут вровень, а на шумных записях Whisper выходит вперёд. Качество материала и эталонов в итоге решает больше, чем выбор самой модели.

Финальный выбор у нас такой:

Читать далее

3D Stereo Home Cinema, эргономичный домашний кинотеатр с иммерсивным звуком

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели7.7K

В этой небольшой статье я хочу поделиться своим концептом домашнего кинотеатра в формате 3D Stereo. Главные достоинства предлагаемой системы — ценовая доступность, высокая эргономика и максимальная эффективность без привязки к конкретному помещению.

Читать далее

Navidrome: поднимаем свой стриминговый сервер за один вечер

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели9.1K

Правообладатели убирают треки, платформы выполняют требования по контенту. Решение — свой стриминговый сервер. Navidrome + Docker: поднимается за один вечер на любом Linux, работает со всеми Subsonic-клиентами.

Читать далее

Дешёвая электрогитара Rockdale Stars HT HSS

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели14K

Привет, Хабр! Мне давно хотелось опробовать какой-нибудь инструмент этой популярной марки, и сегодня задумка, наконец, осуществилась. Под катом вы сможете заглянуть внутрь гитары и послушать её звучание до и после доработки.

Спойлер: инструмент не идеальный, но весьма порадовал, и даже приятно удивил!

Читать далее

От папки с созвонами до 5K+ юзеров: как pet-проект «для себя» встретился с реальными пользователями

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8.6K

Записать созвон — легко. Сложнее потом найти, где именно обсуждали сроки, бюджет и того самого человека, которого нужно было добавить в копию письма.

В какой-то момент я понял, что проблема не в записях, а в доступе к смыслу: файл лежит, но пользоваться им почти так же неудобно, как если бы его не было.

Из этой боли получился pet-проект для работы с голосовой информацией — с распознаванием, поиском, AI-сценариями, шарингом и всеми радостями реального мира: 20 ГБ видео, многочасовыми аудио, плохим интернетом, бот-скриптами и пользователями, которые всегда используют продукт не так, как ты ожидал.

Читать далее

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели7.8K

Музыкальные стриминговые сервисы давно перестали быть просто каталогами треков. Сегодня значительная часть пользовательского опыта формируется рекомендательными системами: персональными подборками, автоматическими плейлистами, «волнами» и похожими механизмами. Пользователь может сам искать музыку, добавлять треки в библиотеку и слушать знакомых артистов, а может переходить по рекомендациям алгоритма. Возникает естественный исследовательский вопрос: рекомендации действительно расширяют музыкальный кругозор или, наоборот, закрепляют уже существующие предпочтения пользователя?

Читать далее

3Sound: поиск бесплатных звуков для игр больше не боль?

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели9.5K

Я — разработчик игр, и в какой-то момент заметил, что трачу на поиск звуков слишком много времени. Бесплатных звуков в интернете полно, но найти нормальные почти невозможно. Так появился 3Sound — библиотека, генератор и конвертер аудио, которых мне самому постоянно не хватало.

Читать далее

Yamaha RGX121Z RM — современный суперстрат с японским вайбом второй половины 1980-х

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели15K

Привет, Хабр! Мне принесли красивую фирменную электрогитару, у которой часто рвались струны и были проблемы со строем. Сегодня мы услышим её звучание, рассмотрим со всех сторон, исправим имеющиеся недостатки (в количестве одной штуки) и обсудим перспективы совершенствования.

Бочка мёда с маленькой ложечкой дёгтя

В топку ваши чипы: мультитрекеры и Furnace

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели16K

Ох уж эти «трекеры» — узкоспециализированные музыкальные редакторы, больше напоминающие hex-отладчик, нежели инструмент композитора. Сотни их, может быть даже тысячи. Уже добрый десяток раз я писал обзоры семейств программ этого типа, сортируя по различным признакам. Ведь под каждую задачу энтузиасты создавали очередной трекер с нуля, наплодив их великое множество. Пора с этим покончить, подумали однажды энтузиасты, и создали ещё один трекер, чтобы решить эту проблему.

Сегодня мы поближе познакомимся с концепцией и историей мультитрекеров на примере самого мощного из них, убер-мультитрекера Furnace, поддерживающего почти все мыслимые платформы прошлого, включая максимально экзотические, а также вымышленные, никогда не существовавшие в реальности. Вы узнаете историю рождения этого весьма масштабного проекта, особенности универсального интерфейса, объединяющего работу со множеством звуковых чипов и устройств. Заодно вкратце обозрим сами эти звуковые чипы и их возможности.

Читать далее

Ближайшие события

Создаем ИИ‑модель для генерации музыки на базе Lakh MIDI Dataset

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели7.5K

Генерация музыки алгоритмами — давно рабочий инструмент индустрии. Этот сегмент прошел путь от простых цепей Маркова, которые предсказывали вероятности перехода одной ноты в другую, до современных трансформеров, способных выдавать многоканальные аудиозаписи.

Для разработчика генерация музыки — это отличная практическая задача. Работать с сырым аудио (waveform) вычислительно тяжело и требует сложных архитектур, но при использовании формата MIDI задача сводится к обработке последовательностей. Это делает процесс похожим на работу с текстом в NLP: мы берем дискретные токены (ноты, аккорды, паузы), находим между ними связи и предсказываем следующие шаги. Главный плюс — результат обучения модели можно в буквальном смысле услышать.

Цель этой статьи — построить с нуля простую и понятную рекуррентную нейросеть на базе архитектуры LSTM. Мы разберем полный цикл: загрузим сырые данные, подготовим их для обучения, напишем нейросеть, которая научится улавливать закономерности в мелодиях, и заставим ее сгенерировать новую нотную последовательность.

Наш стек технологий:

Читать далее

Как работает Shazam?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели23K

Вы сидите в кофейне. Включается песня, название которой вертится на языке, но вспомнить его вы никак не можете. Вы достаёте телефон, нажимаете на кнопку, и приложение за несколько секунд определяет композицию.

Как, прослушав всего несколько секунд музыки в шумном помещении, телефон мгновенно может найти её среди миллионов песен?

Можно подумать, что телефон слушает мелодию или распознаёт текст, но это не так. На самом деле, всё гораздо хитрее.

Читать далее

Эпоха «нейрослопа»: как сгенерированные треки уничтожают стриминги и доходы музыкантов

Время на прочтение5 мин
Охват и читатели8.8K

Недавно появилась статистика, что чарты и рекомендации Яндекс Музыки начали массово заполняться треками, сгенерированными ИИ. Стриминги тонут в «нейрослопе», а доходы живых авторов падают.

Читать далее

Обзор наушников Commo Immersive и Commo One 2.0

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели11K

Привет,  Хабр! Я уже писал про наушники Commo, это были затычки, которые я раскритиковал, потом я тестировал колонки Commo Stage 30 и Stage 5. И так как я хотел дать наушникам от Commo второй шанс, я решил взять на обзор сразу две модели полноразмерных наушников — Commo Immersive и Commo One 2.0. Как в случае с колонками, я взял модель посложнее и попроще. Ну и сравнить наушники из разных ценовых категорий. Приятного чтения!

Читать далее

Почти как человек, или новый подход к бинауральной звукозаписи

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8K

Новый подход к конструкции и методу калибровки стенда (по ISO226-2009),
различия между форматами объектно-ориентированного звука и объёмного стерео,
метод записи иммерсивного контента при помощи бинаурального стенда и стереокамер.

Читать далее

Как звучит JPEG? Или что будет, если сжать спектрограмму как фотографию

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели7.6K

Бывают дни, когда на работе делать нечего. А бывают дни, когда ты — программист и звукорежиссёр одновременно, и в голову приходит странная мысль: «А что, если взять аудио, превратить его в картинку-спектрограмму, сжать эту картинку как фотографию (JPEG, WebP, AVIF), а потом попробовать восстановить звук обратно? Как оно будет звучать?»

Спойлер: иногда — удивительно хорошо. Иногда — как из унитаза. Но всегда — интересно.

В этой статье я расскажу, как реализовал весь этот пайплайн, покажу код, проведу батч-тесты разных форматов и уровней качества, и, конечно, дам послушать результаты. Все исходники прилагаются, и вы сможете повторить эксперимент сами.

Читать далее

Как купить подписку Suno и начать создавать музыку в пару кликов

Время на прочтение8 мин
Охват и читатели8.2K

Suno еще со своего выхода на рубеже 23-24 года стала одной из главных, если не главной, нейросетью для создания музыки. По сей день, ей пользуется огромное количество людей - по словам Форбс, сервис насчитывает 100 миллионов пользователей, среди которых 2 миллиона - это платные подписчики. О том, что умеет нейросеть мы поговорим ниже, но, как вы догадались, в ней можно создавать музыку. От простых джинглов, то оркестровок. Все зависит только от вашего промта. Ну и фантазии, соответственно.

Читать далее
1
23 ...