Обновить
256K+

Звук

Это «ж-ж-ж» неспроста

83,71
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

«Яндекс» выпустил «Дропс» — наушники с Алисой: как они работают и чего им не хватает

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели11K

В продажу поступил новый гаджет «Яндекс Дропс» — наушники со встроенной Алисой AI. Это первое носимое устройство компании с Алисой. AI-ассистент в наушниках записывает идеи, мысли, напоминания и задачи в «Мою память», чтобы ничего не забыть.

Читать далее

Новости

Как сделать свой сервис распознавания голоса вместо PLAUD и закрытых ИИ-диктофонов

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.1K

Звук сегодня является важным интерфейсом. Работа с чат-ботом своей "ИИшечки" упрощается в разы. Кроме того, помимо вайб-кодинга - есть еще и обычная жизнь - с совещаниями, лекциями, собраниями, которых столько, что не успеваешь фиксировать все, о чем было обсуждение. С этими мыслями, а также увидев потрясающий по своей внешней эстетике приборчик - был заказан ИИ-диктофон PLAUD. Но. Ограничения для России такие, что заплатить за сервис (ок 20 тыс. руб.) - не получилось. Но, уже появилось желание и даже потребность в удобном цифровом распознавании. Конечно, были установлены все простые приложения на телефон, а также распознавание в Telegram, но все это было не то. Сформилировал требования, которые у меня есть:

Читать далее

Акустика гибридного офиса: как подобрать и расставить микрофоны, чтобы слышать голос, а не посторонний шум

Время на прочтение8 мин
Охват и читатели8.8K

Привет, Хабр! Я Дмитрий Белозеров из МТС Линк, моя команда отвечает за ПО и оборудование для переговорных комнат и сервис Rooms. Одна из задач, которую компании часто решают по-разному, — это расположение микрофонов в переговорной комнате. Цель кажется простой: добиться классного звука без помех, лишнего шума и эха. Но вы замечали, что после часового видеозвонка из красивой стеклянной переговорки команда жалуется на усталость, а удаленные коллеги не могут вспомнить, о чем шла речь? Проблема почти всегда кроется не в плохом интернете, а в звуке. 

Взяв за основу свой опыт и экспертизу коллег — руководителей проектов МТС Линк Олега Бурдяка и Андрея Чернова, расскажу, какие типы микрофонов бывают, как помещение влияет на акустику и что делать, чтобы снизить уровень шума. Вы узнаете, как быстро проверить реверберацию без сложных приборов, куда размещать звуковые панели и как заставить комнату из бетона и стекла, чтобы она зазвучала почти как профессиональная студия.

Читать дальше

Pwnd Blaster: беспроводной взлом компьютера через саундбар

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели14K

В своём предыдущем посте я рассказывал о реверс-инжиниринге прошивки моего нового Creative Sound Blaster Katana V2X.

То, что начиналось как попытка написать Linux-инструмент для общения с саундбаром, закончилось обнаружением уязвимостей, позволяющих любому нападающему в радиусе примерно 15 метров от Katana V2X превратить его в шпионское устройство и Rubber Ducky без необходимости сопряжения или физического контакта с оборудованием.

Читать далее

Я перестал доверять стримингам. Поэтому написал свой iOS-плеер — с CarPlay и без вранья про звук

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.7K

Я перестал верить стримингам. Не философски, а практически. Половина любимых альбомов либо ушла из каталогов, либо вернулась пересведенной так, что слушать тошно. Концертные записи, винил-рипы, региональные релизы — их там и не было. А моя коллекция в FLAC просто лежит на диске и никуда не девается.

Для своей коллекции я написал плеер. Для себя. Через полгода это превратилось в нишевое приложение для iOS на 11 языках: с собственным DSP, распознаванием музыки, онлайн радио и CarPlay.

Что в итоге внутри и где было не очевидно. Места, в которых документация молчит, а ты сидишь и гадаешь, почему оно вообще так себя ведет.

Читать далее

Насколько обоснован хайп вокруг электрогитар марки JET, и при чём здесь ИИ?

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели19K

Привет, Хабр! Меня попросили доработать кастомизированный телекастер JET JT-300 SB. Сейчас мы его рассмотрим и послушаем, а заодно научимся делать автоотсечку хамбакера стандартным трёхпозиционным переключателем и корректировать звучание датчиков простыми пассивными фильтрами.

Последнее позволяет не только сэкономить на приобретении новых фирменных звукоснимателей, но и разнообразить палитру звучаний инструмента.

Под катом вы увидите 12-струнный баc!

Распространение CD-R и кризис музыкальной индустрии

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели15K

В 1982 году Philips и Sony выпустили компакт-диск, и музыкальная индустрия получила самый доходный физический носитель вплоть до наступления эпохи стриминга. В пиковом 1999 году CD-продажи в США принесли около $12,8 млрд из общих $14,6 млрд отраслевой выручки. Совсем скоро эта же технология стала главным врагом индустрии и запустила ожесточенную битву за авторские права. Расскажем об этом подробнее в нашем материале. 

Читать далее

Недостающее звено при обработке медиа на Go

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели10K

Большинство медиа-библиотек для Go рано или поздно упираются в одну и ту же проблему.

У них нет собственного декодера.

Вместо этого они полагаются на установленный в системе пакет FFmpeg, shared библиотеки, платформозависимые DLL или внешние исполняемые файлы, которые должны присутствовать на целевой системе.

На этапе разработки всё работает. Затем начинается развертывание.

И внезапно вы отлаживаете отсутствующие DLL в Windows, несовместимые версии FFmpeg в Linux, различия версий из Homebrew на macOS, образы контейнеров без нужных библиотек или продуктовые серверы, где рядовое обновление пакета неожиданно ломает обработку медиа.

Читать далее

Звук в мультиплатформенной MMO: как упаковать взрывы, щиты и монеты в 35 голосов

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели5.7K

Привет, Хабр! Меня зовут Андрей Довгало, я — Senior Sound Designer в команде Tanks Blitz.

Когда речь заходит об оптимизации звука, первым делом смотрят на целевую платформу и её лимиты. Но что, если ваш проект — это онлайн free-to-play MMO-экшен, который выходит на PC, macOS, iOS и Android, ежемесячно обрастает новым контентом и в него одинаково комфортно должно играть как на мощном гейминг-компьютере, так и на слабом Android-смартфоне в метро?

Задача звукового дизайнера в таких условиях превращается в постоянный поиск баланса между качеством и производительностью. Сегодня я расскажу, как мы решаем эти задачи в проекте Tanks Blitz — бесплатном многопользовательском танковом экшне 7 на 7 с множеством фановых режимов.

Мой опыт на проекте — три года. Достаточно, чтобы не только поддерживать наследие, выстроенное на Wwise предыдущей командой, но и развивать его в условиях постоянного роста игры. Выделю три ключевых принципа нашей работы.

 

Читать далее

Голос для станка: создание модуля аудио оповещения

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели7.6K

Что бы информировать оператора или персонал о событиях, происходящих в цехе, например, в станке можно использовать аудио оповещение. Оно может быть использовано в разных устройствах от станка до теплицы. Его можно добавить в процессе изготовления оборудования или добавить к уже существующему.
В этой статье я расскажу историю и процесс создания модулей аудио оповещения.
Разрабатывать систему аудио оповещения я начал ещё в 2008 году, когда сделал плату расширения востпроизведения аудио для контроллера сигнализации. Потом сделал первую версию DAO1, затем модифицировал её и получилась DAO2, которая выпускается и сейчас. За это время сменились микроконтроллеры, интерфейсы, подходы к трассировке, технология монтажа, но основная его функция аудио оповещения осталась.

Читать далее

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6.2K

Пару месяцев назад мы публиковали статью про то, как получили 3.3% WER для русского ASR на CPU с GigaAM — главный тезис тогда был «специализация бьёт универсальность». Замеры в той статье шли на пяти TTS‑фрагментах из аудиокниг. Всё дало идеальные 3,3% WER. С тех пор мы перемерили обе модели на реальных продакшен‑записях и часть прошлых выводов здесь уточняем.

Кандидата у нас по‑прежнему два: SberDevices GigaAM v3-e2e‑rnnt и OpenAI Whisper large‑v3-turbo. Приложение оффлайновое — корпоративные пользователи диктуют текст, облачные сервисы вроде Yandex SpeechKit или Whisper API им запрещены политикой безопасности. По публичным метрикам GigaAM выглядит сильнее, и новые бенчмарки мы рассчитывали как подтверждение прошлого выбора.

Подтверждения не случилось. По дороге мы попали в три ловушки, которые ждут любого, кто меряет ASR на собственном корпусе. Каждая из них переворачивает итоговый вывод: по опубликованным замерам GigaAM выглядит сильнее Whisper на 5–7 pp, как только мы сами померили на тех же данных — обе модели идут вровень, а на шумных записях Whisper выходит вперёд. Качество материала и эталонов в итоге решает больше, чем выбор самой модели.

Финальный выбор у нас такой:

Читать далее

3D Stereo Home Cinema, эргономичный домашний кинотеатр с иммерсивным звуком

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели8K

В этой небольшой статье я хочу поделиться своим концептом домашнего кинотеатра в формате 3D Stereo. Главные достоинства предлагаемой системы — ценовая доступность, высокая эргономика и максимальная эффективность без привязки к конкретному помещению.

Читать далее

Navidrome: поднимаем свой стриминговый сервер за один вечер

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели10K

Правообладатели убирают треки, платформы выполняют требования по контенту. Решение — свой стриминговый сервер. Navidrome + Docker: поднимается за один вечер на любом Linux, работает со всеми Subsonic-клиентами.

Читать далее

Ближайшие события

Дешёвая электрогитара Rockdale Stars HT HSS

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели16K

Привет, Хабр! Мне давно хотелось опробовать какой-нибудь инструмент этой популярной марки, и сегодня задумка, наконец, осуществилась. Под катом вы сможете заглянуть внутрь гитары и послушать её звучание до и после доработки.

Спойлер: инструмент не идеальный, но весьма порадовал, и даже приятно удивил!

Читать далее

От папки с созвонами до 5K+ юзеров: как pet-проект «для себя» встретился с реальными пользователями

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8.8K

Записать созвон — легко. Сложнее потом найти, где именно обсуждали сроки, бюджет и того самого человека, которого нужно было добавить в копию письма.

В какой-то момент я понял, что проблема не в записях, а в доступе к смыслу: файл лежит, но пользоваться им почти так же неудобно, как если бы его не было.

Из этой боли получился pet-проект для работы с голосовой информацией — с распознаванием, поиском, AI-сценариями, шарингом и всеми радостями реального мира: 20 ГБ видео, многочасовыми аудио, плохим интернетом, бот-скриптами и пользователями, которые всегда используют продукт не так, как ты ожидал.

Читать далее

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели7.9K

Музыкальные стриминговые сервисы давно перестали быть просто каталогами треков. Сегодня значительная часть пользовательского опыта формируется рекомендательными системами: персональными подборками, автоматическими плейлистами, «волнами» и похожими механизмами. Пользователь может сам искать музыку, добавлять треки в библиотеку и слушать знакомых артистов, а может переходить по рекомендациям алгоритма. Возникает естественный исследовательский вопрос: рекомендации действительно расширяют музыкальный кругозор или, наоборот, закрепляют уже существующие предпочтения пользователя?

Читать далее

3Sound: поиск бесплатных звуков для игр больше не боль?

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели9.6K

Я — разработчик игр, и в какой-то момент заметил, что трачу на поиск звуков слишком много времени. Бесплатных звуков в интернете полно, но найти нормальные почти невозможно. Так появился 3Sound — библиотека, генератор и конвертер аудио, которых мне самому постоянно не хватало.

Читать далее

Yamaha RGX121Z RM — современный суперстрат с японским вайбом второй половины 1980-х

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели15K

Привет, Хабр! Мне принесли красивую фирменную электрогитару, у которой часто рвались струны и были проблемы со строем. Сегодня мы услышим её звучание, рассмотрим со всех сторон, исправим имеющиеся недостатки (в количестве одной штуки) и обсудим перспективы совершенствования.

Бочка мёда с маленькой ложечкой дёгтя

В топку ваши чипы: мультитрекеры и Furnace

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели17K

Ох уж эти «трекеры» — узкоспециализированные музыкальные редакторы, больше напоминающие hex-отладчик, нежели инструмент композитора. Сотни их, может быть даже тысячи. Уже добрый десяток раз я писал обзоры семейств программ этого типа, сортируя по различным признакам. Ведь под каждую задачу энтузиасты создавали очередной трекер с нуля, наплодив их великое множество. Пора с этим покончить, подумали однажды энтузиасты, и создали ещё один трекер, чтобы решить эту проблему.

Сегодня мы поближе познакомимся с концепцией и историей мультитрекеров на примере самого мощного из них, убер-мультитрекера Furnace, поддерживающего почти все мыслимые платформы прошлого, включая максимально экзотические, а также вымышленные, никогда не существовавшие в реальности. Вы узнаете историю рождения этого весьма масштабного проекта, особенности универсального интерфейса, объединяющего работу со множеством звуковых чипов и устройств. Заодно вкратце обозрим сами эти звуковые чипы и их возможности.

Читать далее

Создаем ИИ‑модель для генерации музыки на базе Lakh MIDI Dataset

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели7.6K

Генерация музыки алгоритмами — давно рабочий инструмент индустрии. Этот сегмент прошел путь от простых цепей Маркова, которые предсказывали вероятности перехода одной ноты в другую, до современных трансформеров, способных выдавать многоканальные аудиозаписи.

Для разработчика генерация музыки — это отличная практическая задача. Работать с сырым аудио (waveform) вычислительно тяжело и требует сложных архитектур, но при использовании формата MIDI задача сводится к обработке последовательностей. Это делает процесс похожим на работу с текстом в NLP: мы берем дискретные токены (ноты, аккорды, паузы), находим между ними связи и предсказываем следующие шаги. Главный плюс — результат обучения модели можно в буквальном смысле услышать.

Цель этой статьи — построить с нуля простую и понятную рекуррентную нейросеть на базе архитектуры LSTM. Мы разберем полный цикл: загрузим сырые данные, подготовим их для обучения, напишем нейросеть, которая научится улавливать закономерности в мелодиях, и заставим ее сгенерировать новую нотную последовательность.

Наш стек технологий:

Читать далее
1
23 ...