Обновить
256K+

Звук

Это «ж-ж-ж» неспроста

109,92
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Как мы собрали рок‑группу, не уходя из ИТ: опыт пяти лет

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели2.7K

Остается час до окончания обычного рабочего дня в ИТ‑офисе. Работники организации смотрят в мониторы. Бегают задачи. Горят дедлайны. Кто‑то пишет код, кто‑то ищет баги. И в этой обычной, предсказуемой вселенной, есть пять человек, которые вдруг, получив сообщение в закрытом чате, — улыбаются. Они мысленно уже не здесь. Они уже на репетиции.

Да, это мы, мы — рок‑группа.

Вернее мы играем ту музыку, которая нам больше всего нравится. С тем звучанием, которое мы выбрали для себя. По жанрам — ближе всего к року. Но, честно говоря, границы между жанрами давно стерлись. В попсе есть роковые приемы, в роке элементы рэпа. И это неважно.

Важно другое: «Зачем айтишнику рок‑группа?»

Именно на этот вопрос мы попробуем ответить в рамках данной статьи. Расскажем, как мы создавали группу, с какими проблемами столкнулись и сколько денег потратили на хобби, когда можно было просто купить PlayStation.

Зажать пачку

Новости

Неочевидные проблемы в Text‑to‑Speech, о которых редко говорят

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели7.7K

Когда приходишь в Text-to-Speech из классического ML (или даже из CV/NLP), сначала кажется, что всё знакомо: датасет, модель, loss, валидация, поехали. А потом довольно быстро ловишь себя на мысли, что что-то тут не так.

А что не так-то?

Безымянный китайский телекастер

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели10K

Привет, Хабр! Этот весьма приятный экземпляр из Поднебесной достался мне в обмен на пару педалей эффектов, задержался всего на несколько дней, сильно понравился знакомому музыканту и был обменян на другой интересный инструмент.

Однако остались впечатления, видео и фотографии, которыми я с вами сейчас поделюсь.

Читать далее

Звуки музыки советских ПЭВМ

Уровень сложностиПростой
Время на прочтение21 мин
Охват и читатели13K

Я часто пишу про звук и музыку на старых компьютерах и в ранних видеоиграх. Но, как правило, это касается зарубежной техники, и тому есть простая причина: звук там в принципе есть, и весьма разнообразный. А вот в отечественной компьютерной технике с ним туго. Но сегодня для разнообразия погрузимся именно в эту альтернативную реальность: звуковые возможности советских «бытовых», то есть недорогих персональных компьютеров.

Зарубежные компьютеры уже с начала времён могли предложить какую-никакую звуковую палитру и полифонию, сопровождая действие на экране интересными эффектами и простенькими мелодиями. Игры же на отечественных ПК не только смотрелись бледнее визуально, но и в массе своей могли ответить лишь невнятным потрескиванием. Почему так произошло и могло ли быть иначе? Попробуем разобраться!

Читать далее

Рояль на даче: использую ПЛК на Linux как real-time-синтезатор фортепиано

Уровень сложностиСложный
Время на прочтение14 мин
Охват и читатели12K

Я играю на пианино с детства. Классика, саундтреки, импровизации – репертуар меняется, но привычка спонтанно сесть за клавиши остается. Лучший способ отдохнуть, переключить голову после сложной работы или вообще просто так!  На моей домашней рабочей станции установлен профессиональный синтезатор фортепиано Pianoteq от Modartt — он полностью меня устраивает: не только реалистичностью звучания, но и возможностью экспериментировать со звуком.

Достаточно давно  я собрал умную дачу на базе ПЛК под Linux и даже написал об этом статью. Контроллер исправно управляет освещением, водоснабжением и отоплением. Потом я прочитал статью о запуске Doom на этом контроллере и задумался: смогу ли приспособить его под свое хобби? Получится ли играть на даче не хуже, чем дома? 

Doom — задача хоть и культовая, но все-таки относительно простая. А справится ли контроллер с real-time-синтезом аудио? Здесь недостаточно просто воспроизводить заранее записанный звук — нужно в реальном времени рассчитывать его по физической модели инструмента. 

Сборки Pianoteq существуют под разные архитектуры, но чаще всего его используют на студийных Mac и рабочих станциях — на сцене, в студиях и при работе над киномузыкой.

Итак, для своего эксперимента я привез на дачу USB-ЦАП, MIDI-клавиатуру с педалью и подключил их к контроллеру…

Читать далее

Как я делал бесплатное приложение для своей группы прославления

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.5K

Это история про то, как боль из реальной жизни превращается в код. Без стартап-питчей, без «мы дизраптим рынок», без раунда инвестиций. Просто человек, который двадцать лет назад писал на PHP, вернулся к коду — и довёл проект до рабочего состояния, потому что иначе его команда так и продолжала бы путаться на служениях.

Приложение называется Prayer & Worship. Оно бесплатное — и остаётся таким для всего, что нужно команде на служении. Ниже расскажу, как оно появилось, на чём держится и где проходит та единственная граница, за которой бесплатно уже не получится.

Читать далее

Нейронные аудиокодеки: мощное сжатие звука с помощью LLM

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели14K

В июле 2024 года французская компания Kyutai опубликовала речевую модель Moshi с нейронным аудиокодеком Mimi. Это был первый в мире голосовой end-to-end AI с открытыми исходниками, способный вести диалог в реальном времени и свободный для использования всеми желающими, демо.

Вместо прямого предсказания сэмплов аудиокодек работает в три этапа:

1. Токенизация звука.

2. Предсказание следующих токенов в LLM.

3. Восстановление оригинала.

Читать далее

Удачная находка в комиссионном магазине

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели23K

Привет, Хабр! Сегодня мы сможем всесторонне рассмотреть и послушать один из лучших синглкатов, с которыми мне когда-либо приходилось иметь дело.

Модель называется Clevan CP-100, и в настоящее время она снята с производства. Скорее всего, это произошло по причине её высокой себестоимости.

Вот так повезло!

«Яндекс» выпустил «Дропс» — наушники с Алисой: как они работают и чего им не хватает

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели12K

В продажу поступил новый гаджет «Яндекс Дропс» — наушники со встроенной Алисой AI. Это первое носимое устройство компании с Алисой. AI-ассистент в наушниках записывает идеи, мысли, напоминания и задачи в «Мою память», чтобы ничего не забыть.

Читать далее

Как сделать свой сервис распознавания голоса вместо PLAUD и закрытых ИИ-диктофонов

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.5K

Звук сегодня является важным интерфейсом. Работа с чат-ботом своей "ИИшечки" упрощается в разы. Кроме того, помимо вайб-кодинга - есть еще и обычная жизнь - с совещаниями, лекциями, собраниями, которых столько, что не успеваешь фиксировать все, о чем было обсуждение. С этими мыслями, а также увидев потрясающий по своей внешней эстетике приборчик - был заказан ИИ-диктофон PLAUD. Но. Ограничения для России такие, что заплатить за сервис (ок 20 тыс. руб.) - не получилось. Но, уже появилось желание и даже потребность в удобном цифровом распознавании. Конечно, были установлены все простые приложения на телефон, а также распознавание в Telegram, но все это было не то. Сформилировал требования, которые у меня есть:

Читать далее

Акустика гибридного офиса: как подобрать и расставить микрофоны, чтобы слышать голос, а не посторонний шум

Время на прочтение8 мин
Охват и читатели9.3K

Привет, Хабр! Я Дмитрий Белозеров из МТС Линк, моя команда отвечает за ПО и оборудование для переговорных комнат и сервис Rooms. Одна из задач, которую компании часто решают по-разному, — это расположение микрофонов в переговорной комнате. Цель кажется простой: добиться классного звука без помех, лишнего шума и эха. Но вы замечали, что после часового видеозвонка из красивой стеклянной переговорки команда жалуется на усталость, а удаленные коллеги не могут вспомнить, о чем шла речь? Проблема почти всегда кроется не в плохом интернете, а в звуке. 

Взяв за основу свой опыт и экспертизу коллег — руководителей проектов МТС Линк Олега Бурдяка и Андрея Чернова, расскажу, какие типы микрофонов бывают, как помещение влияет на акустику и что делать, чтобы снизить уровень шума. Вы узнаете, как быстро проверить реверберацию без сложных приборов, куда размещать звуковые панели и как заставить комнату из бетона и стекла, чтобы она зазвучала почти как профессиональная студия.

Читать дальше

Pwnd Blaster: беспроводной взлом компьютера через саундбар

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели17K

В своём предыдущем посте я рассказывал о реверс-инжиниринге прошивки моего нового Creative Sound Blaster Katana V2X.

То, что начиналось как попытка написать Linux-инструмент для общения с саундбаром, закончилось обнаружением уязвимостей, позволяющих любому нападающему в радиусе примерно 15 метров от Katana V2X превратить его в шпионское устройство и Rubber Ducky без необходимости сопряжения или физического контакта с оборудованием.

Читать далее

Я перестал доверять стримингам. Поэтому написал свой iOS-плеер — с CarPlay и без вранья про звук

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.8K

Я перестал верить стримингам. Не философски, а практически. Половина любимых альбомов либо ушла из каталогов, либо вернулась пересведенной так, что слушать тошно. Концертные записи, винил-рипы, региональные релизы — их там и не было. А моя коллекция в FLAC просто лежит на диске и никуда не девается.

Для своей коллекции я написал плеер. Для себя. Через полгода это превратилось в нишевое приложение для iOS на 11 языках: с собственным DSP, распознаванием музыки, онлайн радио и CarPlay.

Что в итоге внутри и где было не очевидно. Места, в которых документация молчит, а ты сидишь и гадаешь, почему оно вообще так себя ведет.

Читать далее

Ближайшие события

Насколько обоснован хайп вокруг электрогитар марки JET, и при чём здесь ИИ?

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели19K

Привет, Хабр! Меня попросили доработать кастомизированный телекастер JET JT-300 SB. Сейчас мы его рассмотрим и послушаем, а заодно научимся делать автоотсечку хамбакера стандартным трёхпозиционным переключателем и корректировать звучание датчиков простыми пассивными фильтрами.

Последнее позволяет не только сэкономить на приобретении новых фирменных звукоснимателей, но и разнообразить палитру звучаний инструмента.

Под катом вы увидите 12-струнный баc!

Распространение CD-R и кризис музыкальной индустрии

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели15K

В 1982 году Philips и Sony выпустили компакт-диск, и музыкальная индустрия получила самый доходный физический носитель вплоть до наступления эпохи стриминга. В пиковом 1999 году CD-продажи в США принесли около $12,8 млрд из общих $14,6 млрд отраслевой выручки. Совсем скоро эта же технология стала главным врагом индустрии и запустила ожесточенную битву за авторские права. Расскажем об этом подробнее в нашем материале. 

Читать далее

Недостающее звено при обработке медиа на Go

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели10K

Большинство медиа-библиотек для Go рано или поздно упираются в одну и ту же проблему.

У них нет собственного декодера.

Вместо этого они полагаются на установленный в системе пакет FFmpeg, shared библиотеки, платформозависимые DLL или внешние исполняемые файлы, которые должны присутствовать на целевой системе.

На этапе разработки всё работает. Затем начинается развертывание.

И внезапно вы отлаживаете отсутствующие DLL в Windows, несовместимые версии FFmpeg в Linux, различия версий из Homebrew на macOS, образы контейнеров без нужных библиотек или продуктовые серверы, где рядовое обновление пакета неожиданно ломает обработку медиа.

Читать далее

Звук в мультиплатформенной MMO: как упаковать взрывы, щиты и монеты в 35 голосов

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели5.8K

Привет, Хабр! Меня зовут Андрей Довгало, я — Senior Sound Designer в команде Tanks Blitz.

Когда речь заходит об оптимизации звука, первым делом смотрят на целевую платформу и её лимиты. Но что, если ваш проект — это онлайн free-to-play MMO-экшен, который выходит на PC, macOS, iOS и Android, ежемесячно обрастает новым контентом и в него одинаково комфортно должно играть как на мощном гейминг-компьютере, так и на слабом Android-смартфоне в метро?

Задача звукового дизайнера в таких условиях превращается в постоянный поиск баланса между качеством и производительностью. Сегодня я расскажу, как мы решаем эти задачи в проекте Tanks Blitz — бесплатном многопользовательском танковом экшне 7 на 7 с множеством фановых режимов.

Мой опыт на проекте — три года. Достаточно, чтобы не только поддерживать наследие, выстроенное на Wwise предыдущей командой, но и развивать его в условиях постоянного роста игры. Выделю три ключевых принципа нашей работы.

 

Читать далее

Голос для станка: создание модуля аудио оповещения

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели7.7K

Что бы информировать оператора или персонал о событиях, происходящих в цехе, например, в станке можно использовать аудио оповещение. Оно может быть использовано в разных устройствах от станка до теплицы. Его можно добавить в процессе изготовления оборудования или добавить к уже существующему.
В этой статье я расскажу историю и процесс создания модулей аудио оповещения.
Разрабатывать систему аудио оповещения я начал ещё в 2008 году, когда сделал плату расширения востпроизведения аудио для контроллера сигнализации. Потом сделал первую версию DAO1, затем модифицировал её и получилась DAO2, которая выпускается и сейчас. За это время сменились микроконтроллеры, интерфейсы, подходы к трассировке, технология монтажа, но основная его функция аудио оповещения осталась.

Читать далее

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6.4K

Пару месяцев назад мы публиковали статью про то, как получили 3.3% WER для русского ASR на CPU с GigaAM — главный тезис тогда был «специализация бьёт универсальность». Замеры в той статье шли на пяти TTS‑фрагментах из аудиокниг. Всё дало идеальные 3,3% WER. С тех пор мы перемерили обе модели на реальных продакшен‑записях и часть прошлых выводов здесь уточняем.

Кандидата у нас по‑прежнему два: SberDevices GigaAM v3-e2e‑rnnt и OpenAI Whisper large‑v3-turbo. Приложение оффлайновое — корпоративные пользователи диктуют текст, облачные сервисы вроде Yandex SpeechKit или Whisper API им запрещены политикой безопасности. По публичным метрикам GigaAM выглядит сильнее, и новые бенчмарки мы рассчитывали как подтверждение прошлого выбора.

Подтверждения не случилось. По дороге мы попали в три ловушки, которые ждут любого, кто меряет ASR на собственном корпусе. Каждая из них переворачивает итоговый вывод: по опубликованным замерам GigaAM выглядит сильнее Whisper на 5–7 pp, как только мы сами померили на тех же данных — обе модели идут вровень, а на шумных записях Whisper выходит вперёд. Качество материала и эталонов в итоге решает больше, чем выбор самой модели.

Финальный выбор у нас такой:

Читать далее

3D Stereo Home Cinema, эргономичный домашний кинотеатр с иммерсивным звуком

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели8.1K

В этой небольшой статье я хочу поделиться своим концептом домашнего кинотеатра в формате 3D Stereo. Главные достоинства предлагаемой системы — ценовая доступность, высокая эргономика и максимальная эффективность без привязки к конкретному помещению.

Читать далее
1
23 ...