Как стать автором
Обновить
102.06

Звук

Это «ж-ж-ж» неспроста

Сначала показывать
Порог рейтинга

Universal Music Group, Sony Music Entertainment и Warner Records подали в суд на две компании в области генерации музыки с использованием ИИ. Их обвинили в нарушении авторских прав.

Иск адресован Suno и Udio, которые используют текстовые подсказки для создания песен. Suno работает в Microsoft Copilot, а инструмент Udio использовался для создания вирусного ролика «BBL Drizzy».

Американская ассоциация звукозаписывающей индустрии (RIAA) требует возмещения ущерба в размере до $150 000 за произведение, а также других сборов.

«Это прямые случаи нарушения авторских прав, связанные с нелицензионным копированием звукозаписей в массовом порядке. Suno и Udio пытаются скрыть весь масштаб своих нарушений вместо того, чтобы поставить свои услуги на прочную и законную основу», — заявил главный юрист RIAA Кен Дорошоу.

Истцы утверждают, что компании отказались предоставить им данные обучения, заявив, что это «конфиденциальная деловая информация». 

Гендиректор Suno Майки Шульман говорит, что Suno не разрешает пользователям предлагать подсказки от конкретных исполнителей.

Однако RIAA включила в иск несколько примеров, которые звучат как песни, принадлежащие лейблам. Одна из них под названием «Deep down in Louisiana close to New Orle» повторяет текст и стиль песни «Johnny B. Goode» Чака Берри. Другая —«Prancing Queen» — содержит слова песни «Dancing Queen» ABBA.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

«Яндекс Маркет» сообщил Хабру о запуске в продажу под своим брендом Commo полноразмерных беспроводных наушников Immersive с 40-миллиметровыми динамиками, системой активного шумоподавления (ANC) и поддержкой объёмного звука.

В «Яндекс Маркете» пояснили, что Commo Immersive могут автономно работать до 65 часов (ёмкость аккумулятора составляет 650 мА·ч). У наушников есть звуковая и световая индикация, кнопки управления и встроенный микрофон. Чашки этой модели оснащены поворотным механизмом. В комплекте имеется AUX-кабель, с помощью которого наушники можно подключить, например, к ноутбуку и использовать даже разряженными — как проводные.

Характеристики Commo Immersive: диапазон частот 20 Гц-20000 Гц, беспроводной интерфейс Bluetooth 5.3, поддерживаемые кодеки AAC, SBC. Профили Bluetooth: A2DP, AVRCP, HFP, HSP, дальность действия: в пределах 10 метров (без препятствий), диаметр динамика: 40 мм, время полного заряда наушников: до 2 часов, напряжение: 3,7 В, импеданс: 32 Ом ± 15% на 1 кГц, чувствительность: 127 ± 3 дБ на 1 кГц.

Модель Immersive поддерживает три режима работы: активное шумоподавление (максимальный диапазон шумоподавления: -30 дБ), режим прозрачности и стандартный режим. Гаджет сам ставит музыку на паузу, если наушники снять с головы.

Ранее «Яндекс Маркет» представил представил полноразмерные наушники Commo One.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии3

Разработчики мультимедийного пакета FFMpeg объявили о создании собственной реализации декодировщика для формата кодирования звука xHE-AAC (Extended High-Efficiency AAC), определённого в стандарте ISO/IEC 23003-3.

Декодировщик xHE-AAC принят в основную кодовую базу FFMpeg и войдёт в состав следующего выпуска проекта. Реализация может использоваться для большинства стерео-потоков xHE-AAC. Потоки SBR, USAC и MPEG-H с объёмным звуком, а также кодирование речи пока не поддерживается. Поддержку USAC и SBR обещают добавить в ближайшее время.

Проект xHE-AAC используется в потоковом вещании Netflix и задействован в технологиях цифрового радиовещания Digital Radio Mondiale. Кодек примечателен поддержкой широкого диапазона битрейта (от 12 до 300 kbit/s), высокой степенью сжатия, средствами воспроизведения с постоянной громкостью, обеспечением высокой чёткости при любых уровнях громкости, дополнительными профилями управления динамическим диапазоном при прослушивании в шумных местах и добавлением метаданных, позволяющих восстанавливать потери на принимающей стороне.

20 декабря 2020 года проекту FFmpeg исполнилось 20 лет. Многие IT-компании, включая Google и YouTube, используют FFmpeg в бэкенде своих проектов и сервисов.

5 апреля 2024 года состоялся релиз открытого мультимедиа-пакета FFmpeg 7.0 под кодовым названием Dijkstra для Linux, Windows и macOS.

Источник: OpenNET.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Suno анонсировала новую версию нейросети для генерации музыки. Теперь модель машинного обучения может работать с готовыми звуковыми дорожками. К примеру, можно загрузить мелодию, сыгранную на фортепиано, и попросить переделать в звук в гитару или аккордеон. Кроме того, показали, как пользователь настучал бит, а нейросеть создала для него аккомпанемент и вокал.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Проект ChatTTS опубликовал модель и связанный с ней инструментарий машинного обучения для синтеза эмоциональной речи. Решение оптимизировано для использования в диалоговых системах, таких как интерактивные помощники, и нацелено на воспроизведение свойств естественного эмоционального общения. Поддерживается взаимодействие с несколькими говорящими людьми и построение интерактивного диалога. Корректно отслеживаются и воспроизводятся при синтезе просодические элементы, такие как смех, паузы и междометия.

При тренировке модели использовано около 40 тыс. часов речевых записей. По заявлению разработчиков, по своим возможностям формирования интонаций модель превосходит все ранее доступные открытые модели синтеза речи.

Для управления эмоциями при синтезе пока поддерживается только подстановка токенов, например, "[laugh]" для смеха. Для генерации полуминутной записи требуется GPU с 4 ГБ памяти. На GPU NVIDIA GeForce RTX 4090D скорость генерации составляет приблизительно 7 семантических токенов в секунду. Поддерживается синтез женским и мужским голосом на английском и китайском языках (для русского языка можно рекомендовать фреймворк TTS и модель XTTS-v2, которые кроме синтеза поддерживают клонирование голоса по короткой записи речи, в том числе для синтеза на другом языке).

Модель ChatTTS опубликована под лицензией CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0) и имеет защиту от совершения мошеннических и криминальных действий.

Источник: OpenNET.

Теги:
Всего голосов 3: ↑3 и ↓0+7
Комментарии0

10 апреля состоялось официальное открытие музыкальной студии VK Records.

Студийный комплекс располагается в офисе VK, занимает площадь 330 квадратных метров и включает четыре студии — главную, две контрольные и аранжировочную. К студии примыкает зал со сценой, где будут проходить музыкальные презентации и выступления артистов. Тем, кто работает с лейблом и VK, доступны услуги звукозаписи и музыкального продакшена.

На выбор артистам предоставлен парк вокальных микрофонов Neumann, Golden Age, Sony, Simple Way, звуковые интерфейсы Universal Audio, Antelope Audio, оборудование для мастеринга Dangerous System, Bettermaker и Rupert Neve Designs и многое другое. Для работы на студии собрана команда из опытных звукоинженеров и саунд-продюсеров.

В сентября 2022 года VK объявила, что компания займётся развитием музыкальных лейблов в рамках нового бизнес-направления VK Records. VK активно работает над музыкальным направлением. Тогда в VK Records уже вошли два лейбла: VK Music Records и VK Beats Records. Первый занимается развитием поп-музыки, а второй работает с рэп-артистами.

В 2021 году компания запустила приложение «VK Музыка», которое было создано на базе музыкального сервиса BOOM.

Теги:
Всего голосов 7: ↑5 и ↓2+3
Комментарии0

«Яндекс Музыка» доработала дизайн «Моей волны», который теперь подстраивается под музыкальные предпочтения пользователей.

Ключевой рекомендательный продукт «Яндекс Музыки» под названием «Моя волна» теперь для каждого пользователя выглядит персонально. Её новый дизайн формируется с помощью генеративных технологий на основе музыкальных предпочтений каждого слушателя.

Разработчики пояснили, что это обновление стало следующим шагом в персонализации сервиса вслед за переходом на новую модель рекомендаций с использованием глубоких нейронных сетей в «Моей волне».

Новый дизайн «Моей волны визуально отражает музыкальные предпочтения слушателя и динамично меняется вместе с ними, создавая индивидуальный аудиовизуальный опыт.

Благодаря обновлению пользователи смогут полноценно погрузиться в свой персональный музыкальный мир и наблюдать, как меняются их вкусы.

Разному настроению треков соответствуют разные оттенки специально разработанной палитры. Алгоритмы анализируют настроение треков и присваивают им соответствующий оттенок. В новом дизайне «Моей волны» объединяются цвет пользователя, который генерируется на основе анализа треков его «Коллекции», и цвет прослушиваемого трека.

Новый образ Моей волны динамичен. Анимация подстраивается под ритм треков и реагирует на лайки. После нажатия на сердечко появляется импульс, который символизирует воодушевление пользователя от чутко подобранной для него музыки.

Обновление дизайна «Моей волны» — ещё один шаг в сторону большей персонализации сервиса.

Теги:
Рейтинг0
Комментарии0

Новые фитнес-наушники Sennheiser Momentum Sport за $330 научили точно отслеживать пульс. Показатели можно просматривать в реальном времени без потери качества звука. Погрешность не превышает 5 ударов в минуту.

В Momentum Sport встроили оптический датчик сердечного ритма и температуры. Наушники работают с приложением Polar Flow, где доступна аналитика и планы тренировок. Они также совместимы с другими фитнес-приложениями и умными часами, поддерживающими аксессуары Bluetooth.

Модель обеспечивает более точное считывание показателей за счёт плотного прилегания к уху. 

Дополнительно Momentum Sport оснастили прозрачным режимом, пропускающим внешние звуки, но не ветер.

Наушники защищены по стандарту IP55, что позволяет использовать их в любых условиях. кроме самых экстремальных вроде сильной грозы.

Momentum Sport обеспечивают до шести часов воспроизведения музыки, а их кейс обеспечивает ещё три цикла заряда.

Теги:
Всего голосов 6: ↑5 и ↓1+4
Комментарии1

По Интернету распространяют песни с сайта Suno. Этот сервис генерирует песни по текстовому промпту. Suno берёт на себя всё: генерирование слов, зачитывающих их голосов и музыки. В марте у Suno вышла третья версия.

Новая версия неплохо справляется с разными жанрами: электроника с женским вокалом, исполняющий фолк мужской хор или симфонический рок. Как демонстрирует композиция в стиле блатного рэпа про загрузку Linux, сервис генерирует и русский язык.

Впрочем, увлекательного мало. Треки звучат похоже на человеческие и ничем не запоминаются. Куда интереснее заставить Suno спеть что-то похабное.

К примеру, так появилась песенка I glued my balls to my butthole («Я приклеил свои яйца к анусу»), которую жизнерадостный мужской голос исполняет под музыку в стиле рок-н-ролла 50-х годов прошлого века. У песни даже вышло продолжение I Glued My Balls to My Butthole Again («Я опять приклеил мои яйца к анусу»), в которой лирический герой сокрушается о своей глупости.

Другой пример — песня про игру с сосками Rubbin' and a Tuggin' My Nips, где вокалист рассказывает, что даже врач просит прекратить стимуляцию своего тела.

На самом деле удивительного мало. Как рассказывает энтузиаст винтажных компьютеров Дэвид Мюррей, когда в 80-х годах прошлого века появились первые системы генерации речи, дети развлекались тем, что заставляли их зачитывать ругательные слова.

Наконец, такие песни с непристойностями реально существовали в первой половине прошлого века. Подобное проходило под жанром «грязный блюз».

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Наглядная демонстрация работы мембраны планарных наушников. На видео показано синхронно в одном кадре круглая и квадратная мембраны планарных/изодинамических наушников.

Речь о "стоячих волнах" на мембране из-за наличия на них "активных" участков с токопроводящими дорожками и "пассивных" без них.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии2

Casio показала контроллер экспрессии Dimension Tripper, который крепится на ремне электрогитары. Вместо того чтобы управлять экспрессией при помощи педали или перемещения фейдера, решение Casio реагирует на опускание самой гитары.

Система состоит из двух частей. Передатчик устанавливается между концом ремня и его креплением на гитаре. При вытягивании одного из концов передатчика он отправляет данные по Bluetooth на приёмник. В идеальных условиях задержка составляет примерно 20 мс.

Ресивер представляет собой стандартную гитарную педаль, которую можно подключить в цепь. Приёмник оснащён рядом индикаторов, которые дают пользователю обратную связь при вытягивании передатчика. На ресивере расположены два переключателя.

В остальном Dimension Tripper работает как любой другой контроллер экспрессии. Его также можно использовать для включения и выключения эффектов вместо ножного переключателя, оттянув гитару вниз, когда, например, потребуется добавить овердрайв.

В настоящее время Casio проводит краудфандинговую кампанию, в рамках которой выпуск Dimension Tripper можно поддержать за $221.

Теги:
Рейтинг0
Комментарии0

Старое железо и Звук. 20 лет назад сделал сабвуфер от 20 Гц. Видео пруф с измерением АЧХ имеется. Рекламы нет. Ничего не продаю. Домен не мой, он пустой, разделегирован. Я ничего не продаю и не рекламирую.

Сделано на динамике 35ГД-1. Формально по техническому паспорту он не воспроизводит 20 Гц, однако реальные измерения в пруф видео показывают, что воспроизводит. Микрофон применялся с АЧХ от 16 Гц с неравномерностью 2 дБ (+/-1). Был еще один динамик из домашнего кинотеатра Akira. В фазоинверторном оформлении они давали АЧХ от 40 и 50 Гц соответственно. После переделки - от 20 Гц.

Сссылка на полное видео теста сабвуфера на >>Ютуб или >>Дзен
Сссылка на полное видео теста сабвуфера на >>Ютуб или >>Дзен

Ничего не продаю, домен не мой, он пустой, разделегирован. Я ничего не продаю и не рекламирую, вся информация в открытом доступе.

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии1

Ближайшие события

Кто-нибудь использует аудиозаписи шумов для улучшения концентрации и снижения тревоги? Я заметил как проще концентрироваться на чтении внутри летящего реактивного самолёта, в котором шум двигателей снижается до комфортного уровня. А удачный диапазон частот создаёт обволакивающий эффект.

Оказалось, что у этого явления есть научное обоснование, в США провели исследование воздействия шума невысокой громкости на когнитивные способности людей.

Примерно восемь месяцев проводил эксперименты, работая под различные фоновые звуки. Под синтезированный белый, розовый, коричневый шумы. Так же под записи звука дождя, леса, ветра. Эффект был, но не очень выраженный. Лучше помогали натуральные звуки из за их природной иррегулярности. А синтезированные шумы казались слишком скучными. Звуки работы механизмов и гул приборов бытовой сети, наоборот вызывали утомление. Видимо из за регулярности и монотонности спектрального состава.

И недавно я наткнулся на идеальный фоновый шум, от которого у меня возник эффект максимальной силы, это звук вентилятора перед которыми установили две трубы-резонатора.

Тема очень интересная и безопасная, для кого-то может стать спасением для обеспечения работоспособности.

Вот что меня натолкнуло на изыскания:

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии12

Облачная платформа Yandex Cloud представила 8 новых голосов с разными эмоциями в сервисе Yandex SpeechKit. Теперь компании смогут использовать в синтезе речи приветливую, строгую интонации или даже шепот. Это позволит компаниям-разработчикам менять окраску синтеза речи в зависимости от бизнес-сценария и повышать удовлетворенность клиентов и конверсию в голосовых каналах. Кроме этого, в сервисе появился новый параметр, который позволяет изменять высоту голоса.

Разнообразие голосов в Yandex SpeechKit позволило сделать диалоги роботов менее шаблонными, нативными. При создании новых голосов разработчики Yandex SpeechKit изменили не только работу модели машинного обучения, но и текстовую базу, которую использовали дикторы. Это позволило улучшить звучание голосов в вопросительных и восклицательных предложениях, которые являются сложной задачей для синтеза речи.

«Синтез речи — это популярная технология для автоматизации коммуникаций в контакт‑центрах и не только. Нам, как разработчикам, важно в том числе, чтобы диалоги с голосовыми роботами были человечными и комфортными для обычных людей. В будущем мы планируем предоставлять пользователям еще больше новых голосов», — пояснил Хабру CPO облачной платформы Yandex Cloud Григорий Атрепьев.

Теги:
Рейтинг0
Комментарии1

Sonos намекает на выпуск крупного продукта в следующем году. Компания обещает, что это будет «начало многолетнего производственного цикла с учётом плодов инвестиций в исследования и разработки».

Sonos рассчитывает получить более $100 млн от внедрения новых продуктов в 2024 финансовом году, причём половина доходов будет приходиться именно на флагманский.

Вероятно, компания выпустит устройство, разработанное совместными усилиями с купленным ею Mayht. Это стартап, который предложил инновационный подход к преобразователям динамиков для создания мощного звука.

Ранее Sonos пообещала вывести на рынок четыре новые категории продуктов. Первый, Sonos Pro, оказался коммерчески ориентированным. Это предложение по подписке для компаний. Теперь, вероятно, речь идёт о наушниках. 

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Adobe работает над новым аудиоинструментом Project Sound Lift, предназначенным для разделения различных слоев звука в одной записи. Он использует искусственный интеллект для отделения таких элементов, как аплодисменты, от звука чьего-то голоса.

Для обработки аудиодорожки нужно импортировать файл в приложение, а затем выбрать звук, который требуется отфильтровать. Таким образом из аудио можно исключить аплодисменты, смех, сигналы тревоги, гул толпы, звук движения транспорта, клавиатуры и т.д. Импортировать и редактировать каждую дорожку можно в Adobe Premiere Pro, чтобы настроить громкость фонового шума, одновременно повышая чёткость основного трека. 

Adobe Project Sound Lift работает по принципу той же технологии, которая использовалась для выпуска первой за почти 30 лет песни Beatles «Now and then». Продюсеры использовали ИИ, чтобы восстановить звучание голоса Джона Леннона с кассетной записи, отделив его голос от звучания фортепиано.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Альянс Open Media (AOMedia), курирующий разработку формата кодирования видео AV1 и формата изображений AVIF, представил новый звуковой формат IAMF (Immersive Audio Model and Formats), определяющий контейнер для распространения объёмного звука, учитывающего распространение звуковых сигналов в трёхмерном пространстве для воссоздания звучания, максимально близкого к естественному. IAMF предусматривает передачу дополнительной информации, необходимой для работы алгоритмов воссоздания звуковой сцены и микширования звука.

Формат изначально позиционируется как общедоступный и не требует оплаты отчислений. Все участники AOMedia, включая Amazon, Apple, Cisco, Google, Intel, Meta, Microsoft, Mozilla, Netflix, NVIDIA, Samsung Electronics и Tencent, предоставили лицензию на безвозмездное использование патентов, пересекающихся с IAMF. Условия лицензионного соглашения на IAMF также предусматривают отзыв прав на использование IAMF в случае предъявления патентных исков против других клиентов IAMF, т. е. компании не могут использовать IAMF, если участвуют в судебных разбирательствах против пользователей IAMF.

IAMF рассчитан на распространение пространственного (иммерсивного) звукового контента (Immersive Audio), создающего эффект полного присутствия и обеспечивающего высококачественное звучание на различных классах устройств: от смартфонов и наушников до cаундбаров, домашних кинотеатров и телевизоров.

Источник: OpenNET.

Теги:
Рейтинг0
Комментарии1

Опубликован релиз свободного редактора звука Audacity 3.4, предоставляющего средства для редактирования звуковых файлов (Ogg Vorbis, FLAC, MP3 и WAV), записи и оцифровки звука, изменения параметров звукового файла, наложения треков и применения эффектов (например, подавление шума, изменение темпа и тона). Audacity 3.4 стал четвёртым значительным выпуском, сформированным после перехода проекта в руки компании Muse Group. Код Audacity распространяется под лицензией GPLv3, бинарные сборки доступны для Linux, Windows и macOS.

Основные улучшения:

  • добавлены возможности, востребованные при создании музыки, такие как режим «Такты и размеры» (Beats & Measures), упрощающий подгонку звуковых клипов к темпу и ритму музыкального произведения. Режим визуализирует каждый такт при помощи сетки и позволяет привязать клипы к ближайшему такту.

  • добавлена функция растяжки по времени (Time stretching), позволяющая изменить продолжительность звукового клипа, не нарушая тональности. Для растяжки задействован алгоритм, специально разработанный для музыки и позволяющий добиться результата, опережающего многие коммерческие решения.

  • добавлено окно экспорта (Exporter), объединяющее в одном месте доступ ко всем настройкам и возможностям экспорта (включая настройки дискретизации и маппинг каналов для объёмного звука в формате 5.1 и 7.1). Предоставляется встроенный файловый менеджер и интерфейс для доступа к каталогам через систему закладок.

  • добавлена поддержка звукового кодека Opus.

Источник: OpenNET.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Утечка дорожной карты Apple AirPods подтверждает большие изменения. Как сообщает Марк Гурман из Bloomberg, Apple постарается лучше дифференцировать свою линейку AirPods по мере выпуска новых моделей в течение следующих нескольких лет. 

Компания будет поэтапно отказываться от AirPods второго и третьего поколения, а осенью следующего года объявит о новой модели. Apple планирует одновременно выпустить два комплекта AirPods четвёртого поколения уровнем ниже AirPods Pro, но с более чёткими различиями между собой. Они получат «новый дизайн, который выглядит как смесь AirPods третьего поколения и модели Pro» с короткими ножками. Вариант более высокого класса позаимствует функции AirPods Pro, такие как шумопдавление и встроенные динамики в зарядном чехле для улучшенной поддержки Find My. Однако ни одна из моделей, скорее всего, не будет включать сменные силиконовые насадки.

Следующие AirPods будут поддерживать зарядку USB-C. Также грядёт небольшое обновление AirPods Max, которые получат порт USB-C и другие цвета. 

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0