Обновить
256K+

Звук

Это «ж-ж-ж» неспроста

147,96
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Редкий китайский суперстрат Vorson TS-K-6

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.8K

Привет, Хабр! Мне принесли на доработку очередной инструмент из Поднебесной, оформленный в узнаваемом стиле Ibanez JEM — подписной электрогитары Стива Вая. Не одобряю воровство дизайнов, просто констатирую очевидный факт.

Изделие оказалось весьма красивым и достаточно качественным, но для достижения приемлемой играбельности потребовался некоторый объём работ, что неудивительно для недорогих инструментов.

На самом деле, в стоимость продукции более престижных конкурентов, кроме всего прочего, включена предпродажная подготовка у дилера, которую может потребоваться повторить, и не раз, учитывая реакцию древесины на климатические условия и их изменения.

Читать далее

Новости

Голоса в компьютере: поющие сидя

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели10K

Первая часть цикла описывала историю появления в компьютерных играх человеческой речи, различные технологии её реализации: синтез, запись и воспроизведение. Во второй части я рассказал о том, как простые голосовые вставки эволюционировали в примитивные вокальные партии в игровой музыке, совмещающие фрагменты человеческого голоса и синтетическое музыкальное сопровождение.

С приходом эпохи мультимедиа всё стало значительно проще: появилась возможность воспроизводить любой звук высочайшего качества с компакт-диска с большой продолжительностью, в том числе и песни. Это время тоже представляет интерес, если не технологический, то художественный и ностальгический. Об этом и пойдёт речь в третьей, завершающей части цикла: вспомним лучшие оригинальные песни в играх 1990-х годов и немного заглянем в 2000-е.

Читать далее

— Мам, купи Suno. — У нас есть Suno дома! ACE‑Step XL 4B — русскоязычная музыкальная студия с открытым исходным кодом

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели12K

Всем привет! Музыку я люблю всю жизнь. Сам всегда хотел научиться играть на каком‑нибудь инструменте — пробовал гитару, клавиши, даже барабаны — освоил в итоге только варган. Зато с генерацией музыки нейросетями дело у меня пошло сразу. Написал в своё время один из первых на русском гайдов по Udio, недавно собрал платформу для лайвкодинга музыки с ИИ‑агентом. За опенсорсом в этой теме тоже слежу — щупаю каждый раз как что‑то новое появляется. Но после Suno слушать их обычно невозможно. Уровень «ну ок, оно звуки издаёт, и это тоже достижение».

В конце марта, когда на одном из моих стримов мы смотрели обзоры на свежую тогда ACE‑Step 1.5 — опенсорсную модель от команды StepFun. Посмотрели примеры, послушали что люди нагенерировали — и я решил что это хрень не достойная внимания. Вокал мычит, куплет примерно похож на куплет, по качеству — где‑то уровень Suno v3.5, то есть позапрошлогодний Suno. Даже скачивать не стал. Подумал: ну опенсорс и опенсорс, подождём когда научится.

И оно научилось! Уже через пару недель ACE‑Step выкатили версию XL.

Читать далее

Разбор рынка HATS: почему «бинауральные головы» стоят как подержанная машина

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели6.3K

Если вы хоть раз гуглили бинауральную запись, то натыкались на странную вещь:
искусственная голова с микрофонами стоит — от нескольких тысяч до миллионов рублей.

И это довольно быстро вызывает диссонанс.

С одной стороны — идея выглядит почти тривиально:
два микрофона, размещённые в «ушах».

С другой — ценник, как у сложного лабораторного оборудования.

Интуитивно ожидаешь уровень «два хороших микрофона».
На практике — подержанная машина.

Рынок HATS — один из немногих в аудиоиндустрии, где цены растут быстрее, чем меняются технологии.

Отсюда возникает простой вопрос:

что это вообще за рынок и за что там платят?

Я как раз разбирался в этом, пока делал свою «Голову Бинго»,
и заодно разложил по полочкам:

— из чего складывается цена
— почему разброс такой большой
— и почему между «игрушкой» и «лабораторией» почти ничего нет

Читать далее

Гармония чисел: как математика настроила музыку

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели12K

Введение: Звучащие кувалды

Представьте, что вы часто ходите мимо кузницы. Кузнецы бьют молотами по наковальне, и вдруг вы замечаете странную вещь: одни молоты звучат вместе красиво, слитно, а другие — противно, вразнобой. Так, согласно легенде, Пифагор пришёл к открытию, которое положило начало теории музыки . Он принёс молоты в лабораторию и взвесил их. Оказалось, что веса молотов, дающих красивое сочетание (консонанс), соотносятся как простые числа 2:1, 3:2 и 4:3 . Так родилась главная идея западной музыки: «Красивое звучание — это простое математическое отношение».

Связь музыки и математики оказалась на удивление прочной. На протяжении всей истории она вдохновляла не только теоретиков, но и практиков. Чешский математик Эразм Горицкий применял геометрию для деления музыкальных интервалов. Иоганн Себастьян Бах своей музыкой и самим названием сборника «Хорошо темперированный клавир» закрепил победу нового строя. А в XX веке композитор и архитектор Янис Ксенакис переносил в музыку теорию множеств и случайных процессов. Даже великий оперный певец Джером Хайнс публиковал математические работы.

Исследования в этой области продолжаются и сегодня, в том числе в России. Например, современные российские исследователи разрабатывают комплексные математические модели музыки, используя теорию множеств, теорию вероятностей и теорию групп для анализа и моделирования музыкального творчества.

Проследим эту историю шаг за шагом и посмотрим, как математика постепенно формировала то, что мы сегодня называем музыкальной гармонией.

Читать далее

Собираем стратокастер из деталей с Aliexpress

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели20K

Привет, Хабр! Знакомый энтузиаст приобрёл гору китайских комплектующих для электрогитары и попросил у меня помощи с её сборкой, так как детали имели некоторые особенности и не совсем подходили друг к другу.

Увлекательный процесс работы и получившийся музыкальный инструмент теперь можно рассмотреть, послушать и оценить.

Фото с уютным котиком и многое другое

Почему реагирующие на звук светодиодные ленты невероятно сложны в использовании

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели12K

Инженер-программист и робототехник Скотт Лоусон рассказал о своём проекте светодиодных лент, которые реагируют на музыку, учитывая паттерны человеческого зрительного восприятия.

Читать далее

llama.cpp теперь умеет работать с речью

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели12K

Сегодня (12 апреля) в проект llama.cpp залили PR, который добавляет новый функционал - работа с audio.

Речь идёт о поддержке моделей Gemma4, которые умеют распознавать речь:

https://huggingface.co/google/gemma-4-E4B-it

Читать далее

Suno 5.5: почти ваш голос и мелодия

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели9.6K

Вопрос генерации со своим голосом занимал меня с v3.5. Другая интересная тема — аранжировка. Если не в обычном виде (на входе стиль и аккорды, на выходе “минус”), то способом обновления, “раскраски” черновика (mp3 из GM MIDI, Audio Upload, режим Cover). За пару лет я сделал много тестов, результаты представлял на Хабре, своём сайте, в Телеграм-канале. Последнее обновление Suno — повод снова вернуться к этим вопросам.

Свой голос

Как только версия 5.5 стала доступна, приступил к тестам опции “Your Voice” 1), опираясь на опыт с Suno v3.5 и RVC. Собрал 11 DS (голосовых наборов) на своём материале. Задача — проверить, как реагирует система на разный исходный материал, стили и параметры генерации.

1) Ссылка на процедуру “Your Voice” (PDF на русском) из раздела Help на сайте Suno.

Уже не раз касался понятий тембр и манера с психоакустической точки зрения. Нынче повод вернуться к теме: можно говорить похоже или нет, но чтобы контролировать, надо понимать механику.

Для синтеза вокала Suno (или другому ИИ) нужно обеспечить 3 компонента:

Тембр, или «окраска» звука, зависит от “геометрии” голосового аппарата: трахея, гортань, связки, резонаторы.(Певцы, артисты могут в определённой степени его менять. У родственников голоса часто похожи — физиология).

Интонация — изменения высоты (мелодия) + нюансы: вибрато, опевания, “подъезды” (Pitch curve).

Артикуляция — работа языка, нёба, челюсти, губ, обеспечивающая произнесение/ пропевание слов.

Именно разделение на 3 компонента придаёт гибкость системе: берём модель тембра, добавляем интонирование в нужной манере и соответствующую языку артикуляцию. Хотите на хинди? Пожалуйста!

Читать далее

AGC или как перестать подстраивать громкость вручную

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.6K

Многие наверняка сталкивались с проблемой: смотришь по ТВ спокойный фильм, который прерывается резкой и громкой рекламой; или, например, при общении по ВКС всех собеседников слышно нормально, но у кого-нибудь одного микрофон будет шуметь так, будто он в данный момент находится рядом с двигателем самолета, готовящегося взлетать. Конечно, всегда можно подрегулировать громкость динамиков, но всегда ли это удобно и возможно?

Читать далее

Промпты для Suno AI: как писать запросы, чтобы нейросеть генерировала нормальную музыку, а не кашу

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели15K

Suno генерирует музыку по текстовому описанию, но без правильной разметки результат — каша. Разобрал систему промптов: метатеги [Verse], [Chorus], [Drop], музыкальные термины для поля Style, рабочие комбинации жанров и то, чего Suno не умеет и не стоит ждать. Готовые шаблоны для копипасты внутри.

Читать далее

Ultimate Drive — компактная китайская реплика овердрайва-компрессора-дисторшна Fulltone OCD

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели11K

Привет, Хабр! В мире электрогитар существует великое множество разнообразных педалей перегруза, но далеко не каждой из них посчастливилось войти в золотой фонд классики жанра.

У Fulltone OCD это получилось. Несмотря на относительную молодость данной модели эффекта, она весьма широко востребована. Аутентичные оригиналы обладают большой коллекционной ценностью, а переиздания, клоны и вариации на тему просто заполонили рынок гитарного оборудования.

Читать далее

Game Boy вместо модуляра: секвенции и синтез

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7K

Это первая статья из серии, про программы для Game Boy (DMG/CGB), эксплуатирующие идеи модульного синтеза и секвенсинга.

Я рассказываю в ней про попытку написать реализацию Rungler Circuit для Nintendo Game Boy.

Читать далее

Ближайшие события

Как мы перестали писать промпты и превратили ИИ в аналоговый синтезатор через PyTorch Hooks

Уровень сложностиСложный
Время на прочтение3 мин
Охват и читатели8.4K

Спойлер: Никаких банальных ИИ-оберток, где текст конвертируется в звук через API. Только хардкорная хирургия нейросетей, кросс-модальные мосты и перехват мыслей LLM в реальном времени.

За последний год Hugging Face превратился в конвейер одинаковых проектов: берем Llama/Gemma, прикручиваем к ней интерфейс на Gradio, называем это стартапом. Мы для нашего виртуального музыкального артиста Livadies решили пойти другим путем. Мы задались вопросом: как звучит чистая мысль нейросети, если не переводить ее в текст? И как звучит математическая геометрия доисторического камня или кожи рептилии?

Чтобы это выяснить, нам пришлось вскрывать архитектуры SOTA-моделей и сшивать их напрямую на уровне тензоров. Вот два наших главных инженерных эксперимента.

Читать далее

Бесплатная нейросеть для генерации музыки локально: ACE-Step 1.5 обходит Suno на бенчмарках

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели14K

Open source модель для генерации музыки, которая на бенчмарке SongEval обходит Suno v5. Работает локально от 4 ГБ VRAM, генерирует полный трек за 2 секунды на A100. Разбираю архитектуру LM + DiT: почему разделение планирования и синтеза даёт такой результат, что реально работает, а что авторы сами называют проблемами.

Читать далее

Pomodoro Music, или свой Pomodoro-таймер для музыки без вайб-кодинга и приложений

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6K

Привет, Habr!

Меня зовут Игорь, я разработчик на удалёнке. И у меня, как и положено серьёзному разработчику, куча входящих сообщений и пиликающих мессенджеров.

Сказать, что заниматся творческой деятельностью в виде написания кода в таких условиях сложно - ничего не сказать.

Сотни уловок и ухищрений, секретных техник концентрации и полноразмерные наушники с активным шумоподалениям привзваны помагать мне выходить в астрал входить в состояния потока и укладыватся в дедлайны.

Идея этой статьи родилась из коментария одного комментария @Xregn к статье Как меньше отвлекаться и прокрастинировать..., где ребята обсуждали идею Pomodoro-таймера для spotify.

Идея проста: заводишь таймер и влючаешь музыку, по истечении времени музыка должна встать на стоп. Супер, если можно слушать музыку с ноута, чтобы не переключать наушники с телефона на ноут и обратно, когда бегаешь по созвонам.

Читать далее

Это не Fender Buck Owens Telecaster, а подделка с Aliexpress

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели17K

Привет, Хабр! Я постоянно обмениваю одни электрогитары на другие, и несколько дней назад поступило предложение приобрести этот красивый телекастер за более практичный и универсальный инструмент с двумя хамбакерами. Разумеется, отказа не последовало, и теперь перед нами предстанет сверкающее изделие лютиеров из Поднебесной.

Времена меняются. Когда-то китайские подделки годились разве что на роль декораций в гостиной или кафе, а на сегодняшнем экземпляре можно играть с большим удовольствием и даже записываться в студии без замены каких-либо комплектующих.

Мой взгляд на моральную сторону вопроса не изменился. Продукцию надо подписывать своей маркой, и тогда придёт честный успех, если не копировать чужие дизайны.

Эту контрафактную гитару мы с вами всесторонне рассмотрим и послушаем, после чего она достанется ученику музыкальной школы и поможет ему в творческих свершениях.

Читать далее

Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели17K

Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло

AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech

Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо? Мне - до зубного скрежета.

Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог.

И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord.

Пошёл искать. И тут началось.

Читать далее

«Теплый» и «объемный» звук по кабелю за $4000 и $7 — есть ли разница? Аудиофильский тест

Время на прочтение5 мин
Охват и читатели21K

В мире аудиотехники уже давно сложилась традиция: чем дороже аксессуар, тем больше ожиданий от него. Энтузиасты готовы выкладывать кругленькие суммы за кабели, обещающие «чистейший сигнал», «теплый звук» и «глубину сцены». При этом простые бюджетные компоненты из магазина часто вызывают у аудиофилов снисходительные улыбки. Такие споры не утихают годами, потому что затрагивают сразу и физику, и психологию восприятия. Недавно один из гиков решил поставить точку в этой дискуссии. Он взял interconnect RCA-кабель за $4500 и сравнил его кабелем за $7. Давайте посмотрим, что получилось, результаты весьма любопытные.

Читать далее

Вся музыка, все фотографии и весь Wi-Fi работают на одном трюке. Ему 200 лет

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели31K

Откройте ваш плейлист и нажмите play на любом треке.

Эта песня попала в ваши наушники благодаря одной идее. Той самой, за которую француза в 1807 году высмеяли на заседании Парижской академии наук. Лаплас был «за», но Лагранж встал и сказал: «Это невозможно.» Француза звали Жан-Батист Жозеф Фурье. Его идея была настолько простой, что учёные отказались ей поверить.

Читать далее
1
23 ...