Обновить
256K+

Звук

Это «ж-ж-ж» неспроста

144,09
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Как утки с СДВГ довели меня до опенсорса: зачем я собрал утилиту для перевода коротких видео на домашней видеокарте

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели3.7K

Всем привет! Листал ленту тиктока и попался американский ролик про СДВГ, где всё объясняют на утках. Понравилось. И я подумал: классно было бы сделать такой же тикток, только на русском.

Но я ленивый. Снимать, писать сценарии, делать всё с нуля - это скучно. А вот взять готовый ролик и перевести-переозвучить его на русский - вот это уже интересно, подумал я, а потом задумался, о том, как это автоматизировать. Это оказалось интересной инженерной задачей, которая увлекла меня на неделю времени, и привела к созданию ИИ утилиты с открытым исходным кодом. А тикток с утками я так и не создал...

Читать далее

Новости

Погружаем модели в сказки русские, да рассказы древние – тестируем возможности Qwen и Whisper на дореволюционномъ

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели9.1K

Хотите не забывать детали диалога или то, что вас просили купить в магазине? Конечно, можно по старинке открывать блокнот в телефоне или чат в избранном и записывать все руками, но в потоке задач это неудобно. Гораздо проще надиктовать мысли голосом или записать разговор, а расшифровку доверить сервису. 

Сегодня ASR-системы нового поколения способны учитывать контекст беседы и выдавать осмысленный текст. Однако у любой медали есть обратная сторона — архитектурные ограничения. Чтобы понять, готовы ли эти модели к жизненным сценариям, мы устроили им бенчмарк на Hugging Face. Ниже — разбор того, ломается ли контекстное окно алгоритмов на длинных видеозаписях и как фоновый шум влияет на итоговое качество транскрибации.

Читать далее

Как создать ИИ‑ассистента на кодовой базе компании: опыт команды музыкального сервиса Звук

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.4K

Если в компании уже используются AI‑инструменты, она может быстрее и дешевле производить свой продукт и, следовательно, давать более конкурентные цены. Конечно же, потребитель выберет производителя с AI.

Тогда возникает идея разработать некий механизм, который обладает всеми приватными знаниями организации. Это может быть Confluence, дата хаб, трекер задач и так далее. В этой статье будем разбираться именно на примере кода.

Читать далее

История о музыкальном центре из 2000-х, Philips MC-30

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели8.7K

Всем привет!

Продолжу рассказ о забытой многими аудиоаппаратуре прошлого, и если в первой публикации я рассказал о магнитоле Sharp WQ-234, то на этот раз в моих руках оказался музыкальный центр Philips MC-30, симпатичный малыш начала 2000-х годов.

Читать далее

Бесплатное lo-fi радио + живые обои на рабочий стол: собрал десктоп-приложение на Tauri 2 (форк lofi-engine)

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.4K

Я хотел одну простую вещь: чтобы на втором мониторе тихо играло lo-fi, а за виджетами крутилась уютная анимированная сцена. Готового решения не нашлось — зато нашёлся чужой MIT-проект, у которого я в итоге выкинул главный модуль и собрал из остатков совсем другой продукт. Это девлог о том, что я удалил, что добавил и на каких граблях потанцевал.

Под задачу подходящих инструментов хватало, но каждый закрывал только часть. Wallpaper Engine — живые обои, но без радио. Lofi.co — музыка в браузере, но не обои рабочего стола. Noisli — эмбиент, но без всего остального. Покупать три подписки ради фона под код было жалко, поэтому я полез на GitHub смотреть, что можно собрать самому.

Нашёл meel-hd/lofi-engine под MIT — аккуратный Tauri-проект со встроенным генеративным движком, который синтезировал lo-fi прямо в браузерном рантайме. Идея красивая, но мне быстро стало понятно, что я хочу совсем другого продукта. Так появился форк, который я в итоге назвал LoFiTyan.

Читать далее

Ну и пригодились тебе твои синусы?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели30K

Честный ответ: писать sin(x) руками в работе приходится далеко не всем. Подавляющему большинству — вообще никогда. И даже там, где синус трудится явно — в DSP, графике, геодезии — он давно спрятан за библиотеками: вы вызываете fft(), rotate(), routeTo(), а тригонометрию за вас написали тридцать лет назад.

Так что если вопрос — «набирал ли ты когда-нибудь s-i-n на клавиатуре за деньги», у тригонометрии всё плохо.

Крутить ползунки

Как мы собрали рок‑группу, не уходя из ИТ: опыт пяти лет

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели8.5K

Остается час до окончания обычного рабочего дня в ИТ‑офисе. Работники организации смотрят в мониторы. Бегают задачи. Горят дедлайны. Кто‑то пишет код, кто‑то ищет баги. И в этой обычной, предсказуемой вселенной, есть пять человек, которые вдруг, получив сообщение в закрытом чате, — улыбаются. Они мысленно уже не здесь. Они уже на репетиции.

Да, это мы, мы — рок‑группа.

Вернее мы играем ту музыку, которая нам больше всего нравится. С тем звучанием, которое мы выбрали для себя. По жанрам — ближе всего к року. Но, честно говоря, границы между жанрами давно стерлись. В попсе есть роковые приемы, в роке элементы рэпа. И это неважно.

Важно другое: «Зачем айтишнику рок‑группа?»

Именно на этот вопрос мы попробуем ответить в рамках данной статьи. Расскажем, как мы создавали группу, с какими проблемами столкнулись и сколько денег потратили на хобби, когда можно было просто купить PlayStation.

Зажать пачку

Неочевидные проблемы в Text‑to‑Speech, о которых редко говорят

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8.5K

Когда приходишь в Text-to-Speech из классического ML (или даже из CV/NLP), сначала кажется, что всё знакомо: датасет, модель, loss, валидация, поехали. А потом довольно быстро ловишь себя на мысли, что что-то тут не так.

А что не так-то?

Безымянный китайский телекастер

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели13K

Привет, Хабр! Этот весьма приятный экземпляр из Поднебесной достался мне в обмен на пару педалей эффектов, задержался всего на несколько дней, сильно понравился знакомому музыканту и был обменян на другой интересный инструмент.

Однако остались впечатления, видео и фотографии, которыми я с вами сейчас поделюсь.

Читать далее

Звуки музыки советских ПЭВМ

Уровень сложностиПростой
Время на прочтение21 мин
Охват и читатели17K

Я часто пишу про звук и музыку на старых компьютерах и в ранних видеоиграх. Но, как правило, это касается зарубежной техники, и тому есть простая причина: звук там в принципе есть, и весьма разнообразный. А вот в отечественной компьютерной технике с ним туго. Но сегодня для разнообразия погрузимся именно в эту альтернативную реальность: звуковые возможности советских «бытовых», то есть недорогих персональных компьютеров.

Зарубежные компьютеры уже с начала времён могли предложить какую-никакую звуковую палитру и полифонию, сопровождая действие на экране интересными эффектами и простенькими мелодиями. Игры же на отечественных ПК не только смотрелись бледнее визуально, но и в массе своей могли ответить лишь невнятным потрескиванием. Почему так произошло и могло ли быть иначе? Попробуем разобраться!

Читать далее

Рояль на даче: использую ПЛК на Linux как real-time-синтезатор фортепиано

Уровень сложностиСложный
Время на прочтение14 мин
Охват и читатели14K

Я играю на пианино с детства. Классика, саундтреки, импровизации – репертуар меняется, но привычка спонтанно сесть за клавиши остается. Лучший способ отдохнуть, переключить голову после сложной работы или вообще просто так!  На моей домашней рабочей станции установлен профессиональный синтезатор фортепиано Pianoteq от Modartt — он полностью меня устраивает: не только реалистичностью звучания, но и возможностью экспериментировать со звуком.

Достаточно давно  я собрал умную дачу на базе ПЛК под Linux и даже написал об этом статью. Контроллер исправно управляет освещением, водоснабжением и отоплением. Потом я прочитал статью о запуске Doom на этом контроллере и задумался: смогу ли приспособить его под свое хобби? Получится ли играть на даче не хуже, чем дома? 

Doom — задача хоть и культовая, но все-таки относительно простая. А справится ли контроллер с real-time-синтезом аудио? Здесь недостаточно просто воспроизводить заранее записанный звук — нужно в реальном времени рассчитывать его по физической модели инструмента. 

Сборки Pianoteq существуют под разные архитектуры, но чаще всего его используют на студийных Mac и рабочих станциях — на сцене, в студиях и при работе над киномузыкой.

Итак, для своего эксперимента я привез на дачу USB-ЦАП, MIDI-клавиатуру с педалью и подключил их к контроллеру…

Читать далее

Как я делал бесплатное приложение для своей группы прославления

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.7K

Это история про то, как боль из реальной жизни превращается в код. Без стартап-питчей, без «мы дизраптим рынок», без раунда инвестиций. Просто человек, который двадцать лет назад писал на PHP, вернулся к коду — и довёл проект до рабочего состояния, потому что иначе его команда так и продолжала бы путаться на служениях.

Приложение называется Prayer & Worship. Оно бесплатное — и остаётся таким для всего, что нужно команде на служении. Ниже расскажу, как оно появилось, на чём держится и где проходит та единственная граница, за которой бесплатно уже не получится.

Читать далее

Нейронные аудиокодеки: мощное сжатие звука с помощью LLM

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели15K

В июле 2024 года французская компания Kyutai опубликовала речевую модель Moshi с нейронным аудиокодеком Mimi. Это был первый в мире голосовой end-to-end AI с открытыми исходниками, способный вести диалог в реальном времени и свободный для использования всеми желающими, демо.

Вместо прямого предсказания сэмплов аудиокодек работает в три этапа:

1. Токенизация звука.

2. Предсказание следующих токенов в LLM.

3. Восстановление оригинала.

Читать далее

Ближайшие события

Удачная находка в комиссионном магазине

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели23K

Привет, Хабр! Сегодня мы сможем всесторонне рассмотреть и послушать один из лучших синглкатов, с которыми мне когда-либо приходилось иметь дело.

Модель называется Clevan CP-100, и в настоящее время она снята с производства. Скорее всего, это произошло по причине её высокой себестоимости.

Вот так повезло!

«Яндекс» выпустил «Дропс» — наушники с Алисой: как они работают и чего им не хватает

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели12K

В продажу поступил новый гаджет «Яндекс Дропс» — наушники со встроенной Алисой AI. Это первое носимое устройство компании с Алисой. AI-ассистент в наушниках записывает идеи, мысли, напоминания и задачи в «Мою память», чтобы ничего не забыть.

Читать далее

Как сделать свой сервис распознавания голоса вместо PLAUD и закрытых ИИ-диктофонов

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.5K

Звук сегодня является важным интерфейсом. Работа с чат-ботом своей "ИИшечки" упрощается в разы. Кроме того, помимо вайб-кодинга - есть еще и обычная жизнь - с совещаниями, лекциями, собраниями, которых столько, что не успеваешь фиксировать все, о чем было обсуждение. С этими мыслями, а также увидев потрясающий по своей внешней эстетике приборчик - был заказан ИИ-диктофон PLAUD. Но. Ограничения для России такие, что заплатить за сервис (ок 20 тыс. руб.) - не получилось. Но, уже появилось желание и даже потребность в удобном цифровом распознавании. Конечно, были установлены все простые приложения на телефон, а также распознавание в Telegram, но все это было не то. Сформилировал требования, которые у меня есть:

Читать далее

Акустика гибридного офиса: как подобрать и расставить микрофоны, чтобы слышать голос, а не посторонний шум

Время на прочтение8 мин
Охват и читатели9.4K

Привет, Хабр! Я Дмитрий Белозеров из МТС Линк, моя команда отвечает за ПО и оборудование для переговорных комнат и сервис Rooms. Одна из задач, которую компании часто решают по-разному, — это расположение микрофонов в переговорной комнате. Цель кажется простой: добиться классного звука без помех, лишнего шума и эха. Но вы замечали, что после часового видеозвонка из красивой стеклянной переговорки команда жалуется на усталость, а удаленные коллеги не могут вспомнить, о чем шла речь? Проблема почти всегда кроется не в плохом интернете, а в звуке. 

Взяв за основу свой опыт и экспертизу коллег — руководителей проектов МТС Линк Олега Бурдяка и Андрея Чернова, расскажу, какие типы микрофонов бывают, как помещение влияет на акустику и что делать, чтобы снизить уровень шума. Вы узнаете, как быстро проверить реверберацию без сложных приборов, куда размещать звуковые панели и как заставить комнату из бетона и стекла, чтобы она зазвучала почти как профессиональная студия.

Читать дальше

Pwnd Blaster: беспроводной взлом компьютера через саундбар

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели17K

В своём предыдущем посте я рассказывал о реверс-инжиниринге прошивки моего нового Creative Sound Blaster Katana V2X.

То, что начиналось как попытка написать Linux-инструмент для общения с саундбаром, закончилось обнаружением уязвимостей, позволяющих любому нападающему в радиусе примерно 15 метров от Katana V2X превратить его в шпионское устройство и Rubber Ducky без необходимости сопряжения или физического контакта с оборудованием.

Читать далее

Я перестал доверять стримингам. Поэтому написал свой iOS-плеер — с CarPlay и без вранья про звук

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.9K

Я перестал верить стримингам. Не философски, а практически. Половина любимых альбомов либо ушла из каталогов, либо вернулась пересведенной так, что слушать тошно. Концертные записи, винил-рипы, региональные релизы — их там и не было. А моя коллекция в FLAC просто лежит на диске и никуда не девается.

Для своей коллекции я написал плеер. Для себя. Через полгода это превратилось в нишевое приложение для iOS на 11 языках: с собственным DSP, распознаванием музыки, онлайн радио и CarPlay.

Что в итоге внутри и где было не очевидно. Места, в которых документация молчит, а ты сидишь и гадаешь, почему оно вообще так себя ведет.

Читать далее

Насколько обоснован хайп вокруг электрогитар марки JET, и при чём здесь ИИ?

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели19K

Привет, Хабр! Меня попросили доработать кастомизированный телекастер JET JT-300 SB. Сейчас мы его рассмотрим и послушаем, а заодно научимся делать автоотсечку хамбакера стандартным трёхпозиционным переключателем и корректировать звучание датчиков простыми пассивными фильтрами.

Последнее позволяет не только сэкономить на приобретении новых фирменных звукоснимателей, но и разнообразить палитру звучаний инструмента.

Под катом вы увидите 12-струнный баc!
1
23 ...