Обновить
105.93

Звук

Это «ж-ж-ж» неспроста

Сначала показывать
Порог рейтинга

$500 тысяч долларов в месяц заработал разработчик будильника для iPhone. Разработчик выпустил приложение, где просто сделал сигнал в несколько раз громче стандартного решения от Apple. Приложение стало популярным в App Store.

Теги:
+6
Комментарии0

Команда Google Magenta представила экспериментальное приложение Lyria Camera для создания ИИ‑музыки на основе изображения с камеры смартфона. Приложение анализирует видео с камеры и с помощью Gemini описывает сцену текстовыми музыкальными промптами, например, «спокойный городской пейзаж». Эти промпты используются для создания музыки в реальном времени. Приложение подстраивает музыку под кадр и движение в реальном времени. Проект Lyria RealTime создаёт музыку без слов и с частотой 48 Гц. Приложение Lyria RealTime доступно бесплатно в веб‑версии Google AI Studio с иностранных IP‑адресов.

Теги:
0
Комментарии1

Рейтинг лучших наушников на основе тысяч отзывов с Reddit — пользователь платформы собрал темы вроде «лучшие беспроводные наушники» с помощью нейросетей и проанализировал ответы. С огромным отрывом победили AirPods Pro всех поколений, на втором месте обычные AirPods. В списке также оказались Sony WF-1000XM5, Soundcore Liberty 4 и флагманы Bose. В исследовании участвовало около 13 тысяч ответов — отдельно по сабреддиту про наушники и по всему Reddit.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии1

Привычку курения обошли ультразвуком. Учёные доказали, что всего минута прослушивания звуков на определённой частоте отбивает желание закурить. Ещё раз: никаких пластырей, никотиновых спреев и даже вживления чипов в мозг — только минута. Волны звука влияют на «центры удовольствия» в мозге и запускают выброс дофамина за выполнение полезного действия, а не за счёт убийства организма.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии9

В открытом доступе появился реалистичный генератор речи Dia2: создаёт озвучку, которую вообще не отличить от реального голоса, генерит речь в реальном времени. Видео получает озвучку, пока проигрывается. Можно склонировать любой голос, есть множество готовых ИИ-спикеров с разными голосами, тембрами, интонацией и даже акцентами. Создавать можно до двух минут аудио. Нейронка учитывает эмоции: может волноваться, смеяться, запинаться, «жевать» слова.

Модель на HuggingFace.

Код на GitHub.

Демка в вебе.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

OpenAI + Google Studio и немного Python = создаем бесплатную аудиокнигу без лишних заморочек

Ведущая Coral c Openai.fm
Ведущая Coral c Openai.fm

 В своё время моё отношение к аудиокнигам изменилось благодаря легендарному проекту «Модель для сборки» с Владом Коппом. Именно благодаря МДС я понял, что книги можно не только читать, но и прекрасно воспринимать в формате аудио. Аудиоформат даёт возможность знакомиться с произведениями в дороге или во время прогулок. Прекрасно помню времена, как загружал в свой MP3-плеер на 512 МБ выпуски МДС и, вместо того чтобы ехать с работы в тесной маршрутке, устраивал себе полуторачасовые прогулки в компании очередного фантастического рассказа.

Эпоха аудиоизобилия

Сегодня выбор аудиокниг несравним с тем, что было пятнадцать лет назад. В интернете можно найти огромное количество как профессионально озвученных произведений, так и любительских версий. Однако даже при всём этом богатстве выбора нередко встречаются книги, которые до сих пор никто не озвучил.

Например, один из моих любимых циклов — «Зоны мысли» Вернора Винджа. «Пламя над бездной»«Глубина в небе» и «Болтушка» легко найти в сети. А вот заключительную часть — «Дети неба» — увы, никто не озвучил.

Поскольку мы живём в эпоху искусственного интеллекта, решение приходит само собой: если нужной аудиокниги нет — сделай её сам. Требования у меня простые, без претензий:

  1. Качество должно быть приемлемым;

  2. Платить не хочется, поэтому все должно быть полностью бесплатным.

Голос

Вспомнил я про сайт OpenAI FM — демо-площадку голосовой модели gpt-4o-mini-tts . Она звучит естественно и хорошо справляется с русским языком. Выбор из 11 разных дикторов. А так же есть классная фитча - промт инструкции для стиля речи, благодаря чему можно управлять «подачей» — делать её более спокойной, вдохновлённой или нейтральной . Поигравшись с промтами и выбрав голос, переходим к следующему этапу. На сайте можно бесплатно генерировать небольшие аудиофрагменты длиной до 999 символов. Ограничение не стало проблемой. Берем Python + Selenium WebDriver, и получаем программу, которая:

  • делит текст книги на чанки нужной длины,

  • отправляет их на сайт,

  • сохраняет аудиофайлы,

  • затем объединяет всё в одно произведение с помощью FFmpeg.

Результат получился неожиданно достойным. Да, между фрагментами иногда чувствуется разница в тембре, особенно в первые секунды. А ударения не всегда точны и изредка проскакивает лёгкий акцент. Но в целом — получилась полноценная озвученная аудиокнига.

Музыкальная подложка

После того как книга была готова, захотелось добавить фоновую музыку. Можно было просто подобрать подходящий трек, но ради спортивного интереса я решил сгенерировать музыку самостоятельно.

Платные сервисы вроде Suno или Udio я сразу отбросил. Зато вспомнил про Google AI Studio, где в разделе Build есть приложение PromptDJ MIDI. Оно позволяет создавать музыку прямо в браузере — достаточно задать стиль и параметры.

Скопировал прямо в Studio приложение, в промпте указал стиль space ambient и добавил возможность скачивания получившегося трека. Поигравшись с настройками в полученном приложении, получил именно то, что меня устроило.

Оставалось объединить музыкальную дорожку с голосом — снова помог FFmpeg.

Инструменты:

  • OpenAI FM — генерация речи;

  • Google AI Studio (PromptDJ MIDI) — генерация фоновой музыки;

  • Python + Selenium + FFmpeg — автоматизация и сборка.

Затраты: 0 долларов и несколько часов времени.

Итог: Получилась аудиокнига приличного качества с музыкальным сопровождением. Конечно, это не уровень профессиональных дикторов , но для личного использования — IMHO более чем достойно. Плюс абсолютно бесплатно.

Теги:
Всего голосов 8: ↑7 и ↓1+7
Комментарии22

Представлен музыкальный сервис OpenSpot Music с треками со многих стримингов с высоким качеством музыки. Алгоритмы подборки помогут найти новые песни, можно собрать собственные плейлисты.

Теги:
Рейтинг0
Комментарии0

Представлен проект Chatterbox Multilingual, который умеет бесплатно клонировать любой голос с короткой записи. Решение умеет озвучивать любой текст с эмоциями, поддерживает 23 языка, среди которых и русский. Также там можно расставлять акценты, делать паузы, выделять слова голосом, контролировать тон и тембр. А ещё есть библиотека голосов, которые можно использовать в проектах.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Учёный нашёл мелодию, которая усиливает вкус шоколада — с ней плитка прямо тает во рту, доставляя неописуемое наслаждение. Гений-сладкоежка воспользовался исследованиями за 60 лет, который доказывают — правильный темп, высота тона, скорость и тональность могут обманывать мозг и влиять на вкусовые рецепторы. В итоге это вылилось в трек «Galaxy Sweetest Melody».

Теги:
Всего голосов 4: ↑2 и ↓2+2
Комментарии3

Представлен сервис Strudel, который превращает строки кода в мелодии. В качестве основы используется — JS, по этому гайду можно сделать любую композицию из кода. Если есть синтезатор или целый музыкальный сетап, то его можно забустить через MIDI или OSC.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Команда Riffusion выпустила музыкального ИИ-агента Producer, который генерить музыку прямо в чате, работает с готовым текстом или сам набросает его из идей пользователя, усиливает или убирает нужный/ненужный инструмент, генерит красивые обложки, может написать код для визуализатора под песню, создаёт целые музыкальные клипы, в один клик делает ремиксы: reverb, slowed или dark synth.

Теги:
Рейтинг0
Комментарии0

Во время китайского музыкального фестиваля человекоподобный робот по имени «Адам» появился на сцене, представив собой нечто среднее между перформансом и маркетинговым ходом. Он был наполовину замаскирован в свободную толстовку с капюшоном, которая плохо скрывала его механические ноги и руки, что ясно показывало, что это действительно робот.

«Адам» был в длинной маске и кроссовка в стиле Yeezy, но, будем честны, без штанов. Он играл на клавиатурном синтезаторе вместе с виртуозным барабанщиком и певцом Ху Юйтуном и его группой на музыкальном фестивале VOYAGEX в Чанчуне, Китай.

Эта модель Adam-SP весит около 60 кг и производится китайским стартапом PNDbotics.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Представлен бесплатный сервис для транскрибации аудио и видосов в текст — TranscribeAI. Система вытащит текст из любого медиа, даже если там много помех. Внутри — Whisper от OpenAI. Поддерживает больше 100 языков и знает русский. Принимает файлы до 4 ГБ во всех популярных форматах — MP3, WAV, MP4, AVI, MOV, MKV. Перегоняет всё в текстовый файл, расставляет таймкоды и маркеры. Может создать субтитры в формате SRT.

Теги:
Всего голосов 3: ↑1 и ↓20
Комментарии13

Ближайшие события

Представлен расслабляющий трек, который за несколько минут убирает любую тревожность и депрессию — это эмбиент-композиция Weightless британской группы Marconi Union. Инструментал готовили вместе с командой звукотерапевтов, чтобы замедлить реакцию организма на стресс. Трек полностью повторяет сердцебиение человека — тело подстраивается под ритм и ловит релакс.

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии5

Релизнулся бесплатный и без регистрации загрузчик видео с Youtube — Cliply, который может скачать любой ролик в высоком качестве, любые отрезки и клипы по нужным таймингам.

Теги:
Всего голосов 5: ↑5 и ↓0+7
Комментарии2

Некто Broksh опубликовал видеоролик, где пенсионерка демонстрирует необычного домашнего питомца. В типичной пятиэтажке старушка содержит гиппопотама. Понятно, что это ещё одна демонстрация недавно вышедшей модели генерации видео со звуком Google Veo 3.

Нелегко оценить конкретные человеческие усилия, приложенные для создания этого видеоролика. Broksh — это не человек, а целый продакшн полного цикла с опытом работы в съёмках реалити-шоу, клипов, рекламы и коротких фильмов. Если судить по шоурилам студии (1, 2), навыков вполне хватает на сложную композицию, VFX, CGI и прочий постпродакшн. Вполне возможно, что творчество генеративных моделей Veo 3 или Sora было сильно доработано человеческими руками.

В комментариях автор видеоролика признаётся, что пришлось правильно составить промпты для модели, расставить кадры, прописать текст и интонации несуществующих актёров. Также указывается, что были дополнительно доработаны звук, цветокоррекция и постпродакшн в целом.

Бегемот Булька легко оттягивает на себя всё внимание зрителя, но огрехи работы ИИ всё равно заметны. Внимательный глаз зацепится за то, что старушка меняется от сцены к сцене: то она чуть выше, то её лицо становится другим. В одном случае хозяйка нарушает правила геометрии и достаёт из холодильника нереалистично огромный пластиковый таз, набитый игрушками Labubu — «трендами» для питомца. При этом таз издаёт совсем не похожий на пластик звук. Также по показанному нет никакой возможности хоть как-то оценить геометрию квартиры. Выглядит даже так, будто в квартире две кухни.

Иногда угадываются промпты, всем требованиям которых ИИ пытался удовлетворить. В одном из кадров бабулька едет в магазин, оседлав гиппопотама. При этом заметны сразу два одноэтажных здания магазинов и излишне близко стоящие, в нарушение любых строительных норм, жилые многоквартирные дома. Очевидно, что в реальной жизни значительную площадь крупного двора между домами занимала бы детская площадка, а продуктовые магазины так близко не встречаются и часто располагаются на первых этажах жилых домов.

Наконец, в средней полосе подсолнухи начинают цвести в лучшем случае в конце июня, а вот у героини клипа они украшают подоконник кухни, из окна которого почему-то видны сугробы. В некоторых сценах обычно изображено подобие начала мая с его голыми ветвями деревьев и едва проросшей травой, хотя иногда листва уже есть.

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии8

Музыкант и композитор Moby выложил 500 своих треков в свободный доступ — их можно бесплатно использовать в кино, рекламе, играх и ремиксах без лицензий и авторских отчислений. По словам самого музыканта, он просто хочет увидеть, что из этого сделают креативные люди. В ближайшее время Moby опубликует ещё около 1000 треков.

Теги:
Всего голосов 8: ↑8 и ↓0+9
Комментарии5

Группа OK Go использовала 29 роботов и более 60 зеркал для съемок своего нового музыкального клипа на песню под названием Love, в котором использованы калейдоскопические эффекты. Снимали клип в течение двух дней на заброшенном железнодорожном вокзале Будапешта. Всего было сделано 39 дублей, а сорежиссером выступил Дамиан Кулаш из OK Go, который также написал песню.

Теги:
Рейтинг0
Комментарии1

Apple выпустила в Apple Online Store в продажу аудиокабель с USB-C на 3,5 мм, который позволяет слушать музыку в lossless-качестве через AirPods Max.

При подключении к AirPods Max кабель также обеспечивает сверхнизкую задержку, что полезно для игр и создания контента.

Кроме того, кабель "USB-C to 3.5 mm Audio Cable" совместим с наушниками Beats Studio Pro и любыми устройствами с аудиоразъёмом 3,5 мм.

Стоимость кабеля составляет $39 (~3200 рублей), он имеет длину 1,2 метра.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии2

Вклад авторов