Обновить
109.36

Звук

Это «ж-ж-ж» неспроста

Сначала показывать
Порог рейтинга

OpenAI + Google Studio и немного Python = создаем бесплатную аудиокнигу без лишних заморочек

Ведущая Coral c Openai.fm
Ведущая Coral c Openai.fm

 В своё время моё отношение к аудиокнигам изменилось благодаря легендарному проекту «Модель для сборки» с Владом Коппом. Именно благодаря МДС я понял, что книги можно не только читать, но и прекрасно воспринимать в формате аудио. Аудиоформат даёт возможность знакомиться с произведениями в дороге или во время прогулок. Прекрасно помню времена, как загружал в свой MP3-плеер на 512 МБ выпуски МДС и, вместо того чтобы ехать с работы в тесной маршрутке, устраивал себе полуторачасовые прогулки в компании очередного фантастического рассказа.

Эпоха аудиоизобилия

Сегодня выбор аудиокниг несравним с тем, что было пятнадцать лет назад. В интернете можно найти огромное количество как профессионально озвученных произведений, так и любительских версий. Однако даже при всём этом богатстве выбора нередко встречаются книги, которые до сих пор никто не озвучил.

Например, один из моих любимых циклов — «Зоны мысли» Вернора Винджа. «Пламя над бездной»«Глубина в небе» и «Болтушка» легко найти в сети. А вот заключительную часть — «Дети неба» — увы, никто не озвучил.

Поскольку мы живём в эпоху искусственного интеллекта, решение приходит само собой: если нужной аудиокниги нет — сделай её сам. Требования у меня простые, без претензий:

  1. Качество должно быть приемлемым;

  2. Платить не хочется, поэтому все должно быть полностью бесплатным.

Голос

Вспомнил я про сайт OpenAI FM — демо-площадку голосовой модели gpt-4o-mini-tts . Она звучит естественно и хорошо справляется с русским языком. Выбор из 11 разных дикторов. А так же есть классная фитча - промт инструкции для стиля речи, благодаря чему можно управлять «подачей» — делать её более спокойной, вдохновлённой или нейтральной . Поигравшись с промтами и выбрав голос, переходим к следующему этапу. На сайте можно бесплатно генерировать небольшие аудиофрагменты длиной до 999 символов. Ограничение не стало проблемой. Берем Python + Selenium WebDriver, и получаем программу, которая:

  • делит текст книги на чанки нужной длины,

  • отправляет их на сайт,

  • сохраняет аудиофайлы,

  • затем объединяет всё в одно произведение с помощью FFmpeg.

Результат получился неожиданно достойным. Да, между фрагментами иногда чувствуется разница в тембре, особенно в первые секунды. А ударения не всегда точны и изредка проскакивает лёгкий акцент. Но в целом — получилась полноценная озвученная аудиокнига.

Музыкальная подложка

После того как книга была готова, захотелось добавить фоновую музыку. Можно было просто подобрать подходящий трек, но ради спортивного интереса я решил сгенерировать музыку самостоятельно.

Платные сервисы вроде Suno или Udio я сразу отбросил. Зато вспомнил про Google AI Studio, где в разделе Build есть приложение PromptDJ MIDI. Оно позволяет создавать музыку прямо в браузере — достаточно задать стиль и параметры.

Скопировал прямо в Studio приложение, в промпте указал стиль space ambient и добавил возможность скачивания получившегося трека. Поигравшись с настройками в полученном приложении, получил именно то, что меня устроило.

Оставалось объединить музыкальную дорожку с голосом — снова помог FFmpeg.

Инструменты:

  • OpenAI FM — генерация речи;

  • Google AI Studio (PromptDJ MIDI) — генерация фоновой музыки;

  • Python + Selenium + FFmpeg — автоматизация и сборка.

Затраты: 0 долларов и несколько часов времени.

Итог: Получилась аудиокнига приличного качества с музыкальным сопровождением. Конечно, это не уровень профессиональных дикторов , но для личного использования — IMHO более чем достойно. Плюс абсолютно бесплатно.

Теги:
+7
Комментарии22

Представлен музыкальный сервис OpenSpot Music с треками со многих стримингов с высоким качеством музыки. Алгоритмы подборки помогут найти новые песни, можно собрать собственные плейлисты.

Теги:
Рейтинг0
Комментарии0

Представлен проект Chatterbox Multilingual, который умеет бесплатно клонировать любой голос с короткой записи. Решение умеет озвучивать любой текст с эмоциями, поддерживает 23 языка, среди которых и русский. Также там можно расставлять акценты, делать паузы, выделять слова голосом, контролировать тон и тембр. А ещё есть библиотека голосов, которые можно использовать в проектах.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Учёный нашёл мелодию, которая усиливает вкус шоколада — с ней плитка прямо тает во рту, доставляя неописуемое наслаждение. Гений-сладкоежка воспользовался исследованиями за 60 лет, который доказывают — правильный темп, высота тона, скорость и тональность могут обманывать мозг и влиять на вкусовые рецепторы. В итоге это вылилось в трек «Galaxy Sweetest Melody».

Теги:
Всего голосов 4: ↑2 и ↓2+2
Комментарии3

Представлен сервис Strudel, который превращает строки кода в мелодии. В качестве основы используется — JS, по этому гайду можно сделать любую композицию из кода. Если есть синтезатор или целый музыкальный сетап, то его можно забустить через MIDI или OSC.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Команда Riffusion выпустила музыкального ИИ-агента Producer, который генерить музыку прямо в чате, работает с готовым текстом или сам набросает его из идей пользователя, усиливает или убирает нужный/ненужный инструмент, генерит красивые обложки, может написать код для визуализатора под песню, создаёт целые музыкальные клипы, в один клик делает ремиксы: reverb, slowed или dark synth.

Теги:
Рейтинг0
Комментарии0

Во время китайского музыкального фестиваля человекоподобный робот по имени «Адам» появился на сцене, представив собой нечто среднее между перформансом и маркетинговым ходом. Он был наполовину замаскирован в свободную толстовку с капюшоном, которая плохо скрывала его механические ноги и руки, что ясно показывало, что это действительно робот.

«Адам» был в длинной маске и кроссовка в стиле Yeezy, но, будем честны, без штанов. Он играл на клавиатурном синтезаторе вместе с виртуозным барабанщиком и певцом Ху Юйтуном и его группой на музыкальном фестивале VOYAGEX в Чанчуне, Китай.

Эта модель Adam-SP весит около 60 кг и производится китайским стартапом PNDbotics.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Представлен бесплатный сервис для транскрибации аудио и видосов в текст — TranscribeAI. Система вытащит текст из любого медиа, даже если там много помех. Внутри — Whisper от OpenAI. Поддерживает больше 100 языков и знает русский. Принимает файлы до 4 ГБ во всех популярных форматах — MP3, WAV, MP4, AVI, MOV, MKV. Перегоняет всё в текстовый файл, расставляет таймкоды и маркеры. Может создать субтитры в формате SRT.

Теги:
Всего голосов 3: ↑1 и ↓20
Комментарии13

Представлен расслабляющий трек, который за несколько минут убирает любую тревожность и депрессию — это эмбиент-композиция Weightless британской группы Marconi Union. Инструментал готовили вместе с командой звукотерапевтов, чтобы замедлить реакцию организма на стресс. Трек полностью повторяет сердцебиение человека — тело подстраивается под ритм и ловит релакс.

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии5

Релизнулся бесплатный и без регистрации загрузчик видео с Youtube — Cliply, который может скачать любой ролик в высоком качестве, любые отрезки и клипы по нужным таймингам.

Теги:
Всего голосов 5: ↑5 и ↓0+7
Комментарии2

Некто Broksh опубликовал видеоролик, где пенсионерка демонстрирует необычного домашнего питомца. В типичной пятиэтажке старушка содержит гиппопотама. Понятно, что это ещё одна демонстрация недавно вышедшей модели генерации видео со звуком Google Veo 3.

Нелегко оценить конкретные человеческие усилия, приложенные для создания этого видеоролика. Broksh — это не человек, а целый продакшн полного цикла с опытом работы в съёмках реалити-шоу, клипов, рекламы и коротких фильмов. Если судить по шоурилам студии (1, 2), навыков вполне хватает на сложную композицию, VFX, CGI и прочий постпродакшн. Вполне возможно, что творчество генеративных моделей Veo 3 или Sora было сильно доработано человеческими руками.

В комментариях автор видеоролика признаётся, что пришлось правильно составить промпты для модели, расставить кадры, прописать текст и интонации несуществующих актёров. Также указывается, что были дополнительно доработаны звук, цветокоррекция и постпродакшн в целом.

Бегемот Булька легко оттягивает на себя всё внимание зрителя, но огрехи работы ИИ всё равно заметны. Внимательный глаз зацепится за то, что старушка меняется от сцены к сцене: то она чуть выше, то её лицо становится другим. В одном случае хозяйка нарушает правила геометрии и достаёт из холодильника нереалистично огромный пластиковый таз, набитый игрушками Labubu — «трендами» для питомца. При этом таз издаёт совсем не похожий на пластик звук. Также по показанному нет никакой возможности хоть как-то оценить геометрию квартиры. Выглядит даже так, будто в квартире две кухни.

Иногда угадываются промпты, всем требованиям которых ИИ пытался удовлетворить. В одном из кадров бабулька едет в магазин, оседлав гиппопотама. При этом заметны сразу два одноэтажных здания магазинов и излишне близко стоящие, в нарушение любых строительных норм, жилые многоквартирные дома. Очевидно, что в реальной жизни значительную площадь крупного двора между домами занимала бы детская площадка, а продуктовые магазины так близко не встречаются и часто располагаются на первых этажах жилых домов.

Наконец, в средней полосе подсолнухи начинают цвести в лучшем случае в конце июня, а вот у героини клипа они украшают подоконник кухни, из окна которого почему-то видны сугробы. В некоторых сценах обычно изображено подобие начала мая с его голыми ветвями деревьев и едва проросшей травой, хотя иногда листва уже есть.

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии8

Музыкант и композитор Moby выложил 500 своих треков в свободный доступ — их можно бесплатно использовать в кино, рекламе, играх и ремиксах без лицензий и авторских отчислений. По словам самого музыканта, он просто хочет увидеть, что из этого сделают креативные люди. В ближайшее время Moby опубликует ещё около 1000 треков.

Теги:
Всего голосов 8: ↑8 и ↓0+9
Комментарии5

Ближайшие события

Группа OK Go использовала 29 роботов и более 60 зеркал для съемок своего нового музыкального клипа на песню под названием Love, в котором использованы калейдоскопические эффекты. Снимали клип в течение двух дней на заброшенном железнодорожном вокзале Будапешта. Всего было сделано 39 дублей, а сорежиссером выступил Дамиан Кулаш из OK Go, который также написал песню.

Теги:
Рейтинг0
Комментарии1

Apple выпустила в Apple Online Store в продажу аудиокабель с USB-C на 3,5 мм, который позволяет слушать музыку в lossless-качестве через AirPods Max.

При подключении к AirPods Max кабель также обеспечивает сверхнизкую задержку, что полезно для игр и создания контента.

Кроме того, кабель "USB-C to 3.5 mm Audio Cable" совместим с наушниками Beats Studio Pro и любыми устройствами с аудиоразъёмом 3,5 мм.

Стоимость кабеля составляет $39 (~3200 рублей), он имеет длину 1,2 метра.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии2

🗓 04.03.1955 — Выпуcк первых кapмaнных тpaнзиcтopных paдиoпpиeмников [вехи_истории]

В этот день малоизвестная в то время японская компания Sony начала выпуск первых карманных транзисторных радиоприемников, открыв новую эпоху в портативной электронике. Эти устройства стали революцией, поскольку были компактными, энергоэффективными и доступными, в отличие от громоздких ламповых радиоприемников, использовавшихся до этого.

🗓 04.03.1955 - Выпуcк первых кapмaнных тpaнзиcтopных paдиoпpиeмников
🗓 04.03.1955 — Выпуcк первых кapмaнных тpaнзиcтopных paдиoпpиeмников

Первые модели, такие как Sony TR-55 и TR-63, быстро завоевали популярность, особенно в США, сделав радио мобильным и персональным. Успех транзисторных радиоприемников способствовал превращению Sony в ведущего производителя бытовой электроники и заложил основы для будущих инноваций, включая кассетные плееры Walkman и цифровые гаджеты.

📝 Пишите в комментарии или кидайте картинкой — какой был ваш первый плеер? Был ли это кассетник или сразу iPod?

💙 И ставьте лайк, если хотите увидеть ролик про компанию Sony)

Теги:
Всего голосов 5: ↑5 и ↓0+10
Комментарии2

Из комментариев к статье о гитарном тюнере выяснилось, что многие НЕ верят, что можно вычислять ОЧЕНЬ ТОЧНО частоту синусоидального сигнала по очень небольшому количеству отсчетов не равному степени двойки для FFT и намного точнее чем FFT на том же количестве отсчетов и том же временном интервале накопления данных. Например, ошибка определения частоты может быть 0.05 Гц при небольшом количестве отсчетов на интервале 0.1 сек (FFT дало бы ошибку в 10 Гц = 1/0.1 сек) . Однако, кажется, это возможно. Вот ссылка на мой код на Python (>>исходник) (в телеграм) Коллеги, прошу проверить код, возможно я где-то ошибся.

Actual frequency: 5.77 Hz Estimated frequency: 5.769999999999999 Hz Frequency estimation error: 8.881784197001252e-16 Hz
Actual frequency: 5.77 Hz Estimated frequency: 5.769999999999999 Hz Frequency estimation error: 8.881784197001252e-16 Hz

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии11

🗓 19.02.1878 - Запатентован фонограф [вехи_истории]

Томас Эдисон получил патент на фонограф – первое устройство для записи и воспроизведения звука. Этот прорыв стал основой для развития всей звукозаписывающей индустрии. В отличие от более поздних граммофонов, фонограф использовал вращающийся цилиндр, покрытый фольгой, на котором игла оставляла звуковые дорожки. При обратном движении игла считывала эти колебания и воспроизводила звук.

🗓 19.02.1878 - Запатентован фонограф
🗓 19.02.1878 - Запатентован фонограф

Изобретение фонографа вызвало огромный интерес и открыло новые возможности для науки, развлечений и связи. В последующие годы технология усовершенствовалась, появились граммофоны и виниловые пластинки, но именно работа Эдисона заложила основу для современных аудиоустройств – от магнитофонов до цифровых плееров.

💙 Ставим лайк, если хотите ролик про аудиоиндустрию. Знаю, что уже кое-что в работе, но чем больше лайков - тем это приближает ролик)

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Увеличиваем точность БПФ. Изобретаем алгоритм для Гитарного Тюнера и оценки точности пения нот вокалистами. Это анонс статьи в разработке. Подписывайтесь на мой профиль на Хабре, чтобы не пропустить статью. Или присоединяйтесь к моей "телеге". Кратко: точности и быстродействия классического БПФ не хватает для точной и быстрой оценки частоты сигнала. Ищем и изучаем другие алгоритмы. Да, я знаю много китайских маленьких приборчиков и прищепок на гитару с весьма точной настройкой, но интересно разобраться как это достигается. Напишите в комментариях какие более точные алгоритмы определения частоты сигнала вы знаете? (я уже нашел несколько, сейчас тестирую, смотрите изображение ниже) На графиках амплитудный спектр суммы 7 синусоид с близкими частотами, интервал наблюдения 0.1 секунды, частота дискретизации 22050 Гц, как видите классический БПФ ошибается и даже не все синусы видит, а альтернатива дает меньшую ошибку и все синусы увидела. Вертикальные красные линии это реально находящиеся в тестовом сигнале синусоиды. Их частоты написаны над верхней границей графиков.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии38

По итогам жарких обсуждений и критики по поводу медленного кода и плохого fps в тесте вывода на экран графика sin()+noise для Matplolib были внесены усовершенствования и привлечен ИИ для полировки. Исходная статья и код https://habr.com/ru/articles/878002/

Отказ от медленного вывода текста, применение FuncAnimation вместо простого цикла, применение мэджик команды для подключения PyQT backend. FPS поднялся с 12 до 35. Подробности читайте в исходной статье https://habr.com/ru/articles/878002/

Оригинальная идея второго графика позволила отказаться от медленного вывода текста
Оригинальная идея второго графика позволила отказаться от медленного вывода текста

м

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии7

Вклад авторов