Обновить
142.29

Звук

Это «ж-ж-ж» неспроста

Сначала показывать
Порог рейтинга

Открытый проект ebook2audiobook превращает любую электронную книгу в полноценную аудиокнигу. Работает просто: закидываете epub, pdf или даже обычный txt и на выходе получаете готовый аудиофайл с главами, нормальной озвучкой и метаданными. Подойдёт, если не любите читать глазами, но хотите слушать книги в дороге или на тренировке. Работает локально на ПК и поддерживает множество языков и даже умеет клонировать голос. Можно озвучить книгу своим голосом или профессиональным диктором. Идеально для студентов, тех кто учит языки, или просто хочет слушать свои книги офлайн без подписок и облаков.

Теги:
+5
Комментарии0

Представлен бесплатный открытый проект HeartMuLa, который генерирует музыку на уровне платных ИИ-студий. Это полноценная музыкальная «студия всё в одном»: можно создавать треки по описанию, делать песни в стиле любимых артистов и работать с готовым аудио.

Что умеет HeartMuLa:

  • пишет тексты песен через встроенный чат-бот;

  • генерирует треки с вокалом и текстом длиннее 4 минут;

  • можно загрузить любой аудиофайл, и ИИ перенесёт его вайб и стиль в новый трек;

  • работает даже на слабом железе: локальная версия требует всего ~3 ГБ видеопамяти;

  • простой и понятный интерфейс. Фактически: бесплатный аналог Suno, но без подписок, ограничений и облака;

  • можно ставить локально и делать музыку прямо на своём ПК.

Теги:
+2
Комментарии6

Nvidia представила нейронку PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models, которая умеет разговаривать как реальный человек: без пауз, без остановок, без подхалимства и клишированных фраз. Можно вести диалог, перебивать друг друга, исправлять ИИ-собеседника, перестраивать общение. ИИ делает смысловые паузы, варьирует интонацию, использует междометия и даже «угукает», чтобы показать активное слушание. Подстраивается под речь и ситуацию за один промпт.

Проект на GitHub. Ссылка на Hugging Face.

Теги:
+2
Комментарии0

Alibaba выпустила Qwen3-TTS, которую можно запустить локально на ПК. Нейростеть знает 10 языков, включая русский, работает с разными голосами — меняет пол, возраст, национальности, акценты, темп, тембр, а также различные звуковые эффекты. Работает за 0,1 секунды. Токенизатор на 12 Гц — можно максимально сжимать любое аудио без потери качества.

Ссылка на GitHub. Онлайн-демо доступно тут.

Теги:
+2
Комментарии0

Представлен проект нейросети для звуковой генерации HeartMuLa, которая умеет создавать треки студийного качества, клонировать голоса и вставлять их в песни, умеет также делать транскрибции треков через Whisper.

Репозиторий проекта, ссылка на Hugging Face и на портал ModelScope

Теги:
+2
Комментарии0

Представлен открытый проект Handy, который освобождает руки пользователя и превращает микрофон в клавиатуру. Работает в Word, Telegram и даже в VS Code. Можно диктовать тексты в любом формате, приложении и любым голосом. Под капотом: Whisper от OpenAI или Parakeet от Nvidia. Все нейронки понимают русский. Проблем со вводом не будет. Работает полностью локально — все вычисления идут только на ПК. Сервис отсекает шумы, помехи, чихи и шмыганья — на выходе получается чистый звук, который идёт в такой же выверенный текст. Работает на macOS, Windows и Linux. Простой и понятный интерфейс. Разработчик регулярно обновляет решение.

Теги:
+6
Комментарии6

Как подключить беспроводные наушники к... чему угодно.

В моём случае было желание подключить беспроводные наушники к телевизору, чтобы иметь возможность смотреть кино и не мешать (звуком) другим.

Ранее использовал радио наушники, база у которых подключалась через 3.5мм джек к аудио входу, но это были полноразмерные наушники (полностью закрывают уши), а я часто использую либо левый, либо правый наушник, чтобы иметь связь с окружающей реальностью ))) Так что начал искать вариант для моих Bluetooth наушников.

Итоги поисков завершились покупкой устройства, которое можно найти на AliExpress в поиске как "многофункциональный Bluetooth аудио приемник-передатчик".

В моём случае подключен через оптический аудио выход на телевизоре. В наличии также обычный 3.5мм jack, переходник jack на тюльпаны и coaxial. Работает и как приемник, и как передатчик.

Позволяет подключать 2 пары наушников.

...может кому то пригодится.

Теги:
+4
Комментарии0

Открытый проект SpotX позволяет бесплатно слушать Spotify без рекламы и со всеми Premium-опциями. Всё, что нужно — актуальная версия Spotify и запустить на ПК одну команду.

Для Windows пишем в Powershell: iex "& { $(iwr -useb 'https://raw.githubusercontent.com/SpotX-Official/SpotX/refs/heads/main/run.ps1') } -new_theme".

Для MacOS, пишем в Терминале: bash <(curl -sSL https://spotx-official.github.io/run.sh).

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии1

$500 тысяч долларов в месяц заработал разработчик будильника для iPhone. Разработчик выпустил приложение, где просто сделал сигнал в несколько раз громче стандартного решения от Apple. Приложение стало популярным в App Store.

Теги:
Всего голосов 7: ↑6 и ↓1+6
Комментарии0

Команда Google Magenta представила экспериментальное приложение Lyria Camera для создания ИИ‑музыки на основе изображения с камеры смартфона. Приложение анализирует видео с камеры и с помощью Gemini описывает сцену текстовыми музыкальными промптами, например, «спокойный городской пейзаж». Эти промпты используются для создания музыки в реальном времени. Приложение подстраивает музыку под кадр и движение в реальном времени. Проект Lyria RealTime создаёт музыку без слов и с частотой 48 Гц. Приложение Lyria RealTime доступно бесплатно в веб‑версии Google AI Studio с иностранных IP‑адресов.

Теги:
Рейтинг0
Комментарии1

Рейтинг лучших наушников на основе тысяч отзывов с Reddit — пользователь платформы собрал темы вроде «лучшие беспроводные наушники» с помощью нейросетей и проанализировал ответы. С огромным отрывом победили AirPods Pro всех поколений, на втором месте обычные AirPods. В списке также оказались Sony WF-1000XM5, Soundcore Liberty 4 и флагманы Bose. В исследовании участвовало около 13 тысяч ответов — отдельно по сабреддиту про наушники и по всему Reddit.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии1

Привычку курения обошли ультразвуком. Учёные доказали, что всего минута прослушивания звуков на определённой частоте отбивает желание закурить. Ещё раз: никаких пластырей, никотиновых спреев и даже вживления чипов в мозг — только минута. Волны звука влияют на «центры удовольствия» в мозге и запускают выброс дофамина за выполнение полезного действия, а не за счёт убийства организма.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии9

Ближайшие события

В открытом доступе появился реалистичный генератор речи Dia2: создаёт озвучку, которую вообще не отличить от реального голоса, генерит речь в реальном времени. Видео получает озвучку, пока проигрывается. Можно склонировать любой голос, есть множество готовых ИИ-спикеров с разными голосами, тембрами, интонацией и даже акцентами. Создавать можно до двух минут аудио. Нейронка учитывает эмоции: может волноваться, смеяться, запинаться, «жевать» слова.

Модель на HuggingFace.

Код на GitHub.

Демка в вебе.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

OpenAI + Google Studio и немного Python = создаем бесплатную аудиокнигу без лишних заморочек

Ведущая Coral c Openai.fm
Ведущая Coral c Openai.fm

 В своё время моё отношение к аудиокнигам изменилось благодаря легендарному проекту «Модель для сборки» с Владом Коппом. Именно благодаря МДС я понял, что книги можно не только читать, но и прекрасно воспринимать в формате аудио. Аудиоформат даёт возможность знакомиться с произведениями в дороге или во время прогулок. Прекрасно помню времена, как загружал в свой MP3-плеер на 512 МБ выпуски МДС и, вместо того чтобы ехать с работы в тесной маршрутке, устраивал себе полуторачасовые прогулки в компании очередного фантастического рассказа.

Эпоха аудиоизобилия

Сегодня выбор аудиокниг несравним с тем, что было пятнадцать лет назад. В интернете можно найти огромное количество как профессионально озвученных произведений, так и любительских версий. Однако даже при всём этом богатстве выбора нередко встречаются книги, которые до сих пор никто не озвучил.

Например, один из моих любимых циклов — «Зоны мысли» Вернора Винджа. «Пламя над бездной»«Глубина в небе» и «Болтушка» легко найти в сети. А вот заключительную часть — «Дети неба» — увы, никто не озвучил.

Поскольку мы живём в эпоху искусственного интеллекта, решение приходит само собой: если нужной аудиокниги нет — сделай её сам. Требования у меня простые, без претензий:

  1. Качество должно быть приемлемым;

  2. Платить не хочется, поэтому все должно быть полностью бесплатным.

Голос

Вспомнил я про сайт OpenAI FM — демо-площадку голосовой модели gpt-4o-mini-tts . Она звучит естественно и хорошо справляется с русским языком. Выбор из 11 разных дикторов. А так же есть классная фитча - промт инструкции для стиля речи, благодаря чему можно управлять «подачей» — делать её более спокойной, вдохновлённой или нейтральной . Поигравшись с промтами и выбрав голос, переходим к следующему этапу. На сайте можно бесплатно генерировать небольшие аудиофрагменты длиной до 999 символов. Ограничение не стало проблемой. Берем Python + Selenium WebDriver, и получаем программу, которая:

  • делит текст книги на чанки нужной длины,

  • отправляет их на сайт,

  • сохраняет аудиофайлы,

  • затем объединяет всё в одно произведение с помощью FFmpeg.

Результат получился неожиданно достойным. Да, между фрагментами иногда чувствуется разница в тембре, особенно в первые секунды. А ударения не всегда точны и изредка проскакивает лёгкий акцент. Но в целом — получилась полноценная озвученная аудиокнига.

Музыкальная подложка

После того как книга была готова, захотелось добавить фоновую музыку. Можно было просто подобрать подходящий трек, но ради спортивного интереса я решил сгенерировать музыку самостоятельно.

Платные сервисы вроде Suno или Udio я сразу отбросил. Зато вспомнил про Google AI Studio, где в разделе Build есть приложение PromptDJ MIDI. Оно позволяет создавать музыку прямо в браузере — достаточно задать стиль и параметры.

Скопировал прямо в Studio приложение, в промпте указал стиль space ambient и добавил возможность скачивания получившегося трека. Поигравшись с настройками в полученном приложении, получил именно то, что меня устроило.

Оставалось объединить музыкальную дорожку с голосом — снова помог FFmpeg.

Инструменты:

  • OpenAI FM — генерация речи;

  • Google AI Studio (PromptDJ MIDI) — генерация фоновой музыки;

  • Python + Selenium + FFmpeg — автоматизация и сборка.

Затраты: 0 долларов и несколько часов времени.

Итог: Получилась аудиокнига приличного качества с музыкальным сопровождением. Конечно, это не уровень профессиональных дикторов , но для личного использования — IMHO более чем достойно. Плюс абсолютно бесплатно.

Теги:
Всего голосов 8: ↑7 и ↓1+7
Комментарии22

Представлен музыкальный сервис OpenSpot Music с треками со многих стримингов с высоким качеством музыки. Алгоритмы подборки помогут найти новые песни, можно собрать собственные плейлисты.

Теги:
Рейтинг0
Комментарии0

Представлен проект Chatterbox Multilingual, который умеет бесплатно клонировать любой голос с короткой записи. Решение умеет озвучивать любой текст с эмоциями, поддерживает 23 языка, среди которых и русский. Также там можно расставлять акценты, делать паузы, выделять слова голосом, контролировать тон и тембр. А ещё есть библиотека голосов, которые можно использовать в проектах.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Учёный нашёл мелодию, которая усиливает вкус шоколада — с ней плитка прямо тает во рту, доставляя неописуемое наслаждение. Гений-сладкоежка воспользовался исследованиями за 60 лет, который доказывают — правильный темп, высота тона, скорость и тональность могут обманывать мозг и влиять на вкусовые рецепторы. В итоге это вылилось в трек «Galaxy Sweetest Melody».

Теги:
Всего голосов 4: ↑2 и ↓2+2
Комментарии3

Представлен сервис Strudel, который превращает строки кода в мелодии. В качестве основы используется — JS, по этому гайду можно сделать любую композицию из кода. Если есть синтезатор или целый музыкальный сетап, то его можно забустить через MIDI или OSC.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Команда Riffusion выпустила музыкального ИИ-агента Producer, который генерить музыку прямо в чате, работает с готовым текстом или сам набросает его из идей пользователя, усиливает или убирает нужный/ненужный инструмент, генерит красивые обложки, может написать код для визуализатора под песню, создаёт целые музыкальные клипы, в один клик делает ремиксы: reverb, slowed или dark synth.

Теги:
Рейтинг0
Комментарии0