Открытый проект ebook2audiobook превращает любую электронную книгу в полноценную аудиокнигу. Работает просто: закидываете epub, pdf или даже обычный txt и на выходе получаете готовый аудиофайл с главами, нормальной озвучкой и метаданными. Подойдёт, если не любите читать глазами, но хотите слушать книги в дороге или на тренировке. Работает локально на ПК и поддерживает множество языков и даже умеет клонировать голос. Можно озвучить книгу своим голосом или профессиональным диктором. Идеально для студентов, тех кто учит языки, или просто хочет слушать свои книги офлайн без подписок и облаков.
Представлен бесплатный открытый проект HeartMuLa, который генерирует музыку на уровне платных ИИ-студий. Это полноценная музыкальная «студия всё в одном»: можно создавать треки по описанию, делать песни в стиле любимых артистов и работать с готовым аудио.
Что умеет HeartMuLa:
пишет тексты песен через встроенный чат-бот;
генерирует треки с вокалом и текстом длиннее 4 минут;
можно загрузить любой аудиофайл, и ИИ перенесёт его вайб и стиль в новый трек;
работает даже на слабом железе: локальная версия требует всего ~3 ГБ видеопамяти;
простой и понятный интерфейс. Фактически: бесплатный аналог Suno, но без подписок, ограничений и облака;
можно ставить локально и делать музыку прямо на своём ПК.
Nvidia представила нейронку PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models, которая умеет разговаривать как реальный человек: без пауз, без остановок, без подхалимства и клишированных фраз. Можно вести диалог, перебивать друг друга, исправлять ИИ-собеседника, перестраивать общение. ИИ делает смысловые паузы, варьирует интонацию, использует междометия и даже «угукает», чтобы показать активное слушание. Подстраивается под речь и ситуацию за один промпт.
Alibaba выпустила Qwen3-TTS, которую можно запустить локально на ПК. Нейростеть знает 10 языков, включая русский, работает с разными голосами — меняет пол, возраст, национальности, акценты, темп, тембр, а также различные звуковые эффекты. Работает за 0,1 секунды. Токенизатор на 12 Гц — можно максимально сжимать любое аудио без потери качества.
Представлен проект нейросети для звуковой генерации HeartMuLa, которая умеет создавать треки студийного качества, клонировать голоса и вставлять их в песни, умеет также делать транскрибции треков через Whisper.
Представлен открытый проект Handy, который освобождает руки пользователя и превращает микрофон в клавиатуру. Работает в Word, Telegram и даже в VS Code. Можно диктовать тексты в любом формате, приложении и любым голосом. Под капотом: Whisper от OpenAI или Parakeet от Nvidia. Все нейронки понимают русский. Проблем со вводом не будет. Работает полностью локально — все вычисления идут только на ПК. Сервис отсекает шумы, помехи, чихи и шмыганья — на выходе получается чистый звук, который идёт в такой же выверенный текст. Работает на macOS, Windows и Linux. Простой и понятный интерфейс. Разработчик регулярно обновляет решение.
Как подключить беспроводные наушники к... чему угодно.
В моём случае было желание подключить беспроводные наушники к телевизору, чтобы иметь возможность смотреть кино и не мешать (звуком) другим.
Ранее использовал радио наушники, база у которых подключалась через 3.5мм джек к аудио входу, но это были полноразмерные наушники (полностью закрывают уши), а я часто использую либо левый, либо правый наушник, чтобы иметь связь с окружающей реальностью ))) Так что начал искать вариант для моих Bluetooth наушников.
Итоги поисков завершились покупкой устройства, которое можно найти на AliExpress в поиске как "многофункциональный Bluetooth аудио приемник-передатчик".
В моём случае подключен через оптический аудио выход на телевизоре. В наличии также обычный 3.5мм jack, переходник jack на тюльпаны и coaxial. Работает и как приемник, и как передатчик.
Открытый проект SpotX позволяет бесплатно слушать Spotify без рекламы и со всеми Premium-опциями. Всё, что нужно — актуальная версия Spotify и запустить на ПК одну команду.
Для Windows пишем в Powershell: iex "& { $(iwr -useb 'https://raw.githubusercontent.com/SpotX-Official/SpotX/refs/heads/main/run.ps1') } -new_theme".
Для MacOS, пишем в Терминале: bash <(curl -sSL https://spotx-official.github.io/run.sh).
$500 тысяч долларов в месяц заработал разработчик будильника для iPhone. Разработчик выпустил приложение, где просто сделал сигнал в несколько раз громче стандартного решения от Apple. Приложение стало популярным в App Store.
Команда Google Magenta представила экспериментальное приложение Lyria Camera для создания ИИ‑музыки на основе изображения с камеры смартфона. Приложение анализирует видео с камеры и с помощью Gemini описывает сцену текстовыми музыкальными промптами, например, «спокойный городской пейзаж». Эти промпты используются для создания музыки в реальном времени. Приложение подстраивает музыку под кадр и движение в реальном времени. Проект Lyria RealTime создаёт музыку без слов и с частотой 48 Гц. Приложение Lyria RealTime доступно бесплатно в веб‑версии Google AI Studio с иностранных IP‑адресов.
Рейтинг лучших наушников на основе тысяч отзывов с Reddit — пользователь платформы собрал темы вроде «лучшие беспроводные наушники» с помощью нейросетей и проанализировал ответы. С огромным отрывом победили AirPods Pro всех поколений, на втором месте обычные AirPods. В списке также оказались Sony WF-1000XM5, Soundcore Liberty 4 и флагманы Bose. В исследовании участвовало около 13 тысяч ответов — отдельно по сабреддиту про наушники и по всему Reddit.
Привычку курения обошли ультразвуком. Учёные доказали, что всего минута прослушивания звуков на определённой частоте отбивает желание закурить. Ещё раз: никаких пластырей, никотиновых спреев и даже вживления чипов в мозг — только минута. Волны звука влияют на «центры удовольствия» в мозге и запускают выброс дофамина за выполнение полезного действия, а не за счёт убийства организма.
В открытом доступе появился реалистичный генератор речи Dia2: создаёт озвучку, которую вообще не отличить от реального голоса, генерит речь в реальном времени. Видео получает озвучку, пока проигрывается. Можно склонировать любой голос, есть множество готовых ИИ-спикеров с разными голосами, тембрами, интонацией и даже акцентами. Создавать можно до двух минут аудио. Нейронка учитывает эмоции: может волноваться, смеяться, запинаться, «жевать» слова.
В своё время моё отношение к аудиокнигам изменилось благодаря легендарному проекту «Модель для сборки» с Владом Коппом. Именно благодаря МДС я понял, что книги можно не только читать, но и прекрасно воспринимать в формате аудио. Аудиоформат даёт возможность знакомиться с произведениями в дороге или во время прогулок. Прекрасно помню времена, как загружал в свой MP3-плеер на 512 МБ выпуски МДС и, вместо того чтобы ехать с работы в тесной маршрутке, устраивал себе полуторачасовые прогулки в компании очередного фантастического рассказа.
Эпоха аудиоизобилия
Сегодня выбор аудиокниг несравним с тем, что было пятнадцать лет назад. В интернете можно найти огромное количество как профессионально озвученных произведений, так и любительских версий. Однако даже при всём этом богатстве выбора нередко встречаются книги, которые до сих пор никто не озвучил.
Например, один из моих любимых циклов — «Зоны мысли» Вернора Винджа. «Пламя над бездной», «Глубина в небе» и «Болтушка» легко найти в сети. А вот заключительную часть — «Дети неба» — увы, никто не озвучил.
Поскольку мы живём в эпоху искусственного интеллекта, решение приходит само собой: если нужной аудиокниги нет — сделай её сам. Требования у меня простые, без претензий:
Качество должно быть приемлемым;
Платить не хочется, поэтому все должно быть полностью бесплатным.
Голос
Вспомнил я про сайт OpenAI FM — демо-площадку голосовой модели gpt-4o-mini-tts . Она звучит естественно и хорошо справляется с русским языком. Выбор из 11 разных дикторов. А так же есть классная фитча - промт инструкции для стиля речи, благодаря чему можно управлять «подачей» — делать её более спокойной, вдохновлённой или нейтральной . Поигравшись с промтами и выбрав голос, переходим к следующему этапу. На сайте можно бесплатно генерировать небольшие аудиофрагменты длиной до 999 символов. Ограничение не стало проблемой. Берем Python + Selenium WebDriver, и получаем программу, которая:
делит текст книги на чанки нужной длины,
отправляет их на сайт,
сохраняет аудиофайлы,
затем объединяет всё в одно произведение с помощью FFmpeg.
Результат получился неожиданно достойным. Да, между фрагментами иногда чувствуется разница в тембре, особенно в первые секунды. А ударения не всегда точны и изредка проскакивает лёгкий акцент. Но в целом — получилась полноценная озвученная аудиокнига.
Музыкальная подложка
После того как книга была готова, захотелось добавить фоновую музыку. Можно было просто подобрать подходящий трек, но ради спортивного интереса я решил сгенерировать музыку самостоятельно.
Платные сервисы вроде Suno или Udio я сразу отбросил. Зато вспомнил про Google AI Studio, где в разделе Build есть приложение PromptDJ MIDI. Оно позволяет создавать музыку прямо в браузере — достаточно задать стиль и параметры.
Скопировал прямо в Studio приложение, в промпте указал стиль space ambient и добавил возможность скачивания получившегося трека. Поигравшись с настройками в полученном приложении, получил именно то, что меня устроило.
Оставалось объединить музыкальную дорожку с голосом — снова помог FFmpeg.
Инструменты:
OpenAI FM — генерация речи;
Google AI Studio (PromptDJ MIDI) — генерация фоновой музыки;
Python + Selenium + FFmpeg — автоматизация и сборка.
Затраты: 0 долларов и несколько часов времени.
Итог: Получилась аудиокнига приличного качества с музыкальным сопровождением. Конечно, это не уровень профессиональных дикторов , но для личного использования — IMHO более чем достойно. Плюс абсолютно бесплатно.
Представлен музыкальный сервис OpenSpot Music с треками со многих стримингов с высоким качеством музыки. Алгоритмы подборки помогут найти новые песни, можно собрать собственные плейлисты.
Представлен проект Chatterbox Multilingual, который умеет бесплатно клонировать любой голос с короткой записи. Решение умеет озвучивать любой текст с эмоциями, поддерживает 23 языка, среди которых и русский. Также там можно расставлять акценты, делать паузы, выделять слова голосом, контролировать тон и тембр. А ещё есть библиотека голосов, которые можно использовать в проектах.
Учёный нашёл мелодию, которая усиливает вкус шоколада — с ней плитка прямо тает во рту, доставляя неописуемое наслаждение. Гений-сладкоежка воспользовался исследованиями за 60 лет, который доказывают — правильный темп, высота тона, скорость и тональность могут обманывать мозг и влиять на вкусовые рецепторы. В итоге это вылилось в трек «Galaxy Sweetest Melody».
Представлен сервис Strudel, который превращает строки кода в мелодии. В качестве основы используется — JS, по этому гайду можно сделать любую композицию из кода. Если есть синтезатор или целый музыкальный сетап, то его можно забустить через MIDI или OSC.
Команда Riffusion выпустила музыкального ИИ-агента Producer, который генерить музыку прямо в чате, работает с готовым текстом или сам набросает его из идей пользователя, усиливает или убирает нужный/ненужный инструмент, генерит красивые обложки, может написать код для визуализатора под песню, создаёт целые музыкальные клипы, в один клик делает ремиксы: reverb, slowed или dark synth.