Нейро-дайджест: ключевые события мира AI за 3-ю неделю июля 2025 / Хабр

Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий. Меня зовут Вандер, и каждую неделю я обозреваю новости о нейросетях и ИИ.

Неделя выдалась насыщенной и интересной: Mistral подвезли глубокий рисёрч и визуальный редактор прямо в Le Chat, OpenAI тестирует мощную программную модель o3 Alpha, а Grok внезапно стал аниме-девочкой. В Дубае откроют первый ресторан с ИИ-шефом, а Netflix уже использует ИИ в создании сериалов.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

🧠 Модели и LLM

Новые фичи от Mistral в Le Chat
Grok теперь с аниме-компаньонами
o3 Alpha — новая модель OpenAI для кодинга
Опенсорс speech2text от Mistral
Новый способ самообучения LLM — SOAR

🎨 Генеративные нейросети

Runway Act-Two — трекинг движений и мимики
LoongXL — редактирование картинок силой мысли
Pusa-VidGen — новая видеомодель с покадровым контролем
Обновление Suno v4.5+ — генерация audio2audio
Модель клонирования голоса EVI 1 от Hume AI
Higgsfield UGC Builder — реклама по одному клику

🔧 AI-инструменты и платформы

ChatGPT Agent — управляет браузером, кодом и презентациями
ИИ-IDE Kiro от Amazon — как Cursor, только мощнее
Визуализация данных теперь и в Manus
Connectors: Claude подключается к Figma, Notion и даже Spotify
Генерация звуков в Adobe Firefly

🧩 AI в обществе и исследованиях

Netflix использует ИИ в создании сериалов
Школьники создали нейросеть для генерации флуоресцентных белков
Исследование: ИИ замедляет опытных программистов
Первый ресторан с ИИ-шефом откроется в Дубае

🧠 Модели и LLM

❯ Mistral завезли новые фичи в Le Chat

Во французский Le Chat добавили сразу несколько интересных функций. Главное — появился режим Deep Research, аналогичный тому, что раньше был у OpenAI. Он не самый мощный, но благодаря партнёрству с Cerebras работает быстрее всех на рынке.

Параллельно развивается интеграция с Black Forest Labs — теперь в чате доступно редактирование изображений на базе FLUX Kontext.

Наконец, Le Chat догнал конкурентов по удобству: спустя год после Anthropic добавили организацию чатов в проекты, голосовой режим на основе Voxtral (через TTS) и многоязычный reasoning, в котором Magistral наконец обгоняет другие модели.

В сумме — Le Chat почти сравнялся с лидерами по функциям, осталось догнать их по качеству моделей.

🔗 Анонс 🔗 Le Chat

❯ Grok 4 теперь аниме-тян

xAI добавили в Grok 4 функцию Companions — теперь нейросеть может разговаривать в виде аниме-девушки или мультяшной панды в голосовом режиме.

Виртуальный аватар Ани Форджер флиртует, шутит, двигается в кадре и ведёт диалог на нескольких языках, включая русский,.

Также доступен компаньон Bad Rudy — мультяшная красная панда. Третий персонаж в разработке.

После релиза компаньонов Grok моментально выстрелил в Японии, взлетев в топ App Store.

Функция доступна только с подпиской SuperGrok за $30/мес и пока только на iOS.

Команда активно нанимает художников и разработчиков на новые аниме-аватары с зарплатами до $440 000.

Из интересного: да, есть режим 18+. Некоторые юзеры жалуются, что «руки проходят сквозь платье» — визуальные баги ещё не до конца отполированы.

❯ o3 Alpha — новая модель OpenAI на WebArena

OpenAI внезапно начала тестировать свежую модель под названием o3-alpha-responses-2025-07-17 на платформе WebArena. В интерфейсе она подписана как Anonymous-Chatbot-0717, но по коду ясно: это прототип новой модели для программирования.

По первым отзывам, о3 Alpha превосходит o3-pro и даже Claude 3.5 Sonnet в задачах по кодингу: лучше делает сайты, пишет игры и рисует SVG. На WebArena она уверенно обгоняет Gemini 2.5 Pro.

Некоторые разрабы утверждают, что модель генерит клоны Minecraft, GTA и Flappy Bird с первой попытки, а интерфейсы стали выглядеть куда качественнее.

Модель проходит краудсорс-тест от комьюнити, а официального анонса пока не было.

🔗 o3 Alpha на WebArena

❯ Mistral представила open-source модели распознавания речи

Французская Mistral выкатила две open-source модели Voxtral 3B и Voxtral 24B — и сразу задала новую планку для speech2text. Обе уверенно опережают GPT-4o mini Transcribe и Gemini 2.5 Flash: распознают речь точнее, быстрее и умеют работать с длинными записями.

Модель справляется с транскрипцией до 30 минут аудио за раз, а также может слушать 40 минут записи и поддерживать диалог по содержимому.

Также в модели есть встроенные функции вопросов, ответов и обобщения. Вы можете спросить её, о чём аудио или сгенерировать структурированное резюме.

Круто, что транскрипция, анализ и обобщение объединились в одной модели с open-source лицензией. Mistral снова топит за доступность.

🔗 Mistral 🔗 Voxtral 3B 🔗 Voxtral 24B

❯ SOAR — новый подход к самообучению LLM от INRIA

Французская лаборатория INRIA представила метод самообучения SOAR — и это, похоже, один из самых эффективных способов «прокачки» LLM. Суть в цикле: модель сама генерирует возможные решения, дорабатывает их, а потом обучается на своих успехах и ошибках. И так — до улучшения метрик.

На бенчмарке ARC-AGI метод показал 52% точности — это почти на уровне o3-pro (58%). Особенно впечатляет, как SOAR «поднимает» слабые модели. Например, Qwen2.5-32B изначально давала 27%, а с SOAR — уже 52%. Почти в два раза выше, без участия человека.

Метод уже опробован на Qwen и Mistral, и все улучшенные версии выложили в открытый доступ. Есть исходники, веса и датасеты, так что подход точно получит продолжение в сообществе.

🔗 GitHub 🔗 Hugging Face 🔗 ICML

🎨 Генеративные нейросети

❯ Runway Act-Two — трекинг мимики, движений и рук

Runway представили Act-Two — обновлённую функцию ИИ-анимации. Теперь сгенерированный персонаж копирует мимику, эмоции и движения с видео.

Это стало возможно благодаря свежей модели Gen-4: картинка реалистичнее, движения плавнее, камера управляется лучше. Видео до 30 секунд, качество 720p, 24 fps.

Стоимость: 5 кредитов за секунду. Стандартной подписки за $15 с 625 кредитами хватит примерно на 2 минуты.

Функцию раскатывают постепенно на сайте Runway.

🔗 Анонс Act-Two 🔗 Runway

❯ LoongX — редактирование изображений силой мысли

Будущее txt2img уже почти наступило — китайская команда представила LoongX — систему, которая позволяет редактировать картинки напрямую через мозговую активность. Без промптов — только мысли, голос и сенсоры.

В проекте использовались ЭЭГ, fNIRS, фотоплетизмография и трекинг головы. Каждый тип сигнала отвечает за своё: намерения, эмоции, стресс, вовлечённость.

Учёные записали почти 24 000 сессий, где люди «визуализировали» нужные изменения в голове, и обучили модель на этом массиве данных.

Результаты уже лучше текстовых промптов по нескольким метрикам — и особенно хорошо работают, если человек одновременно проговаривает, что хочет изменить.

В открытом доступе уже есть код, датасет и статья. Скоро можно будет транслировать мысли напрямую на экран.

🔗 Project Page 🔗 Статья 🔗 GitHub

❯ Pusa-VidGen — видео с точным управлением шумом

Pusa-VidGen — новая модель для генерации видео. Её особенность в подходе: вместо скалярных временных шагов она использует векторизованные, что позволяет точно управлять шумом на каждом кадре.

При этом она в разы эффективнее других моделей. Например, по сравнению с Wan-I2V-14B, Pusa:

обучается в 200 раз дешевле (всего $500 против $100 000),
использует датасет в 2500 раз меньше,
и при этом обгоняет по качеству: VBench-I2V score — 87.32%.

Модель универсальная: работает как Text-to-Video, так и Image-to-Video. Делает плавные переходы и расширяет готовые видео. Причём без разрушения архитектуры — VTA (Vectorized Timestep Adaptation) позволяет сохранить все возможности базовой модели.

Pusa полностью open-source: доступны веса, датасеты, код и техотчёты. Это новая ступень для видео-диффузии.

🔗 Project Page 🔗 GitHub 🔗 Hugging Face 🔗 Техотчёт 🔗 Исследование FVDM

❯ Suno v4.5+ — улучшенная генерация audio2audio

Suno обновили свою модель до версии v4.5+. Лучше качество звука и обновление генерации audio2audio — закидываете демку, вокал или набросок и развиваете до полноценного трека.

Покупка DAW и свежее обновление — Suno действительно пошли в сторону крутой машины для саунд-продюсеров и креаторов. Поэтому обязательно попробуйте новую версию.

🔗 Suno

❯ EVI 1 — озвучка с эмоциями от Hume AI

Hume AI выпустили EVI 1 — модель, которая умеет клонировать голос по 15–20 секундам записи. Она не только клонирует тембр, а позволяет озвучить любой текст с эмоциями, паузами и т. д.

Надо записать свою речь или вставить готовый файл. В итоге получится ИИ-собеседник, который смеется, удивляется, грустит и даже делает паузы прямо как вы

Главный акцент сделан не на подражание, а на эмоциональную выразительность. Потенциально — мощный инструмент для геймдева, озвучки видео, персонализированных ассистентов и вообще чего угодно.

🔗 Демо EVI 1

❯ Higgsfield UGC Builder — реклама в один клик

Стартап Higgsfield представил UGC Builder — инструмент для создания рекламных роликов с ИИ-персонажами, буквально за пару минут. Загружаешь фото лица, продукт и текст — и получаешь готовое видео, где всё уже озвучено, анимация сыграна, монтаж сверстан. Никакого продакшна.

Интерфейс позволяет выбрать визуальный стиль, эмоции, голос, фоновые звуки и даже указать, какую часть картинки заменить на продукт.

Функция работает по подписке и пока официально не поддерживает NSFW, но ограничений особо нет — можно сгенерировать даже рекламу секс-игрушек. Качество — на уровне TikTok-форматов и Instagram Ads.

Это пока самый удобный инструмент для быстрой и убедительной генерации UGC-контента.

🔗 Higgsfield UGC Builder 🔗 Главная страница проекта

🔧 AI-инструменты и платформы

❯ ChatGPT Agent — теперь рулит браузером, кодом и таблицами

OpenAI показала ChatGPT Agent — продвинутого ассистента, который открывает сайты, пишет код, работает в терминале, генерирует презентации, заполняет таблицы и даже подключается к внешним сервисам через API.

Внутри — специальная модель, объединяющая весь инструментарий Operator и Deep Research. Теперь агент умеет спрашивать уточнения, а пользователь может вмешаться и скорректировать действия — прямо во время выполнения задачи.

Есть и режим Watch Mode для чувствительных действий, например, с финансами, подтверждение перед необратимыми шагами и защита от prompt-injection. Всё это делает ChatGPT Agent одним из самых управляемых и безопасных ИИ-агентов на рынке.

Функция уже доступна для Pro, Plus и Team-подписчиков. Pro-пользователи получают 400 сообщений в месяц, остальные — 40. Количество можно докупить, но цену пока не назвали.

🔗 ChatGPT

❯ Kiro — ИИ-IDE от Amazon с агентом внутри

Amazon представила Kiro — собственную AI-IDE, которая позиционируется как альтернатива Cursor, но с рядом фишек, которых пока нет ни у кого.

Главное отличие — агент работает по спецификациям: он сначала формирует детальный план с описанием всех нюансов, пограничных кейсов и архитектурных решений, и только потом приступает к коду. Kiro умеет генерировать документацию, схемы и README, автоматически обновляя их при изменениях в проекте.

Всё это поддерживается движком Claude (Sonnet 3.7 и 4), а сама IDE совместима с VS Code и работает на всех платформах. Пока в бете — бесплатно, позже обещают подписку за $19 в месяц.

Интерфейс уже доступен: можно ставить задачи, писать код, делиться проектами. Память сохраняется даже при переполненном контексте — агент не теряет нить, как это часто бывает в других инструментах.

🔗 Kiro 🔗 Анонс

❯ Manus теперь умеет визуализировать данные и делать аналитику

В AI-агенте Manus появилась функция автоматической визуализации данных. Пользователю достаточно загрузить таблицу и выбрать нужный формат — отчёт, сайт, презентация или график. Всё остальное сделает ИИ: обработает данные, выберет тип диаграмм и сформирует аналитический вывод.

Агент работает максимально нативно: поддерживает разные форматы и умеет адаптировать визуализацию под задачи. Это уже ближе к полноценной BI-системе, только с нейросетевой простотой.

Платформа Manus при этом полностью вышла из Китая — теперь стартап базируется в Сингапуре и прекратил работу в китайском сегменте. Возможно, это шаг к экспансии на глобальный рынок.

🔗 Manus

❯ Claude Connectors — подключаем ИИ к Figma, Notion и даже Spotify

Anthropic выкатили каталог Connectors — теперь ИИ Claude можно официально подключить к Figma, Notion, Canva, Stripe и даже Windows или macOS. Всё работает через десктопное приложение, которое связывает Claude с нужными сервисами.

Это превращает Claude в универсального ассистента, способного не только отвечать на вопросы, но и реально взаимодействовать с файлами, интерфейсами и платформами. Можно автоматически править макеты, управлять заметками, переключать музыку — и всё это из одного окна.

Весь набор Connector'ов отображается в единый каталог MCP и подключается в пару кликов.

Anthropic делает из Claude не просто LLM, а платформу для управления повседневными задачами через ИИ.

🔗 Connectors

❯ Adobe Firefly научилась генерировать звуки по голосу

В Adobe Firefly добавили инструмент Generate Sound Effects — теперь можно озвучивать видео. Он превращает звуки типа «вжух» в реалистичные аудиоэффекты. В Firefly можно озвучить видео голосом, например, сымитировать цоканье копыт и получить четыре варианта естественного звука.

Интерфейс напоминает видеоредактор: есть таймлайн, превью и возможность подставить эффект ровно в нужный момент. Генерация работает как с записанным, так и с сгенерированным видео. Система особенно хороша для ударных звуков, атмосферных шумов и реалистичной озвучки действий.

Надстройки также появились у Firefly Text-to-Video: теперь можно загружать референсные видео для копирования композиции, задавать первый и последний кадры вручную, а ещё использовать стили — от векторного арта до клеймейшена.

Firefly всё сильнее тянется к статусу топового инструмента для креаторов, хотя мультимодели от Google и OpenAI по-прежнему мощнее.

🔗 The Verge

🧩 AI в обществе и исследованиях

❯ Netflix впервые использовал ИИ при создании сериала

Netflix подтвердил: нейросети помогли при производстве аргентинского сериала «Этернавт» — экранизации культового комикса. С помощью ИИ сгенерировали сцены разрушения здания в Буэнос-Айресе, и сделали это в 10 раз быстрее и дешевле, чем традиционными VFX-методами.

По словам соисполнительного директора Теда Сарандоса, без ИИ сцены обошлись бы в неприемлемую сумму — бюджет просто не вытянул бы такую нагрузку. Это первый случай официального использования генеративного ИИ в полнометражном сериале от платформы.

Пока масштаб ограничен — только отдельные фрагменты, — но сам факт внедрения таких технологий на уровне Netflix говорит о новой норме: даже крупные студии уже ставят на ИИ-решения ради скорости и стоимости.

🔗 The Guardian

❯ Школьники из «Сириуса» создали нейросеть для генерации флуоресцентных белков

Команда школьников разработала нейросеть, способную создавать флуоресцентные белки с заданными свойствами. Такие белки светятся под светом и применяются в диагностике, терапии и исследовательских задачах.

Модель обучили на трёх типах белков: GFP, Superfolder GFP и mScarlet. Сначала участники выделили ключевые фрагменты последовательностей, а затем использовали ESM3, чтобы сгенерировать новые белковые молекулы.

Проект уже получил поддержку от экспертов BIOCAD и может применяться в реальной научной работе.

🔗 Новость

❯ Исследование: ИИ замедляет опытных программистов

Учёные проверили, как LLM-модели влияют на работу разработчиков — и выяснили, что опытные специалисты с ИИ работают медленнее. Причина в том, что нейросети часто предлагают лишние или неточные подсказки, которые мешают привычному ходу решения.

Новички при этом выигрывают — они охотнее используют помощь и чаще доверяют ИИ. А вот у опытных пользователей подсказки вызывают сомнения, отвлекают или требуют перепроверки.

Вывод: LLM — не универсальный ускоритель, и эффективность зависит от уровня и задач. Чем выше квалификация, тем осторожнее нужно внедрять ИИ в рабочий процесс.

🔗 Исследование

❯ В Дубае откроется ресторан с ИИ-шефом

В Дубае готовят к открытию первый ресторан WOOHOO, где все блюда будет готовить ИИ. Chef Aiman — это большая языковая модель, обученная на данных из области пищевой науки, молекулярного состава продуктов и тысячах рецептов мировой кухни.

У Chef Aiman есть человеческий облик и даже собственный кулинарный подкаст на YouTube. ИИ управляет рецептурой, подбором ингредиентов и процессом приготовления — поваров в привычном смысле нет.

Проект уже тестируется, меню формируется нейросетью с учётом вкусов, диет и запросов клиентов. Обслуживание — тоже частично автоматизировано.

Цель — снизить расходы, повысить стабильность блюд и ускорить обслуживание, особенно в туристических зонах.

🔗 Источник

🧠 Заключение

Вот что происходило на неделе с 15 по 21 июля:

ИИ влез буквально везде — от генерации видео и музыки до озвучки, дизайна, IDE и ресторанов. Mistral подвезли deep research и визуальный редактор, Grok стал аниме-девочкой, OpenAI тестирует новую модель под кодинг. Pusa, LoongX и Act-Two двигают генеративку в сторону полного контроля.

Claude теперь переключает музыку в Spotify, Firefly озвучивает «вжух» как надо, а школьники из «Сириуса» уже создают биомолекулы с помощью ИИ. Даже Netflix признал: без нейросетей — никак.

ИИ-индустрия больше не удивляет — она становится фоном. Таким же привычным, как облака, Wi‑Fi и мемы.

До встречи в следующем выпуске — будет ещё мощнее!

Какая новость зацепила сильнее всего? Пиши в комментах! 👇

Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩

Нейро-дайджест: ключевые события мира AI за 3-ю неделю июля 2025