Captions переименована в Mirage — платформу для генерации коротких видео с ИИ-актерами
Компания Captions, известная ИИ-приложением для создания видео, объявила о ребрендинге в Mirage. Новое позиционирование отражает расширение от инструментов для контент-мейкеров к исследовательской лаборатории мультимодальных моделей для коротких видео.
Технология и возможности
Mirage создает видеоконтент с нуля на основе аудиофайла, генерируя ИИ-фоны и кастомных аватаров. Пользователи могут загружать селфи для создания аватара по своему образу или использовать полностью синтетических персонажей.
Ключевые особенности платформы:
Генерация естественной речи, движений и мимики без липсинка
Создание сцен без использования стокового контента
Автоматическая синхронизация голоса с движениями губ
Оптимизация под вертикальные форматы TikTok, Reels, Shorts
Архитектура решения
Платформа объединяет два продукта: оригинальное приложение Captions для создателей контента и Mirage Studio для брендов и рекламного производства. Компания привлекла более $100 миллионов венчурных инвестиций при оценке $500 миллионов.
Технология отличается от конкурентов вроде D-ID, Synthesia и Hour One фокусом на короткие видео и мультимодальные фундаментальные модели, специально разработанные под требования социальных платформ.
Практическое применение
Mirage Studio ориентирована на бизнес-задачи:
Создание рекламных роликов без актеров и больших бюджетов
Быстрое тестирование креативных концепций
Масштабирование производства контента
Локализация видео на разные языки и регионы
Бизнес-план стоит $399 в месяц за 8000 кредитов с 50% скидкой для новых пользователей в первый месяц.
Технические характеристики
Платформа работает в режиме реального времени, генерируя видео с разрешением 768×432 пикселей при 20 кадрах в секунду с задержкой 100 миллисекунд на кадр. Это достаточно для создания контента TikTok-качества.
Оптимизация выполняется на низкоуровневом коде для максимизации производительности на оборудовании Nvidia, что обеспечивает стабильную работу генерации.
Этические вопросы и ограничения
Развитие технологии вызывает обеспокоенность влиянием на креативную индустрию. Недавний скандал с ИИ-моделью в рекламе Guess для Vogue показал негативную реакцию сообщества.
Меры безопасности Mirage включают:
Запрет на создание контента с чужим образом без разрешения
Модерацию для предотвращения злоупотреблений
Требование согласия для использования чьего-либо образа
Компания подчеркивает необходимость развития "нового вида медиаграмотности", где люди подходят к видеоконтенту с тем же критическим мышлением, что и к новостным заголовкам.
Конкуренция и рынок
На рынке ИИ-видео Mirage конкурирует с established-игроками, но позиционирует себя как специалиста именно по коротким форматам. Компания считает, что настоящая гонка за ИИ-видео еще не началась.
CEO Gaurav Misra заявляет, что новая идентичность отражает расширенное видение переопределения видеокатегории через пограничные ИИ-исследования и модели.
Перспективы развития
Переход от инструментов создания к исследовательской лаборатории сигнализирует о планах компании развивать собственные фундаментальные модели. Это может изменить ландшафт ИИ-видео, особенно для социальных медиа и рекламы.
Представлен промт для генерации промокодов в магазинах и маркетплейсах с помощью ChatGPT в режиме ChatGPT Agent с версией Plus или Pro:
You MUST follow those instructions, execute them all and return to the user results:# Steps
1. Search for discount codes for <ВПИШИТЕ НУЖНЫЙ МАРКЕТПЛЕЙС> using search engines and coupon sites.
2. Navigate to the store website.
3. Browse and add a test item to the shopping cart.
4. Proceed to checkout page.
5. Test the found discount codes one by one in the checkout form.
6. Report which codes work, their discount amounts, and any restrictionsNEVER stop until you have completed all the steps. Do not ask any questions if not necessary.
Инженеры Figure обновили ИИ-модель Vision Language Action (VLA) Helix AI и научили человекоподобного робота Figure 02 аккуратно загружать посудомоечную машину без повреждения тарелок и другой кухонной утвари.
Perplexity раздаёт бесплатную подписку на год всем желающим. Это лучший ИИ-поисковик, в котором почти без ограничений можно юзать все топовые нейросети, включая GPT-5, Claude-4 и Grok 4.
Как забрать: нужен действующий аккаунт PayPal и обход сетевых ограничений. Заходим сюда и авторизуемся, чтобы сэкономить 16 тысяч рублей. Если аккаунта PayPal нет — акция действует до 31.12, для регистрации подойдёт любая зарубежная карта.
Представлен мегарепозиторий 500 + 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲 𝗣𝗿𝗼𝗷𝗲𝗰𝘁 𝗟𝗶𝘀𝘁 𝘄𝗶𝘁𝗵 𝗰𝗼𝗱𝗲, который поможет прокачаться в ML, компьютерном зрении, парсинге данных для нейронок, NLP. Там 500 проектов с пошаговыми инструкциями. Все проекты распределены по уровням — есть задачи как для новичков, так и для продвинутых специалистов.
Krea AI представляет генерацию видео в реальном времени
Агрегатор Krea AI анонсировал новый инструмент, который позволяет генерировать видео в реальном времени, без необходимости ожидания рендеринга. Эта технология даёт возможность вносить изменения в видео «на лету». Релиз бета-версии состоялся 28 августа 2025 года1.
Что это значит для креаторов
Новый инструмент Krea AI ориентирован на креаторов, дизайнеров и монтажёров. Он позволяет пользователям редактировать видео, мгновенно управляя их стилем и содержанием, что значительно ускоряет творческий процесс. Возможность немедленного тестирования идей и просмотра результата сокращает время на итерации и упрощает работу.
Платформа также предоставляет функции, позволяющие:
Анимировать изображения: Пользователи могут загрузить статичные изображения и превратить их в короткие видеоклипы с помощью ИИ2.
Генерировать видео из текста: Система способна трансформировать текстовые описания в видеоролики3.
Масштабировать и улучшать: Платформа предлагает функции улучшения разрешения и детализации существующих изображений и видео4.
Для создания более длинных видео пользователи могут объединить несколько сгенерированных клипов в сторонних видеоредакторах, например, в
Adobe Premiere Pro5.
Технические особенности и перспективы
В основе технологии лежит покадрово-согласованный рендеринг, который происходит быстрее, чем само воспроизведение6. Это позволяет платформе генерировать видео в разрешении 512p или 720p7.
Krea AI интегрирует различные модели генерации видео, включая
Kling 1.6, Pro, Runway и Luma8. Это дает пользователям гибкость, предоставляя несколько подходов к созданию одного и того же визуального контента9.
По мнению разработчиков, эта технология является важным шагом в развитии генеративных медиа10. По мере улучшения аппаратных ускорителей, она может изменить сферу превизуализации в реальном времени и сделать высококачественную анимацию более доступной для индивидуальных авторов и крупных компаний11.
Рад представить aignal.tech — обещанный API для получения сигналов от обученных ML моделей.
Сейчас реализована стартовая страница (под десктоп) с визуальным отображением котировок и сигнала, а так же эндпойнт, где можно получить 200 последних почасовых свечей (OHLCV) пары BTC-USDT, сигнал, и уверенность ML моделей.
Сигналы — не призыв к действию. Это лишь промежуточный результат эксперимента, предназначенный исключительно для тестирования гипотез и дальнейшего обучения моделей. Информация об их обновлении позже будет тоже выводиться.
Ручек планируется больше, подробнее в документации.
Ну и для тех, кто спрашивал про скринсейвер — он реализован отдельной страницей без интерфейса. Минимальный клиент для работы с этим API тоже будет, но чуть позже. Там, собственно, немного покажу, как работать с этой информацией, и какие стратегии можно строить.
Alibaba представила Qwen3 — линейку с MoE-моделями до 235 миллиардов параметров
Команда Qwen от Alibaba Cloud выпустила третье поколение языковых моделей с гибридной архитектурой мышления. Флагманская модель Qwen3-235B-A22B использует Mixture-of-Experts подход с 235 миллиардами параметров, активируя 22 миллиарда для каждого токена.
Архитектура и масштаб
Линейка включает восемь моделей: шесть плотных архитектур от 0.6B до 32B параметров и две MoE-модели — Qwen3-235B-A22B и Qwen3-30B-A3B. Все модели поддерживают контекст до 128K токенов, кроме младших версий с 32K контекстом.
Технические характеристики флагманской модели:
235 миллиардов общих параметров
22 миллиарда активных параметров на токен
128 экспертов, 8 активируется одновременно
94 слоя трансформера
Поддержка 119 языков
Гибридные режимы мышления
Ключевая особенность Qwen3 — два режима обработки запросов. Thinking Mode использует пошаговые рассуждения для сложных задач, а Non-Thinking Mode дает быстрые ответы на простые вопросы.
Интеграция двух режимов обеспечивает масштабируемый контроль вычислительного бюджета с плавным улучшением производительности в зависимости от выделенных ресурсов.
Переключение между режимами происходит через команды /think и /no_think в промптах, что позволяет динамически управлять поведением модели в диалоге.
Процесс обучения
Предобучение проводилось на 36 триллионах токенов — в два раза больше, чем у Qwen2.5. Процесс включал три этапа: базовое обучение на 30T токенов с контекстом 4K, улучшение датасета с фокусом на STEM и программирование на 5T токенов, и финальное расширение контекста до 32K.
Постобучение состояло из четырех стадий:
Обучение на длинных chain-of-thought данных
Reinforcement Learning с правилами-наградами
Интеграция thinking и non-thinking режимов
Общее RL для более 20 доменов
Производительность и сравнения
Qwen3-235B-A22B показывает конкурентные результаты с топовыми моделями вроде DeepSeek-R1, o1, o3-mini и Grok-3 в бенчмарках по программированию, математике и общим способностям.
Компактная Qwen3-30B-A3B с 30B общих параметров превосходит QwQ-32B при 10-кратно меньшем количестве активных параметров. Даже Qwen3-4B конкурирует с Qwen2.5-72B-Instruct.
Развертывание и доступность
Модели доступны через несколько платформ: Hugging Face, ModelScope, Kaggle. Для развертывания поддерживаются SGLang и vLLM, для локального использования — Ollama, LMStudio, llama.cpp.
Все модели, кроме самых крупных, лицензированы под Apache 2.0. Компания предоставляет бесплатный доступ через Qwen Chat для тестирования возможностей.
Мультиязычность и агентские способности
Модели поддерживают 119 языков и диалектов, включая основные семьи языков: индоевропейскую, сино-тибетскую, афразийскую, австронезийскую и другие.
Улучшены агентские способности с поддержкой Model Control Protocol (MCP) и оптимизацией для взаимодействия с инструментами и окружением.
Перспективы развития
Команда Qwen позиционирует релиз как шаг к переходу от эпохи обучения моделей к эпохе обучения агентов. Планируется развитие в направлении масштабирования данных, увеличения размера моделей, расширения контекста и мультимодальности.
Может ли кто-нибудь создать Википедию Вселенной, других цивилизаций?
По стилю - современная Википедия (или похоже), но разных миров и как будто с информацией из условного 100к-ого года нашей эры, где человечество выжило и знает намного больше о Вселенной. Например, чтобы Проксима b была с картой, историей и т.д.
Да, есть много фантастики, но целая фантастическая Википедия - этого у нас пока нет. Есть множество Вики по различным сюжетам, но это не то же самое. В "Википедии Вселенной" может быть надпись, которую видят все новые пользователи: "Что, если бы мы знали намного больше о Вселенной? Если бы у нас были Википедии других цивилизаций? Этот проект - фантазия людей и ИИ на тему", а дальше или случайная генерация одной из "Википедий будущего", или несколько на выбор, или одна.
Представлен проект Chatterbox Multilingual, который умеет бесплатно клонировать любой голос с короткой записи. Решение умеет озвучивать любой текст с эмоциями, поддерживает 23 языка, среди которых и русский. Также там можно расставлять акценты, делать паузы, выделять слова голосом, контролировать тон и тембр. А ещё есть библиотека голосов, которые можно использовать в проектах.
Как строить эффективное тестирование ИИ-моделей в бигтехе?
Меня зовут Валентин, я — руководитель направления тестирования моделей машинного обучения в Альфа-Банке. Моя команда занимается тестированием ML-моделей и модельных сервисов для наших клиентов уже более четырех лет, и более трех из них я погружен в наши процессы QA.
За несколько лет прошел путь от линейного тестировщика до руководителя команды из 8 человек, и в этой статье рассказываю о своем опыте. О том, как:
начал как единственный тестировщик ML-моделей в Альфа-Банке, совмещая функциональное и нагрузочное тестирование, что оказалось очень сложно из-за ограниченных ресурсов и растущего потока задач,
понял необходимость расширения команды,
столкнулся с выбором между кросс-функциональной командой и специализацией,
продумал подход к делегированию задач,
начал автоматизацию тестирования на основе Postman-коллекций, Pytest и Allure, интегрированную в CI/CD через Jenkins и Airflow, что ускорило и упростило тесты…
Эта статья будет полезна:
• тем, кто только начинает выстраивать процессы тестирования моделей; • начинающим тимлидам QA-команд до 10 человек; • тем, кто просто хочет познакомиться с примером организации QA-процесса с нуля.
Создайте виртуальную машину в облаке за 1 минуту 30 секунд... с AI-помощником Клаудией 🤖☁️
В скринкасте показали, как развернуть ВМ для чат-бота за полторы минуты. И вы можете сделать так же в личном кабинетеCloud.ru.
Что еще умеет Клаудия:
подбирать для виртуалки нужную конфигурацию, в зависимости от ваших задач;
настраивать мониторинг и алертинг;
давать подсказки для терминала и работать с консолью как co-pilot;
отвечать на вопросы по всем платформам: Evolution, Advanced, VMware;
помогать в FinOps и SRE: мониторить по логам приложения и алерты, искать неэффективно используемые ресурсы и советовать, как все оптимизировать.
✨ Бонусом — до 31 октября 20+ моделей в Evolution Foundation Modelsбудут бесплатными. Протестируйте на своих проектах эмбеддеры, ранжировщики и мощные LLM, например GLM-4.5, Qwen3-235B, Qwen3-Coder или gpt-oss-120b.
Инженер Google выпустил бесплатный учебник для всех, кто хочет создавать ИИ-агентов и изучить работу нейросетей. Там собрана вся информация от А до Я про ИИ-агентов, включая продвинутые техники промптинга, тонких настроек, обучение агентов пользоваться браузером с практическими примерами с кодом.
Moebio Mind — интерактивная визуализация работы языковых моделей
Датавиз-художник Сантьяго Ортис создал интерактивный инструмент Moebio Mind, который показывает, как большие языковые модели генерируют текст. Проект визуализирует вероятностные процессы выбора следующего токена и траектории в многомерном семантическом пространстве.
Принцип работы
Языковая модель назначает вероятность каждому слову (токену), которое может появиться следующим, и повторяет этот процесс до завершения генерации. Moebio Mind демонстрирует этот механизм через несколько визуализаций.
Основные компоненты интерфейса:
Облако слов — размер слова отражает его вероятность появления в контексте
3D-куб связей — показывает взаимосвязи между токенами в семантическом пространстве
Траектории эмбеддингов — пути через 1536-мерное семантическое пространство
Техническая реализация
Для создания визуализации автор использует ChatGPT API, запуская один и тот же промпт сотни раз. Каждый текст имеет эмбеддинг — позицию в 1536-мерном пространстве, которое автор называет семантическим пространством.
Проект показывает траектории генерации: от начального промпта "Intelligence is" через промежуточные состояния "Intelligence is the", "Intelligence is the ability" до полного завершения фразы.
Образовательная ценность
Инструмент решает проблему понимания работы ИИ-систем. Обычно процессы выбора токенов скрыты от пользователя, что создает иллюзию "магии" в работе языковых моделей.
Что можно изучить:
Как модель оценивает вероятности разных продолжений
Почему модель выбирает конкретные слова в контексте
Как семантические связи влияют на генерацию
Принципы работы attention-механизмов в трансформерах
Визуализация помогает разработчикам и исследователям лучше понимать поведение моделей и отлаживать их работу.
Технические особенности
Проект требует значительных вычислительных ресурсов для рендеринга интерактивной 3D-графики и обработки многомерных данных в реальном времени. Автор рекомендует использовать десктопные браузеры из-за высокой нагрузки на GPU.
Архитектура включает:
WebGL для 3D-визуализации
Обработку API-ответов от языковых моделей
Алгоритмы снижения размерности для отображения эмбеддингов
Интерактивные элементы управления траекториями
Контекст и применение
Сантьяго Ортис — известный специалист по интерактивной визуализации данных, создающий проекты на стыке математики, науки и искусства. Moebio Mind продолжает его исследования в области объяснимого ИИ.
Инструмент полезен для:
Образования — понимание принципов работы LLM
Исследований — анализ поведения моделей
Разработки — отладка и оптимизация промптов
Демонстраций — наглядное объяснение ИИ-технологий
Проект показывает важность визуализации для понимания сложных алгоритмических процессов и делает "черный ящик" ИИ более прозрачным.
Нам важно, чтобы тестировать и внедрять AI в свои проекты могли компании любого размера. Поэтому с 1 ноября 2025 года объявляем доступные цены на открытые языковые модели в Evolution Foundation Models.
Вы сможете использовать популярные модели:
GLM-4.5 — 55 рублей за миллион входных токенов и 220 рублей за миллион выходных токенов;
Qwen3-235B — 17 и 50 рублей;
Qwen3-Coder — 40 и 80 рублей.
При этом средняя цена составит:
35 рублей за миллион входных токенов,
70 рублей за миллион выходных токенов.
Во-вторых, расширяем возможности нашего AI-помощника Клаудии 🤖
Теперь Клаудия может помогать с FinOps и SRE. Возьмет на себя:
мониторинг приложений и алертов по логам;
поиск неэффективно используемых ресурсов и формирование рекомендаций по оптимизации.
Помимо этого, AI-помощник уже умеет подбирать сервисы и конфигурации под задачу, разворачивать виртуальные машины, работать с консолью в режиме co-pilot, настраивать мониторинг и алерты.
Немного статистики за пару месяцев работы AI-помощника:
больше 4 000 пользователей обратились к Клаудии,
свыше 12 000 сообщений отправили,
в 15 раз ускорили рутинные операции.
✨ Самый популярный сценарий использования помощника — создание виртуальной машины под веб-серверы, сайты, Telegram-боты, тестовые окружения, веб-хостинг и другие pet-проекты. Раньше это занимало от 5 до 30 минут, а с Клаудией можно запустить ВМ за пару минут.
Если еще не тестировали нашего AI-помощника, переходите в личный кабинет Cloud.ru и ищите Клаудию в нижнем правом углу главной страницы.
«В Сан-Франциско самые аутичные рекламные щиты», — написал Габриэль Питерссон, работающий в OpenAI инженер программного обеспечения и исследователь ИИ. К твиту он приложил фотографию билборда, который удостоился такой характеристики.
Что тут происходит, догадаться легко. Знакомый с заменой текста токенами глаз сразу поймёт, что здесь перечислены номера токенов какой-то языковой модели. Но какой? Опытным путём удаётся установить, что это токенизатор GPT-4o, на данный момент самой популярной модели OpenAI. Номеру 64659 соответствует слово listen, 123310 — .ai, 75584 — /p и так далее. (Вернее сказать, что словам соответствуют токены. Обычно онлайн-инструменты предлагают оценить число токенов для кодирования текста, и найти инструмент для обратного преобразования — та ещё морока).
В результате получается полный УРЛ. По ссылке https://listenlabs.ai/puzzle стоит редирект на berghain.challenges.listenlabs.ai. На этой странице перечисляются правила игры Berghain Challenge: предлагают разработать алгоритм фейс-контроля, где с минимальным числом отказов нужно набрать зал из 1000 человек при множестве долевых ограничений («не менее 40 % берлинцев», «не менее 80% в чёрном» и так далее). Посетители приходят по одному, решение нужно принимать сразу, поток с известными частотами и корреляциями. Сценариев игры три. Людей придёт 20 тысяч, и если зал не набран — проигрыш.
Кроме условий и формы для регистрации для участия в челлендже на странице ведётся таблица со счётом. Как видно, уже больше тысячи человек попытались решить задачу. В таблице также указан результат модели ChatGPT-5 Pro, и лишь двое человек превзошли решение этой языковой модели.
Челлендж работает до 6 утра 15 сентября по часовому поясу Лос-Анджелеса. Победителя на самолёте отправят в Berghain, где подвергнут собеседованию в стартап Listen Labs. Формулировка непонятная — это будет билет в одноимённый берлинский ночной клуб, известный своим строжайшим фейс-контролем, или просто указание на пропуск нескольких раундов собесов? Впрочем, как поясняет сооснователь Listen Labs, это действительно будет вылет в Берлин.
Кстати, тема игры соответствует деятельности стартапа: в нём разрабатывают ИИ-модератора для качественных исследований, то есть бота, который сам проводит интервью с пользователями и суммирует инсайты.
На самом деле искать инженеров для найма таким способом — идея не новая. В комментариях к твиту вспомнили похожий билборд Google, доменное имя которого состояло из первого простого числа из 10 цифр, встречающихся в бесконечной последовательности после запятой у числа . Это было давно, в 2004 году, когда компания была куда меньше. Другой микроблогер замечает, что эти соревнования не только работают как критерий отбора, но и отлично привлекают соискателей особого склада ума.
Sapient представил HRM — ИИ-модель, имитирующую структуру мышления человека
Сингапурский стартап Sapient Intelligence выпустил в открытый доступ Hierarchical Reasoning Model (HRM) — архитектуру нейросети, основанную на принципах работы человеческого мозга. Модель с 27 миллионами параметров обучается на 1000 примерах и превосходит крупные языковые модели в задачах логического мышления.
Архитектура системы
HRM состоит из двух связанных рекуррентных модулей: высокоуровневого (H) для абстрактного планирования и низкоуровневого (L) для быстрых детальных вычислений. Такая структура позволяет избежать быстрой сходимости стандартных архитектур.
Принцип работы основан на двух типах мышления:
Абстрактное планирование — формирует общую стратегию решения
Детальные вычисления — обрабатывает конкретные операции и нюансы
Архитектура вдохновлена тем, как человеческий мозг использует отдельные системы для медленного обдуманного планирования и быстрых интуитивных вычислений. Это кардинально отличается от chain-of-thought подхода современных LLM.
Результаты тестирования
Модель достигает практически идеальных результатов, используя всего 27 миллионов параметров и около 1000 обучающих примеров без предобучения. Для сравнения — GPT-4 содержит триллионы параметров.
Benchmark ARC-AGI (оценка общего интеллекта):
Sapient HRM — 40,3%
o3-mini-high — 34,5%
Claude Sonnet — 21,2%
DeepSeek-R1 — 15,8%
Система превзошла ведущие LLM в сложном для ИИ бенчмарке, который считается одним из наиболее требовательных тестов рассуждения.
Технические преимущества
Эффективность обучения: Модель требует в разы меньше данных и памяти по сравнению с современными LLM. Это решает проблему растущих требований к вычислительным ресурсам.
Специализация задач: Иерархическая структура позволяет оптимизировать обработку разных типов задач — от судоку и лабиринтов до стратегического планирования.
Стабильность обучения: Архитектура обеспечивает устойчивость тренировки при значительной вычислительной глубине.
Практическое применение
HRM показывает эффективность в задачах, требующих пошагового логического анализа:
Решение головоломок и математических задач
Навигация в сложных средах
Стратегическое планирование
Анализ паттернов и закономерностей
Код модели опубликован на GitHub, что позволяет исследователям воспроизвести результаты и развивать архитектуру.
Значение для отрасли
Если результаты Sapient подтвердятся независимыми исследованиями, это может изменить вектор развития ИИ. Вместо наращивания параметров и данных фокус сместится на архитектурные инновации, вдохновленные нейробиологией.
Подход демонстрирует альтернативу гонке масштабирования — создание специализированных, эффективных моделей для конкретных классов задач.
Успей зарегистрироваться на GoCloud Tech 2025 — IT-конференцию про AI, облачную инфраструктуру и работу с данными ☁️ + 🤖 + 💿
Привет! Регистрация закроется 2 сентября в 17:00 по мск, так что еще есть возможность влететь в последний поезд и попасть на самое технологическое событие этой осени — IT-конференцию о создании решений на базе AI и облаков.
Напомним, что вас ждет:
4 трека: AI&ML, Cloud Infrastructure, Data&Analytics, Dev Platform Services;
демо и интерактивные зоны новых AI-сервисов и сервисов платформы Cloud․ru Evolution;