Машинное обучение *

Основа искусственного интеллекта

Работа с видео * Машинное обучение * Учебный процесс в ITОблачные сервисы * Искусственный интеллект

Представлен полный курс по Sora 2 от OpenAI, включая официальный гайд по промптам и созданию сцен с помощью нейросети: аниме, документалки, интервью с любыми персонажами, настройка камеры, света и генерация осмысленных диалогов.

Чем короче промпты — тем больше свободы у нейронки. Так вы дадите ИИ творческую свободу. Пример: In a 90s documentary-style interview, an old Swedish man sits in a study and says, "I still remember when I was young."

Настраиваем формат видео.

Format & Look: Duration 4s
180° shutter; digital capture emulating 65 mm photochemical contrast; fine grain; subtle halation on speculars; no gate weave.

Выставляем свет и создаём атмосферу:

Lighting & Atmosphere
Natural sunlight from camera left, low angle (07:30 AM).
Bounce: 4×4 ultrabounce silver from trackside.
Negative fill from opposite wall.
Practical: sodium platform lights on dim fade.
Atmos: gentle mist; train exhaust drift through light beam.

«Подбираем» камеру для съёмки. Увеличиваем или уменьшаем фокус, корректируем передний и задний планы:

Camera shot: wide shot, low angle
Depth of field: shallow (sharp on subject, blurred background)
Lighting + palette: warm backlight with soft rim

Ведём себя как настоящий режиссёр и контролируем, задаём игру актёров: Actor takes four steps to the window, pauses, and pulls the curtain in the final second.

[Описание сцены прозой простым языком. Опиши персонажей, костюмы, декорации, погоду и другие детали. Будь как можно более описательным, чтобы видео соответствовало твоему замыслу.]
Кинематография:
Кадр камеры: [композиция и угол съёмки, например: широкий план, уровень глаз]
Настроение: [общий тон, например: кинематографично и напряжённо, игриво и тревожно, роскошное ожидание]
Действия:
- [Действие 1: чёткое, конкретное движение или жест]
- [Действие 2: ещё один отдельный момент в клипе]
- [Действие 3: другое действие или реплика]
Диалоги:
[Если в кадре есть диалог, добавь короткие естественные реплики здесь или в списке действий. Делай их короткими, чтобы они уместились в длину клипа.]

denis-19

8 окт в 02:118K

Машинное обучение * Учебный процесс в ITКарьера в IT-индустрииИскусственный интеллектБудущее здесь

Вышел бесплатный курс Agentic AI по проектированию ИИ-агентов от создателя Cursor Эндрю Ына. В рамках проекта рассказывается как автоматизировать любые задачи и создать собственного помощника для исследований. Курс построили по последним разработкам в области, включая четыре паттерна дизайна агентов (Reflection — анализ ответов нейросетей и их улучшение, Tool Use — использование инструментов моделью, Planning — декомпозиция задач и Multy-agent Collaboration — создание целой команды ИИ-агентов), акцент на анализе ошибок и оценке ответов нейропомощников — без них не построить эффективные инструменты автоматизации.

denis-19

7 окт в 17:2311K

Машинное обучение * Управление проектами * Искусственный интеллект

«Сегодня переписал всю нашу документацию с помощью ИИ, предоставив доступ к нашей кодовой базе. Сделано 250 коммитов в 58 файлах. Работа выполнена отлично», — рассказал основатель SiteGPT.

andrew_brdk

7 окт в 08:305.7K

Big Data * Машинное обучение * Веб-аналитика * Аналитика мобильных приложений * Статистика в IT

Байесовские А/Б-тесты: конверсии

Блокнот: https://github.com/andrewbrdk/Bayesian-AB-Testing
Все видео: https://www.youtube.com/playlist?list=PLqgtGAeapsOPpV0FqeXEpWosHBW8ZebYl

GarantexAi

7 окт в 07:124.5K

Машинное обучение *

OpenAI представила AgentKit — комплексную платформу для разработки ИИ-агентов

На конференции DevDay 2025 OpenAI анонсировала AgentKit — набор инструментов для создания, развертывания и оптимизации ИИ-агентов с визуальным интерфейсом на основе узлов. Платформа объединяет Agent Builder, ChatKit, Evals и Connector Registry в единую экосистему разработки.

Архитектура платформы

AgentKit предоставляет полный стек для перехода агентов от прототипа к продакшену. Платформа поддерживает как визуальную разработку через drag-and-drop интерфейс, так и code-first подход через Responses API.

Основные компоненты:

Agent Builder — визуальный canvas для создания логики агентов
ChatKit — встраиваемый UI-тулкит для чата с агентами
Evals — инструменты оценки производительности агентов
Connector Registry — корпоративный реестр готовых коннекторов

Agent Builder

Визуальный интерфейс Agent Builder работает как n8n или Zapier, предоставляя drag-and-drop узлы для композиции рабочих процессов. Система поддерживает версионирование, preview-запуски и встроенную конфигурацию эвалюаций.

Возможности Builder:

Визуальное создание мультиагентных воркфлоу
Подключение инструментов и настройка guardrails
Полное версионирование для итерации
Встроенная конфигурация оценок
Быстрое прототипирование без кода

Интерфейс позволяет разработчикам быстро тестировать идеи и переходить к продакшн-версиям без переписывания архитектуры.

ChatKit для интерфейса

ChatKit предоставляет готовый UI для взаимодействия с агентами через чат. Компонент встраивается в существующие приложения и поддерживает выполнение агентских узлов через диалоговый интерфейс.

Toolkit обеспечивает консистентный UX для агентских взаимодействий без необходимости разрабатывать интерфейс с нуля.

Система оценки Evals

Расширенная система Evals интегрирована напрямую в workflow разработки. Инструменты позволяют оценивать производительность агентов, управлять датасетами и отслеживать метрики качества.

Функции Evals:

Автоматическое тестирование агентов
Управление тестовыми датасетами
Отслеживание производительности
Inline-конфигурация оценок в Builder

Connector Registry

Корпоративный реестр коннекторов предоставляет готовые интеграции для расширения возможностей агентов. Компоненты можно использовать как building blocks для быстрой сборки сложных воркфлоу.

Registry включает предварительно настроенные коннекторы к популярным сервисам и API, снижая время разработки интеграций.

Конкурентная позиция

AgentKit конкурирует с платформами вроде Zapier и n8n, но фокусируется на ИИ-агентах с использованием моделей OpenAI. Интеграция всего стека в единую платформу — ключевое преимущество.

Отличия от конкурентов:

Zapier/n8n — автоматизация без ИИ-агентов
LangChain — фреймворк для кода, без визуального интерфейса
AgentKit — полный стек от UI до деплоя

Доступность

Платформа доступна через OpenAI Platform для разработчиков и корпоративных клиентов. Agent Builder находится по адресу platform.openai.com/agent-builder.

Сэм Альтман отметил, что AgentKit снижает трение при переходе от прототипа к продакшену и предоставляет всё необходимое для оптимизации агентских воркфлоу.

Если материал был полезен, поставьте, пожалуйста, плюс — мы стараемся выбирать для вас только самые актуальные и интересные новости из мира ИИ.

Hedgehogues

6 окт в 09:003.9K

Машинное обучение * Управление проектами * Управление сообществом * Управление продуктом * Управление персоналом *

Обучение операторов: из стажёра в боевого за день

Мы провели эксперимент и убедились — классическое обучение можно не заменять, а ускорять

Зачем

Обычно оператор идёт по стандартному пути: неделя обучения, неделя адаптации, потом первые смены под контролем. Медленно. Мы проверили: можно ли сделать так, чтобы новичок уже в первую смену закрывал диалоги — и не наугад, а качественно.

Что сделали

Построили систему дообучения операторов на базе ChatGPT plugins.
Каждый плагин — типовой кейс: от «где мой заказ» до «верните деньги, но я без чека».
Оператор учится на примерах прямо в GPT, разбирает реальные кейсы, видит ответы и объяснения.
60–70 плагинов под самые типовые ситуации

Результат

Кол-во закрытых диалогов у новичков в первую смену выросло в 3 раза
Качество ответов не просело
Обучение стало дополнением к классике — не конкурирует, а усиливает
4 куратора на группу из 30 человек
7 аккаутов на ChatGPT по 30$

Что не заработало

Без базовой теории GPT не спасёт: нужен фундамент
Не все операторы готовы «учиться у машины»
Некоторые кейсы требуют тонкости, где GPT пока слабее человека
Проблема с оплатами в ChatGPT из-за отсутсвия доступа к Enterprise плану у GPT (они не дают и 60$+ за человека), а на team плане — плохая управляемость доступами

Бизнес-эффект

Быстрее вводим операторов в строй с увеличением в 3 раза закрываемых диалогов в первой смене
Стандартизируем ответы и сценарии
GPT-тренинг не заменяет академию — он её ускоряет
Операторы выходят в смену не «на авось», а уже с руками, натренированными на кейсах
Дальше — масштабирование и тонкая настройка под каналы и сегменты

-1

Editor_cloud_ru

5 окт в 14:5311K

Блог компании Cloud.ruIT-инфраструктура * Машинное обучение * Облачные сервисы * Искусственный интеллект

Как «Пятерочка» сэкономила четверть бюджета на рекламу, использовав AI-дублера Ольги Медынич 👩🎥

Что за компания

«Пятерочка» — крупнейшая российская сеть продовольственных магазинов «у дома», входит в состав компании X5 Retail Group. Объединяет более 20 тысяч магазинов в 69 регионах России.

Какая была задача

Ритейлер запланировал продвигать сыры своей марки Liebendorf, а еще — сократить расходы на рекламу. Важная задача заключалась в том, чтобы успеть сделать запуск до конца года — так, чтобы завоевать доверие покупателей, и уже в Новый год сыры Liebendorf оказались на столах россиян. При этом декабрь — загруженный сезон для съемочных студий и знаменитостей, и в связи с плотным графиком сложно найти у селебрети слот для съемок.

Как ее решили

В Cloud.ru предложили нестандартное решение: приобрести у Ольги Медынич права на использование ее образа, а вместо живых съемок использовать цифровой двойник актрисы. AI-двойника создали на базе платформы Evolution AI Factory, а над AI-образом актрисы работали специалисты института искусственного интеллекта AIRI.

За основу взяли open source модель DeepFaceLab: доработали ее под задачи «Пятерочки», дообучили на общедоступных изображениях Ольги Медынич, а после съемок заменили лицо дублера на лицо актрисы.

Что в результате

«Пятерочка» сэкономила четверть бюджета, заложенного на привлечение знаменитости. Подготовка к съемкам заняла неделю — при том, что обычно подготовка к производству рекламы с участием звезд занимает около месяца.

Читайте полный кейс, чтобы узнать детали и увидеть результат — тот самый рекламный ролик, для которого использовали дипфейк 🤖

GarantexAi

3 окт в 19:388.8K

Программирование * Алгоритмы * Машинное обучение *

Zhipu AI выпустила GLM-4.6 с контекстом 200K токенов и производительностью уровня Claude Sonnet 4

Китайская компания Zhipu AI (Z.ai) представила GLM-4.6 — обновленную версию флагманской модели с расширенным контекстом до 200K токенов и улучшенными способностями в программировании, рассуждениях и агентских задачах. Модель показывает паритет с Claude Sonnet 4 при снижении потребления токенов на 15%.

Технические улучшения

GLM-4.6 построена на архитектуре предшественника GLM-4.5 с существенными оптимизациями обработки длинного контекста и генерации кода. Модель тестировалась на восьми публичных бенчмарках, покрывающих агентов, рассуждения и программирование.

Ключевые характеристики:

Контекст расширен со 128K до 200K токенов
Улучшенная генерация фронтенд-кода
Многошаговые рассуждения с использованием инструментов
Интеграция в поисковые и инструментальные фреймворки
Снижение потребления токенов на 15% относительно GLM-4.5

Результаты бенчмарков

На LiveCodeBench v6 модель набрала 82.8 балла против 63.3 у GLM-4.5 — существенный прирост. Claude Sonnet 4 лидирует с 84.5, но разрыв минимальный. На SWE-bench Verified GLM-4.6 показала 68.0 против 64.2 у предшественника.

Производительность в бенчмарках:

LiveCodeBench v6: 82.8 (GLM-4.5: 63.3, Claude Sonnet 4: 84.5)
SWE-bench Verified: 68.0 (GLM-4.5: 64.2)
CC-Bench: 48.6% win rate против Claude Sonnet 4
Снижение токенов: 15% относительно GLM-4.5

Компания расширила CC-Bench более сложными задачами, где человеческие оценщики работали с моделями в изолированных Docker-контейнерах, выполняя многошаговые реальные задачи от фронтенд-разработки до анализа данных.

Практическое применение

GLM-4.6 интегрирована в популярные агенты кодирования: Claude Code, Kilo Code, Roo Code, Cline. Модель доступна через Z.ai API platform и OpenRouter для разработчиков.

Для программирования:

Генерация фронтенд-компонентов с логичной структурой
Создание инструментов и автоматизация
Анализ данных и тестирование
Алгоритмические задачи

Ценообразование и доступность

GLM Coding Plan предлагает производительность уровня Claude по цене в 7 раз ниже с троекратной квотой использования. Модель доступна через веб-интерфейс chat.z.ai и API.

Варианты доступа:

Веб-интерфейс Z.ai с выбором модели GLM-4.6
API через Z.ai platform и OpenRouter
Локальное развертывание через vLLM и SGLang
Веса модели на HuggingFace и ModelScope

Сравнение с конкурентами

GLM-4.6 показывает конкурентоспособность с DeepSeek-V3.2-Exp и Claude Sonnet 4, но отстает от Claude Sonnet 4.5 в программировании. Модель опережает китайские аналоги при использовании на 30% меньше токенов.

Конкурентная позиция:

Паритет с Claude Sonnet 4 в реальных задачах
Превосходство над китайскими альтернативами
Отставание от Claude Sonnet 4.5 в кодинге
Токен-эффективность выше на 15-30%

Архитектура и развертывание

Модель поддерживает современные фреймворки инференса для эффективного локального развертывания. Доступны базовая и чат-версии для различных сценариев использования.

Всесторонние инструкции по развертыванию опубликованы в официальном GitHub-репозитории с примерами интеграции и конфигурации.

Оценка реального использования

Компания подчеркивает, что реальный опыт важнее лидербордов. Траектории выполнения задач из CC-Bench опубликованы на HuggingFace для исследований сообщества, обеспечивая прозрачность оценки.

AlfaTeam

3 окт в 07:224.9K

Блог компании Альфа-БанкBig Data * Машинное обучение * Data Engineering *

Как мы ушли с Airflow и упростили MLOps

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS. За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Недавно мы полностью пересобрали пайплайны и мигрировали c Airflow на Argo Workflows + Argo CD. Делимся подробностями!

GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании...

habr.com

Почему Airflow стал мешать?

Airflow отлично подходит для десятков DAG’ов, но на масштабе сотен моделей появляются проблемы: всё усложняется, теряется Kubernetes-нативность, GitOps работает через костыли, а обновления DAG’ов становятся ручным трудом. Версионирование ломается, пайплайны идут десятками минут, и отлаживать их настоящая боль.

Почему Argo Workflows?

Argo — это K8s-native решение, декларативный подход, совместимость с GitOps, простейшее развертывание и минимум лишних компонентов. Для нас это был буквально глоток свежего воздуха. Вместо монолитного Kubeflow — один контроллер, никаких лишних слоёв и масштабируемость из коробки

Подробнее читайте в статье «GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows»

GarantexAi

2 окт в 08:213.8K

Машинное обучение * Исследования и прогнозы в IT *

xAI анонсировала Grokipedia — ИИ-энциклопедию на основе модели Grok

Компания xAI Илона Маска объявила о разработке Grokipedia — альтернативы Википедии с автоматической коррекцией ошибок через искусственный интеллект. Проект позиционируется как шаг к цели xAI "понять Вселенную" и должен стать open-source платформой с ИИ-модерацией контента.

Технология и архитектура

Grokipedia будет использовать модели Grok от xAI для создания корпуса знаний, аналогичного Википедии. Система применяет синтетические коррекции для переписывания информации из Википедии, книг и других онлайн-источников с автоматической проверкой фактов.

Заявленные возможности:

Автоматическая коррекция ошибок через ИИ
Проверка точности и фактологичности контента
Open-source архитектура
Интеграция с моделями Grok для генерации статей

Отличия от Википедии

Основное отличие — использование ИИ для автоматической верификации и коррекции информации вместо краудсорсинговой модели редактирования Википедии. Маск критикует Википедию за предвзятость и позиционирует Grokipedia как более нейтральную альтернативу.

Ключевые преимущества по версии xAI:

ИИ-проверка фактов в реальном времени
Снижение человеческой предвзятости
Более быстрое обновление информации
Автоматическое выявление противоречий

Контекст и мотивация

Анонс Grokipedia следует за длительной критикой Маском Википедии, которую он обвиняет в политической предвзятости. Проект вписывается в общую стратегию xAI по созданию альтернатив существующим информационным платформам.

Маск заявил, что Grokipedia — "необходимый шаг к цели xAI понять Вселенную", связывая проект с более широкой миссией компании по развитию общего искусственного интеллекта.

Технические вызовы

Создание ИИ-энциклопедии сталкивается с рядом фундаментальных проблем. Большие языковые модели склонны к галлюцинациям — генерации правдоподобно звучащей, но ложной информации.

Потенциальные проблемы:

Галлюцинации ИИ и генерация ложных фактов
Сложность верификации автоматически созданного контента
Отсутствие прозрачности процесса редактирования
Зависимость от качества обучающих данных

Модель управления контентом

Детали управления Grokipedia пока не раскрыты. Непонятно, будет ли сохранена краудсорсинговая модель редактирования или контент будет полностью генерироваться и модерироваться ИИ.

Вопрос прозрачности критичен — Википедия показывает историю правок и обсуждения, что обеспечивает подотчетность. Неясно, как Grokipedia будет решать эту проблему в ИИ-управляемой системе.

Конкуренция и рынок

Grokipedia не первая попытка создать альтернативу Википедии. Существуют Conservapedia, Citizendium и другие проекты, но ни один не достиг сопоставимого охвата и влияния.

Преимущества Википедии:

60+ миллионов статей на 300+ языках
Установленное доверие сообщества
Прозрачная модель редактирования
Некоммерческий статус

Сроки и доступность

Конкретные сроки запуска Grokipedia не объявлены. Маск заявил о разработке проекта в xAI, но детали технической реализации, модели финансирования и планов по выпуску не раскрыты.

Учитывая сложность задачи и амбициозность целей, реализация может занять значительное время и потребовать решения множества технических и этических вопросов.

atomlib

2 окт в 06:254.7K

Работа с видео * Машинное обучение * Научно-популярноеИскусственный интеллектСоциальные сети

Приложение Sora 2 доступно пока по приглашениям и работает только на устройствах Apple, но видеороликами из него забиты уже все ленты социальных сетей. Хотя это просто очередной генератор видео, OpenAI позиционирует приложение как соперника TikTok в деле разжижения мозгов и уничтожения способности удерживать внимание. Разница лишь в том, что контент создаёт генеративная нейросеть на основе промптов пользователей. Бесполезно проводить время предлагается за просмотром шлака от ИИ.

Заявляется, что относительно первой версии модель Sora 2 значительно более продвинутая. Это очевидно даже по описанию технических характеристик: Sora 2 генерирует 10-секундные клипы с синхронизированной аудиодорожкой, в то время как первая итерация модели умела создавать только видеоряд. Клипы могут быть ремиксом или начинаться со статичного изображения, а особую популярность снискала функция камео.

На практике это означает, что все ленты сейчас заполнены Сэмом Альтманом, ворующим игровые видеокарты из магазинов электроники. Ну а чего вы хотели? Фантазии у первопроходцев мало, да и его лицо в редакторе — это одно из предлагаемых. В лучшем случае он будет ползать по полу офиса OpenAI в кигуруми кота и истошно мяукать.

На самом деле интересные бенчмарки всё же придумывают. К примеру, как показывает Кристофер Фрайант, Sora 2 выдаёт отлично выглядящие 10-секундные клипы геймплея любой популярной видеоигры. Многие хвалят Sora 2 за отличное понимание физики.

Как утверждает дата-саентист из Meta¹ Колин Фрейзер, не всё так однозначно. У себя в микроблоге он показал несколько примеров откровенных косяков Sora 2. Ниже представлена склейка шести из них.

Здесь опробованы разные промпты. Чаще всего они связаны с отделением одного объекта от другого или их совмещением в единое целое. Как показал скептик, с взаимодействием объектов в кадре у Sora 2 откровенно туго:

Вылезающий из автомобиля человек. В ответ на промпт Фрейзера модель зажимает ногу человека дверью.
Прыгающий через обруч пёс никуда не прыгает.
Пиво ведёт себя как желе, у бармена с пальцами случилась каляка-маляка.
Кстати, попытки упростить промпт про вылезание из машины ничего хорошего не приносят.
Даже когда Колин явно задал в промпте состояние стакана, сосуд с апельсиновым соком опустошён до дна не был — уровень жидкости даже не изменился.
Ну и задувание свечей всё так же на реальность не походит.

Твиты Фрейзера вызвали резко негативную реакцию. У себя в микроблоге он пожаловался, что люди в ответ на поиск изъянов начинают злиться. Колин не понимает, почему многие настолько эмоционально инвестированы в какое-то приложение для генерации и листания видеороликов.

(1) Холдинговая компания Meta — экстремистская организация, её деятельность запрещена.

Hedgehogues

2 окт в 06:004.5K

Программирование * Машинное обучение *

Разбираю статью про обучение с подкрплением для самых маленьких и генерацию ответов

Все мы знаем, что большие модели любят учиться на готовых ответах. Но, угадай что? Готовых ответов у нас нет. Они либо дорогие, либо спорные, либо вообще непонятно какие. Представь, что у тебя есть только ты сам, твои черновики и пара свободных вечеров. Ну что, будем учиться на своих же косяках?

Вот для этого придумали Compute as Teacher (CaT). Работает оно так:

Пользователь кидает запрос. Ну там: «объясни квантовую физику бабушке».
Модель честно пишет сразу несколько версий ответа. Каждая по-своему кривая, но иногда попадаются удачные куски.
Другая копия этой же модели собирает из них «лучший хит» — вроде плейлиста «самое ок» из твоих старых песен.
Потом мы сравниваем все черновики с этим «финальным шедевром» и решаем: «ага, вот это было ближе, а это лучше забыть как страшный сон».
Модель сама делает выводы и в следующий раз уже тупит чуть меньше.

В итоге получается странная штука: модель учится без учителя, проверяя сама себя. Как если бы школьник писал 5 вариантов решения задачи, потом сам делал «сборку Франкенштейна» из них, и именно её принимал за эталон. А дальше наказывает себя за плохие черновики и хвалит за удачные.

И что самое весёлое — это реально работает. Без людей, без правильных ответов, без пафоса. Просто куча вычислений, которые модель тратит на то, чтобы спорить сама с собой и становиться чуть умнее.

Если коротко: CaT — это как спорить с самим собой в душе, только полезно

Ссылка на статью у меня в блоге, потому что у меня карма маленькая и тут я не могу всё опубликовать

—————

Менеджер? Давай сюда!
Ищи работу здесь
Технологии и архитектура

-3

denis-19

1 окт в 07:065.1K

Машинное обучение * Управление продажами * Искусственный интеллектФинансы в ITБудущее здесь

Аналитики Citigroup повысили прогноз по инвестициям в инфраструктуру искусственного интеллекта крупнейших IT-компаний. По их оценке, к 2029 году расходы превысят $2,8 трлн, тогда как ранее ожидалось $2,3 трлн. Рост вызван агрессивными вложениями облачных гигантов (Microsoft, Amazon, Alphabet) и растущим спросом бизнеса на вычислительные мощности.

Ожидается, что только к концу 2026 года затраты гиперскейлеров на ИИ-инфраструктуру достигнут $490 млрд против прежнего прогноза в $420 млрд. Основной драйвер инвестиций — взрывной рост запросов на обучение и работу ИИ-моделей. По оценкам, к 2030 году глобальный спрос на вычисления потребует дополнительно 55 ГВт мощности, а стоимость каждого гигаватта инфраструктуры достигает $50 млрд.

Примечательно, что на фоне ИИ-бума IT-компании больше не ограничиваются финансированием из прибыли — им приходится занимать средства. Эти расходы уже заметно сокращают свободные денежные потоки и инвесторы задаются вопросом, как бизнес продолжит поддерживать столь масштабные вложения в ИИ.

GarantexAi

30 сен в 21:046.5K

Работа с видео * Машинное обучение *

OpenAI представила Sora 2 с синхронизированным аудио и системой персонализированных камео

OpenAI выпустила вторую версию модели генерации видео Sora с поддержкой высококачественного аудио и функцией Cameo для создания персонализированных аватаров. Модель доступна через новое iOS-приложение с социальными функциями для США и Канады.

Технические характеристики

Команда OpenAI позиционирует Sora 2 как "GPT-3.5 момент" для генеративного видео — переход от proof-of-concept к практически применимой технологии. Модель генерирует видео с разрешением 720p при 30 FPS длительностью 5-10 секунд.

Ключевые возможности:

Синхронизированная генерация видео и аудио
Улучшенная симуляция физических процессов
Поддержка мультисценарных инструкций
Различные визуальные стили от фотореализма до анимации

Система Cameo

Функция Cameo позволяет создавать персонализированные аватары на основе однократной записи голоса и внешности. Система переносит внешний вид и голос в любые сгенерированные сцены.

Контроль безопасности:

Только авторизованные пользователи могут использовать ваш камео
Полная видимость всех видео с вашим образом
Возможность отзыва доступа в любой момент
Усиленные ограничения для несовершеннолетних
Блокировка дипфейков публичных персон без согласия

Симуляция физики

Основной прорыв касается моделирования сложных физических процессов. Модель корректно обрабатывает гимнастические трюки, отскок баскетбольного мяча, плавучесть при акробатике. Ранние модели демонстрировали артефакты при движении объектов — Sora 2 показывает существенное улучшение.

iOS-приложение

Параллельно запущено iOS-приложение с функциями социальной сети для создания видео, ремикса контента и просмотра персонализированной ленты ИИ-видео.

Возможности:

Создание видео из текстовых промптов
Ремикс существующего контента
Персонализированная лента на основе взаимодействий
Рекомендации через языковые модели OpenAI

OpenAI заявляет, что не оптимизирует приложение для максимизации времени в ленте, а фокусируется на стимулировании создания контента.

Доступность и монетизация

Приложение запускается по инвайтам в США и Канаде. Изначально Sora 2 будет бесплатной с "щедрыми лимитами". Pro-версия на sora.com стоит $200/месяц и обеспечивает доступ к расширенным возможностям. API в разработке для корпоративных клиентов.

Сравнение с конкурентами

Позиционирование:

Google Veo 3 — 1080p, снижение цен на 50%
Runway Gen-3 — профессиональный видеопродакшн
Pika — эффекты и анимация
Sora 2 — социальный подход с персонализацией

Ограничения

Текущая версия ограничена разрешением 720p и длительностью 5-10 секунд. Качество симуляции физики улучшено, но может демонстрировать артефакты в сложных сценах с множественными взаимодействующими объектами.

-1

denis-19

30 сен в 16:067.1K

Машинное обучение * Энергия и элементы питанияИскусственный интеллектБудущее здесьУрбанизм

Искусственный интеллект от OpenAI планирует потреблять больше энергии, чем Великобритания или Германия через пять лет, больше Индии за 8 лет. И таких компаний все больше — Anthropic Claude, Mistral, LLaMA, Cohere, Grok, Google AI, Bing Chat, Ernie Bot DeepSeek.

GarantexAi

29 сен в 15:575.8K

Машинное обучение *

DeepSeek представила V3.2-Exp с механизмом разреженного внимания для длинного контекста

Китайская компания DeepSeek выпустила экспериментальную модель V3.2-Exp с внедренным механизмом DeepSeek Sparse Attention. Новая архитектура оптимизирует обработку длинных контекстов, снижая вычислительные затраты в несколько раз при сохранении качества вывода на уровне V3.1-Terminus.

Архитектура разреженного внимания

DeepSeek Sparse Attention (DSA) реализует мелкозернистое разреженное внимание на уровне токенов. Механизм выбирает только релевантные части длинных текстов для обработки, радикально снижая требуемую вычислительную мощность.

Принцип работы DSA:

Динамическая иерархическая стратегия разреживания
Сочетание грубозернистого сжатия токенов с мелкозернистым отбором
Аппаратно-оптимизированный дизайн для эффективной реализации
Нативная интеграция в процесс обучения без постобработки

Традиционные механизмы внимания рассматривают каждое слово относительно всех других слов, что требует экспоненциально больше вычислительной мощности для длинных текстов. DSA решает эту проблему через селективную обработку.

Технические характеристики

V3.2-Exp построена на базе V3.1-Terminus с идентичными конфигурациями обучения для изоляции эффекта архитектурных изменений. Команда сознательно не оптимизировала модель под бенчмарки, чтобы продемонстрировать чистый прирост эффективности.

Результаты бенчмарков:

Производительность практически идентична V3.1-Terminus в тестах на рассуждение и кодинг
Небольшие просадки в тестах, чувствительных к количеству токенов рассуждения
Разрыв исчезает при сопоставимом бюджете токенов
Существенный прирост эффективности обработки длинного контекста

Снижение стоимости API

Архитектурные улучшения позволили существенно снизить стоимость использования через API. DeepSeek установила цены $0.28/$0.42 за миллион входных/выходных токенов — в 2 и 4 раза ниже соответственно, чем у V3.1-Terminus.

Это снижение цен более чем на 50% является частью стратегии DeepSeek в условиях жесткой ценовой конкуренции на китайском рынке ИИ с такими игроками как Z.ai (Zhipu) и Alibaba Qwen.

Контекст релиза и геополитика

V3.2-Exp представляет стратегический поворот после неопределенной задержки модели R2 в середине 2025 года. Задержка стала прямым следствием американо-китайской технологической войны, ограничившей доступ к высокопроизводительным чипам Nvidia.

DeepSeek столкнулась с техническими проблемами при попытке завершить успешный цикл обучения на отечественных чипах Huawei Ascend, что вынудило компанию вернуться к проверенному оборудованию Nvidia для вычислительно-интенсивной фазы обучения.

Open-source стратегия

Модель доступна на платформе Hugging Face под лицензией MIT, что поощряет широкое внедрение. DeepSeek также выпустила open-source ядра для исследований и высокопроизводительного использования.

Доступность:

Hugging Face под MIT-лицензией
Бесплатный доступ на сайте DeepSeek
Мобильные приложения для iOS и Android
API с низкой стоимостью использования

Техническая реализация

Native Sparse Attention (NSA) интегрирует алгоритмические инновации с аппаратно-ориентированными оптимизациями. Механизм обеспечивает эффективное моделирование длинного контекста, значительно ускоряя обработку без потери точности.

Архитектурные особенности:

Динамический отбор токенов на основе релевантности
Иерархическое сжатие для снижения размерности
Оптимизация под аппаратные ускорители
Нативная обучаемость без дополнительных этапов

Конкурентное позиционирование

Релиз происходит на фоне интенсивной ценовой войны в китайском ИИ-секторе, где конкуренты вроде Z.ai с моделью GLM-4.5 и Alibaba с Qwen3-Max активно подрывают позиции DeepSeek.

Многофронтовая стратегия компании включает открытие исходного кода, снижение цен и сигнал о продолжающихся инновациях даже в условиях глобальной чиповой войны.

Практические применения

V3.2-Exp оптимизирована для задач с длинным контекстом: анализ больших документов, обработка кодовых баз, многошаговые рассуждения. Снижение вычислительных затрат делает такие задачи более доступными.

GarantexAi

28 сен в 18:287.8K

Веб-разработка * Машинное обучение *

Gambo AI — платформа создания игр с автоматической генерацией ассетов и монетизацией

Стартап Gambo AI представил no-code платформу для создания игр по текстовым запросам. Система автоматически генерирует все игровые ассеты — графику, анимации, звуки, музыку — и собирает их в готовую играбельную игру за несколько минут.

Архитектура генерации контента

Gambo AI использует мультимодальный подход для создания игрового контента. Платформа анализирует текстовый промпт и генерирует соответствующие ассеты через специализированные ИИ-модели для каждого типа контента.

Генерируемые компоненты:

Графические ассеты — спрайты персонажей, тайлсеты, объекты окружения
Анимации — покадровая анимация персонажей и эффектов
Аудио контент — фоновая музыка и звуковые эффекты
Игровая логика — механики взаимодействия и правила геймплея
Карты уровней — автоматическая генерация игровых локаций

Технология "vibe coding"

Компания позиционирует свой подход как "vibe coding" — создание игр на основе общего описания атмосферы и концепции. Система интерпретирует нечеткие описания типа "ретро-аркада с пиксельной графикой" в конкретные технические решения.

Алгоритм анализирует семантику промпта, определяет жанр, стиль и механики, затем генерирует соответствующие ассеты и собирает их в функциональную игру.

Встроенная система монетизации

Gambo AI интегрирует рекламную систему напрямую в процесс создания игр. Пользователи могут добавлять рекламные блоки одной командой в промпте, что обеспечивает "day-one monetization".

Возможности монетизации:

Автоматическая интеграция рекламных сетей
Настройка частоты показа рекламы
A/B-тестирование рекламных форматов
Аналитика доходов в реальном времени

Примеры сгенерированных игр

На платформе представлены игры различных жанров: от аркадных шутеров до dating-симуляторов. Система создает игры разных жанров — аркады, головоломки, платформеры, симуляторы знакомств с уникальными игровыми механиками.

Технические характеристики игр:

HTML5/WebGL рендеринг для кросс-платформенности
Адаптивный интерфейс под различные разрешения
Поддержка мультиплеера для некоторых жанров
Интеграция с социальными сетями для шеринга

Редактор карт и ассетов

В разработке находится визуальный редактор для тонкой настройки сгенерированного контента. Пользователи смогут модифицировать карты, ассеты и игровую логику без программирования.

Редактор будет поддерживать drag-and-drop интерфейс, систему слоев для организации ассетов и preview в реальном времени.

Технические ограничения

Текущая версия генерирует преимущественно 2D-игры в пиксельной стилистике. Сложные 3D-проекты с продвинутой физикой пока не поддерживаются.

Ограничения платформы:

Ограниченный набор игровых жанров
Базовые ИИ-противники без сложного поведения
Отсутствие продвинутых визуальных эффектов
Ограниченная кастомизация игровых механик

Конкуренция на рынке

Gambo AI конкурирует с другими no-code игровыми движками типа GameMaker Studio, Construct 3, но выделяется полной автоматизацией создания ассетов через ИИ.

Сравнение с конкурентами:

GameMaker Studio — профессиональный инструмент с ручным созданием ассетов
Construct 3 — визуальное программирование с импортом графики
Gamine AI — аналогичная ИИ-платформа с фокусом на скорость
Gambo AI — полная автоматизация + встроенная монетизация

Модель доступа

Платформа предлагает freemium-модель с базовыми возможностями бесплатно и расширенным функционалом в платной подписке. Бесплатный план включает ограниченное количество генераций в месяц.

Коммерческое использование сгенерированных игр требует платной подписки и соблюдения лицензионных условий платформы.

Перспективы развития

Развитие Gambo AI направлено на расширение жанрового разнообразия и улучшение качества генерируемого контента. Планируется добавление поддержки 3D-игр и интеграции с игровыми движками.

Автоматизация создания игр может снизить барьер входа в геймдев и демократизировать разработку, но поднимает вопросы об оригинальности и художественной ценности автоматически генерируемого контента.

-2

denis-19

28 сен в 15:3410K

Машинное обучение * Учебный процесс в ITКарьера в IT-индустрииИскусственный интеллектБудущее здесь

OpenAI представили ресурс Prompt Packs — 300+ готовых промптов под конкретные профессии: от программистов и эйчаров до маркетологов и менеджеров по продажам.

Все материалы собраны в разделе Prompt Packs на сайте OpenAI Academy. Компания отмечает, что такие шаблоны помогают ускорить выполнение рутинных задач и лучше встроить ChatGPT в повседневную работу специалистов.

denis-19

28 сен в 10:438.3K

Машинное обучение * Учебный процесс в ITКарьера в IT-индустрииИскусственный интеллект

Разработчик Ли Робинсон (занимается обучением в ИИ-проекте Cursor) представил учебный курс Cursor Learn, который состоит из шести видеоуроков по основам ИИ и суммарно занимает около часа. Проект не посвящён машинному обучению или обучению собственных моделей, а предназначен для начинающих пользователей, которые хотят использовать нейросети в работе.

GarantexAi

26 сен в 17:477.8K

Алгоритмы * Машинное обучение *

Suno выпустила V5 — модель генерации музыки студийного качества с улучшенной вокальной синтезацией

Компания Suno AI представила пятую версию своей модели генерации музыки, которая стала доступна пользователям Pro и Premier подписок с 23 сентября 2025 года. V5 обеспечивает студийное качество аудио с натуральным вокалом и расширенным контролем над композиционными элементами.

Технические улучшения архитектуры

Suno V5 построена на новой композиционной архитектуре, которая обеспечивает более высокое качество аудиосинтеза по сравнению с предыдущими версиями. Модель генерирует аудио с частотой дискретизации, достаточной для студийного мастеринга.

Ключевые технические характеристики:

Улучшенная архитектура нейронной сети для композиции
Продвинутые алгоритмы вокального синтеза
Более точное понимание жанровых особенностей
Улучшенное качество микширования инструментов
Функция ремастеринга существующих треков

Качество вокального синтеза

Основное улучшение V5 касается натуральности вокальных партий. Система генерирует вокал, который приближается к качеству человеческого исполнения по интонациям, дыханию и эмоциональной выразительности.

Модель обучена на расширенном датасете вокальных записей различных жанров и стилей, что позволяет создавать аутентичные вокальные партии для разных музыкальных направлений.

Функция Personas

Вместе с V5 Suno внедрила систему Personas, позволяющую копировать и воспроизводить музыкальные стили. Пользователи могут создавать музыкальные профили с характерными особенностями исполнения и применять их для генерации новых композиций.

Возможности Personas:

Сохранение стилистических характеристик исполнителя
Создание консистентного музыкального образа
Применение стиля к различным жанрам и темпам
Формирование уникальных музыкальных идентичностей

Сравнение с предыдущими версиями

V5 значительно превосходит V3.5 по нескольким параметрам. Компания заявляет о третьем подряд релизе, превосходящем внешние разработки конкурентов в области ИИ-генерации музыки.

Улучшения относительно V3.5:

Более четкое и иммерсивное аудио
Естественные, аутентичные вокальные партии
Расширенный креативный контроль над элементами композиции
Улучшенное понимание жанров и микширование

Доступность и монетизация

V5 доступна исключительно пользователям платных подписок Pro и Premier, что отмечает переход Suno к премиум-модели для топовых возможностей. Бесплатные пользователи сохраняют доступ к предыдущим версиям модели.

Компания планирует постепенно выводить из эксплуатации V2 и V3 в течение 2-4 недель, сосредоточившись на поддержке более современных версий.

API и интеграция

На момент релиза официальный API для V5 отсутствует. Существующие неофициальные API-решения не гарантируют стабильность и могут нарушать условия использования Suno.

Для коммерческого применения рекомендуется ожидать официального API или использовать веб-интерфейс платформы.

Практические применения

Для музыкантов:

Создание демо-версий композиций
Генерация бэк-треков и аранжировок
Исследование новых музыкальных направлений
Быстрое прототипирование музыкальных идей

Для контент-мейкеров:

Создание фоновой музыки для видео
Генерация джинглов и звуковых логотипов
Подбор музыкального сопровождения под настроение контента
Создание уникальных саундтреков

Ограничения и правовые аспекты

Использование V5 ограничено условиями подписки и может включать ограничения на коммерческое использование. Генерируемая музыка подлежит тем же авторским правовым вопросам, что и другой ИИ-контент.

Пользователям рекомендуется ознакомиться с лицензионными условиями перед коммерческим применением сгенерированных композиций.

Конкурентная позиция

V5 усиливает позиции Suno как лидера в сфере ИИ-генерации музыки, конкурируя с решениями от AIVA, Amper Music и других разработчиков. Качество студийного уровня делает платформу привлекательной для профессионального применения в медиа-индустрии.

1 2 3 4 5

7 8 ...

34 35

Машинное обучение *

Ближайшие события

Вклад авторов