Обновить
776.92

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Приложение Sora 2 доступно пока по приглашениям и работает только на устройствах Apple, но видеороликами из него забиты уже все ленты социальных сетей. Хотя это просто очередной генератор видео, OpenAI позиционирует приложение как соперника TikTok в деле разжижения мозгов и уничтожения способности удерживать внимание. Разница лишь в том, что контент создаёт генеративная нейросеть на основе промптов пользователей. Бесполезно проводить время предлагается за просмотром шлака от ИИ.

Заявляется, что относительно первой версии модель Sora 2 значительно более продвинутая. Это очевидно даже по описанию технических характеристик: Sora 2 генерирует 10-секундные клипы с синхронизированной аудиодорожкой, в то время как первая итерация модели умела создавать только видеоряд. Клипы могут быть ремиксом или начинаться со статичного изображения, а особую популярность снискала функция камео.

На практике это означает, что все ленты сейчас заполнены Сэмом Альтманом, ворующим игровые видеокарты из магазинов электроники. Ну а чего вы хотели? Фантазии у первопроходцев мало, да и его лицо в редакторе — это одно из предлагаемых. В лучшем случае он будет ползать по полу офиса OpenAI в кигуруми кота и истошно мяукать.

На самом деле интересные бенчмарки всё же придумывают. К примеру, как показывает Кристофер Фрайант, Sora 2 выдаёт отлично выглядящие 10-секундные клипы геймплея любой популярной видеоигры. Многие хвалят Sora 2 за отличное понимание физики.

Как утверждает дата-саентист из Meta¹ Колин Фрейзер, не всё так однозначно. У себя в микроблоге он показал несколько примеров откровенных косяков Sora 2. Ниже представлена склейка шести из них.

Здесь опробованы разные промпты. Чаще всего они связаны с отделением одного объекта от другого или их совмещением в единое целое. Как показал скептик, с взаимодействием объектов в кадре у Sora 2 откровенно туго:

  1. Вылезающий из автомобиля человек. В ответ на промпт Фрейзера модель зажимает ногу человека дверью.

  2. Прыгающий через обруч пёс никуда не прыгает.

  3. Пиво ведёт себя как желе, у бармена с пальцами случилась каляка-маляка.

  4. Кстати, попытки упростить промпт про вылезание из машины ничего хорошего не приносят.

  5. Даже когда Колин явно задал в промпте состояние стакана, сосуд с апельсиновым соком опустошён до дна не был — уровень жидкости даже не изменился.

  6. Ну и задувание свечей всё так же на реальность не походит.

Твиты Фрейзера вызвали резко негативную реакцию. У себя в микроблоге он пожаловался, что люди в ответ на поиск изъянов начинают злиться. Колин не понимает, почему многие настолько эмоционально инвестированы в какое-то приложение для генерации и листания видеороликов.

(1) Холдинговая компания Meta — экстремистская организация, её деятельность запрещена.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Разбираю статью про обучение с подкрплением для самых маленьких и генерацию ответов

Все мы знаем, что большие модели любят учиться на готовых ответах. Но, угадай что? Готовых ответов у нас нет. Они либо дорогие, либо спорные, либо вообще непонятно какие. Представь, что у тебя есть только ты сам, твои черновики и пара свободных вечеров. Ну что, будем учиться на своих же косяках?

Вот для этого придумали Compute as Teacher (CaT). Работает оно так:

  1. Пользователь кидает запрос. Ну там: «объясни квантовую физику бабушке».

  2. Модель честно пишет сразу несколько версий ответа. Каждая по-своему кривая, но иногда попадаются удачные куски.

  3. Другая копия этой же модели собирает из них «лучший хит» — вроде плейлиста «самое ок» из твоих старых песен.

  4. Потом мы сравниваем все черновики с этим «финальным шедевром» и решаем: «ага, вот это было ближе, а это лучше забыть как страшный сон».

  5. Модель сама делает выводы и в следующий раз уже тупит чуть меньше.

В итоге получается странная штука: модель учится без учителя, проверяя сама себя. Как если бы школьник писал 5 вариантов решения задачи, потом сам делал «сборку Франкенштейна» из них, и именно её принимал за эталон. А дальше наказывает себя за плохие черновики и хвалит за удачные.

И что самое весёлое — это реально работает. Без людей, без правильных ответов, без пафоса. Просто куча вычислений, которые модель тратит на то, чтобы спорить сама с собой и становиться чуть умнее.

Если коротко: CaT — это как спорить с самим собой в душе, только полезно

Ссылка на статью у меня в блоге, потому что у меня карма маленькая и тут я не могу всё опубликовать

—————

Менеджер? Давай сюда!
Ищи работу здесь
Технологии и архитектура

Теги:
Всего голосов 3: ↑0 и ↓3-3
Комментарии0

Аналитики Citigroup повысили прогноз по инвестициям в инфраструктуру искусственного интеллекта крупнейших IT-компаний. По их оценке, к 2029 году расходы превысят $2,8 трлн, тогда как ранее ожидалось $2,3 трлн. Рост вызван агрессивными вложениями облачных гигантов (Microsoft, Amazon, Alphabet) и растущим спросом бизнеса на вычислительные мощности.

Ожидается, что только к концу 2026 года затраты гиперскейлеров на ИИ-инфраструктуру достигнут $490 млрд против прежнего прогноза в $420 млрд. Основной драйвер инвестиций — взрывной рост запросов на обучение и работу ИИ-моделей. По оценкам, к 2030 году глобальный спрос на вычисления потребует дополнительно 55 ГВт мощности, а стоимость каждого гигаватта инфраструктуры достигает $50 млрд.

Примечательно, что на фоне ИИ-бума IT-компании больше не ограничиваются финансированием из прибыли — им приходится занимать средства. Эти расходы уже заметно сокращают свободные денежные потоки и инвесторы задаются вопросом, как бизнес продолжит поддерживать столь масштабные вложения в ИИ.

Теги:
Рейтинг0
Комментарии1

OpenAI представила Sora 2 с синхронизированным аудио и системой персонализированных камео

OpenAI выпустила вторую версию модели генерации видео Sora с поддержкой высококачественного аудио и функцией Cameo для создания персонализированных аватаров. Модель доступна через новое iOS-приложение с социальными функциями для США и Канады.

Технические характеристики

Команда OpenAI позиционирует Sora 2 как "GPT-3.5 момент" для генеративного видео — переход от proof-of-concept к практически применимой технологии. Модель генерирует видео с разрешением 720p при 30 FPS длительностью 5-10 секунд.

Ключевые возможности:

  • Синхронизированная генерация видео и аудио

  • Улучшенная симуляция физических процессов

  • Поддержка мультисценарных инструкций

  • Различные визуальные стили от фотореализма до анимации

Система Cameo

Функция Cameo позволяет создавать персонализированные аватары на основе однократной записи голоса и внешности. Система переносит внешний вид и голос в любые сгенерированные сцены.

Контроль безопасности:

  • Только авторизованные пользователи могут использовать ваш камео

  • Полная видимость всех видео с вашим образом

  • Возможность отзыва доступа в любой момент

  • Усиленные ограничения для несовершеннолетних

  • Блокировка дипфейков публичных персон без согласия

Симуляция физики

Основной прорыв касается моделирования сложных физических процессов. Модель корректно обрабатывает гимнастические трюки, отскок баскетбольного мяча, плавучесть при акробатике. Ранние модели демонстрировали артефакты при движении объектов — Sora 2 показывает существенное улучшение.

iOS-приложение

Параллельно запущено iOS-приложение с функциями социальной сети для создания видео, ремикса контента и просмотра персонализированной ленты ИИ-видео.

Возможности:

  • Создание видео из текстовых промптов

  • Ремикс существующего контента

  • Персонализированная лента на основе взаимодействий

  • Рекомендации через языковые модели OpenAI

OpenAI заявляет, что не оптимизирует приложение для максимизации времени в ленте, а фокусируется на стимулировании создания контента.

Доступность и монетизация

Приложение запускается по инвайтам в США и Канаде. Изначально Sora 2 будет бесплатной с "щедрыми лимитами". Pro-версия на sora.com стоит $200/месяц и обеспечивает доступ к расширенным возможностям. API в разработке для корпоративных клиентов.

Сравнение с конкурентами

Позиционирование:

  • Google Veo 3 — 1080p, снижение цен на 50%

  • Runway Gen-3 — профессиональный видеопродакшн

  • Pika — эффекты и анимация

  • Sora 2 — социальный подход с персонализацией

Ограничения

Текущая версия ограничена разрешением 720p и длительностью 5-10 секунд. Качество симуляции физики улучшено, но может демонстрировать артефакты в сложных сценах с множественными взаимодействующими объектами.

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Искусственный интеллект от OpenAI планирует потреблять больше энергии, чем Великобритания или Германия через пять лет, больше Индии за 8 лет. И таких компаний все больше — Anthropic Claude, Mistral, LLaMA, Cohere, Grok, Google AI, Bing Chat, Ernie Bot DeepSeek.

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии1

DeepSeek представила V3.2-Exp с механизмом разреженного внимания для длинного контекста

Китайская компания DeepSeek выпустила экспериментальную модель V3.2-Exp с внедренным механизмом DeepSeek Sparse Attention. Новая архитектура оптимизирует обработку длинных контекстов, снижая вычислительные затраты в несколько раз при сохранении качества вывода на уровне V3.1-Terminus.

Архитектура разреженного внимания

DeepSeek Sparse Attention (DSA) реализует мелкозернистое разреженное внимание на уровне токенов. Механизм выбирает только релевантные части длинных текстов для обработки, радикально снижая требуемую вычислительную мощность.

Принцип работы DSA:

  • Динамическая иерархическая стратегия разреживания

  • Сочетание грубозернистого сжатия токенов с мелкозернистым отбором

  • Аппаратно-оптимизированный дизайн для эффективной реализации

  • Нативная интеграция в процесс обучения без постобработки

Традиционные механизмы внимания рассматривают каждое слово относительно всех других слов, что требует экспоненциально больше вычислительной мощности для длинных текстов. DSA решает эту проблему через селективную обработку.

Технические характеристики

V3.2-Exp построена на базе V3.1-Terminus с идентичными конфигурациями обучения для изоляции эффекта архитектурных изменений. Команда сознательно не оптимизировала модель под бенчмарки, чтобы продемонстрировать чистый прирост эффективности.

Результаты бенчмарков:

  • Производительность практически идентична V3.1-Terminus в тестах на рассуждение и кодинг

  • Небольшие просадки в тестах, чувствительных к количеству токенов рассуждения

  • Разрыв исчезает при сопоставимом бюджете токенов

  • Существенный прирост эффективности обработки длинного контекста

Снижение стоимости API

Архитектурные улучшения позволили существенно снизить стоимость использования через API. DeepSeek установила цены $0.28/$0.42 за миллион входных/выходных токенов — в 2 и 4 раза ниже соответственно, чем у V3.1-Terminus.

Это снижение цен более чем на 50% является частью стратегии DeepSeek в условиях жесткой ценовой конкуренции на китайском рынке ИИ с такими игроками как Z.ai (Zhipu) и Alibaba Qwen.

Контекст релиза и геополитика

V3.2-Exp представляет стратегический поворот после неопределенной задержки модели R2 в середине 2025 года. Задержка стала прямым следствием американо-китайской технологической войны, ограничившей доступ к высокопроизводительным чипам Nvidia.

DeepSeek столкнулась с техническими проблемами при попытке завершить успешный цикл обучения на отечественных чипах Huawei Ascend, что вынудило компанию вернуться к проверенному оборудованию Nvidia для вычислительно-интенсивной фазы обучения.

Open-source стратегия

Модель доступна на платформе Hugging Face под лицензией MIT, что поощряет широкое внедрение. DeepSeek также выпустила open-source ядра для исследований и высокопроизводительного использования.

Доступность:

  • Hugging Face под MIT-лицензией

  • Бесплатный доступ на сайте DeepSeek

  • Мобильные приложения для iOS и Android

  • API с низкой стоимостью использования

Техническая реализация

Native Sparse Attention (NSA) интегрирует алгоритмические инновации с аппаратно-ориентированными оптимизациями. Механизм обеспечивает эффективное моделирование длинного контекста, значительно ускоряя обработку без потери точности.

Архитектурные особенности:

  • Динамический отбор токенов на основе релевантности

  • Иерархическое сжатие для снижения размерности

  • Оптимизация под аппаратные ускорители

  • Нативная обучаемость без дополнительных этапов

Конкурентное позиционирование

Релиз происходит на фоне интенсивной ценовой войны в китайском ИИ-секторе, где конкуренты вроде Z.ai с моделью GLM-4.5 и Alibaba с Qwen3-Max активно подрывают позиции DeepSeek.

Многофронтовая стратегия компании включает открытие исходного кода, снижение цен и сигнал о продолжающихся инновациях даже в условиях глобальной чиповой войны.

Практические применения

V3.2-Exp оптимизирована для задач с длинным контекстом: анализ больших документов, обработка кодовых баз, многошаговые рассуждения. Снижение вычислительных затрат делает такие задачи более доступными.

Теги:
Рейтинг0
Комментарии0

Gambo AI — платформа создания игр с автоматической генерацией ассетов и монетизацией

Стартап Gambo AI представил no-code платформу для создания игр по текстовым запросам. Система автоматически генерирует все игровые ассеты — графику, анимации, звуки, музыку — и собирает их в готовую играбельную игру за несколько минут.

Архитектура генерации контента

Gambo AI использует мультимодальный подход для создания игрового контента. Платформа анализирует текстовый промпт и генерирует соответствующие ассеты через специализированные ИИ-модели для каждого типа контента.

Генерируемые компоненты:

  • Графические ассеты — спрайты персонажей, тайлсеты, объекты окружения

  • Анимации — покадровая анимация персонажей и эффектов

  • Аудио контент — фоновая музыка и звуковые эффекты

  • Игровая логика — механики взаимодействия и правила геймплея

  • Карты уровней — автоматическая генерация игровых локаций

Технология "vibe coding"

Компания позиционирует свой подход как "vibe coding" — создание игр на основе общего описания атмосферы и концепции. Система интерпретирует нечеткие описания типа "ретро-аркада с пиксельной графикой" в конкретные технические решения.

Алгоритм анализирует семантику промпта, определяет жанр, стиль и механики, затем генерирует соответствующие ассеты и собирает их в функциональную игру.

Встроенная система монетизации

Gambo AI интегрирует рекламную систему напрямую в процесс создания игр. Пользователи могут добавлять рекламные блоки одной командой в промпте, что обеспечивает "day-one monetization".

Возможности монетизации:

  • Автоматическая интеграция рекламных сетей

  • Настройка частоты показа рекламы

  • A/B-тестирование рекламных форматов

  • Аналитика доходов в реальном времени

Примеры сгенерированных игр

На платформе представлены игры различных жанров: от аркадных шутеров до dating-симуляторов. Система создает игры разных жанров — аркады, головоломки, платформеры, симуляторы знакомств с уникальными игровыми механиками.

Технические характеристики игр:

  • HTML5/WebGL рендеринг для кросс-платформенности

  • Адаптивный интерфейс под различные разрешения

  • Поддержка мультиплеера для некоторых жанров

  • Интеграция с социальными сетями для шеринга

Редактор карт и ассетов

В разработке находится визуальный редактор для тонкой настройки сгенерированного контента. Пользователи смогут модифицировать карты, ассеты и игровую логику без программирования.

Редактор будет поддерживать drag-and-drop интерфейс, систему слоев для организации ассетов и preview в реальном времени.

Технические ограничения

Текущая версия генерирует преимущественно 2D-игры в пиксельной стилистике. Сложные 3D-проекты с продвинутой физикой пока не поддерживаются.

Ограничения платформы:

  • Ограниченный набор игровых жанров

  • Базовые ИИ-противники без сложного поведения

  • Отсутствие продвинутых визуальных эффектов

  • Ограниченная кастомизация игровых механик

Конкуренция на рынке

Gambo AI конкурирует с другими no-code игровыми движками типа GameMaker Studio, Construct 3, но выделяется полной автоматизацией создания ассетов через ИИ.

Сравнение с конкурентами:

  • GameMaker Studio — профессиональный инструмент с ручным созданием ассетов

  • Construct 3 — визуальное программирование с импортом графики

  • Gamine AI — аналогичная ИИ-платформа с фокусом на скорость

  • Gambo AI — полная автоматизация + встроенная монетизация

Модель доступа

Платформа предлагает freemium-модель с базовыми возможностями бесплатно и расширенным функционалом в платной подписке. Бесплатный план включает ограниченное количество генераций в месяц.

Коммерческое использование сгенерированных игр требует платной подписки и соблюдения лицензионных условий платформы.

Перспективы развития

Развитие Gambo AI направлено на расширение жанрового разнообразия и улучшение качества генерируемого контента. Планируется добавление поддержки 3D-игр и интеграции с игровыми движками.

Автоматизация создания игр может снизить барьер входа в геймдев и демократизировать разработку, но поднимает вопросы об оригинальности и художественной ценности автоматически генерируемого контента.

Теги:
Всего голосов 2: ↑0 и ↓2-2
Комментарии0

OpenAI представили ресурс Prompt Packs — 300+ готовых промптов под конкретные профессии: от программистов и эйчаров до маркетологов и менеджеров по продажам.

Все материалы собраны в разделе Prompt Packs на сайте OpenAI Academy. Компания отмечает, что такие шаблоны помогают ускорить выполнение рутинных задач и лучше встроить ChatGPT в повседневную работу специалистов.

Теги:
Всего голосов 3: ↑3 и ↓0+6
Комментарии0

Разработчик Ли Робинсон (занимается обучением в ИИ-проекте Cursor) представил учебный курс Cursor Learn, который состоит из шести видеоуроков по основам ИИ и суммарно занимает около часа. Проект не посвящён машинному обучению или обучению собственных моделей, а предназначен для начинающих пользователей, которые хотят использовать нейросети в работе.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Suno выпустила V5 — модель генерации музыки студийного качества с улучшенной вокальной синтезацией

Компания Suno AI представила пятую версию своей модели генерации музыки, которая стала доступна пользователям Pro и Premier подписок с 23 сентября 2025 года. V5 обеспечивает студийное качество аудио с натуральным вокалом и расширенным контролем над композиционными элементами.

Технические улучшения архитектуры

Suno V5 построена на новой композиционной архитектуре, которая обеспечивает более высокое качество аудиосинтеза по сравнению с предыдущими версиями. Модель генерирует аудио с частотой дискретизации, достаточной для студийного мастеринга.

Ключевые технические характеристики:

  • Улучшенная архитектура нейронной сети для композиции

  • Продвинутые алгоритмы вокального синтеза

  • Более точное понимание жанровых особенностей

  • Улучшенное качество микширования инструментов

  • Функция ремастеринга существующих треков

Качество вокального синтеза

Основное улучшение V5 касается натуральности вокальных партий. Система генерирует вокал, который приближается к качеству человеческого исполнения по интонациям, дыханию и эмоциональной выразительности.

Модель обучена на расширенном датасете вокальных записей различных жанров и стилей, что позволяет создавать аутентичные вокальные партии для разных музыкальных направлений.

Функция Personas

Вместе с V5 Suno внедрила систему Personas, позволяющую копировать и воспроизводить музыкальные стили. Пользователи могут создавать музыкальные профили с характерными особенностями исполнения и применять их для генерации новых композиций.

Возможности Personas:

  • Сохранение стилистических характеристик исполнителя

  • Создание консистентного музыкального образа

  • Применение стиля к различным жанрам и темпам

  • Формирование уникальных музыкальных идентичностей

Сравнение с предыдущими версиями

V5 значительно превосходит V3.5 по нескольким параметрам. Компания заявляет о третьем подряд релизе, превосходящем внешние разработки конкурентов в области ИИ-генерации музыки.

Улучшения относительно V3.5:

  • Более четкое и иммерсивное аудио

  • Естественные, аутентичные вокальные партии

  • Расширенный креативный контроль над элементами композиции

  • Улучшенное понимание жанров и микширование

Доступность и монетизация

V5 доступна исключительно пользователям платных подписок Pro и Premier, что отмечает переход Suno к премиум-модели для топовых возможностей. Бесплатные пользователи сохраняют доступ к предыдущим версиям модели.

Компания планирует постепенно выводить из эксплуатации V2 и V3 в течение 2-4 недель, сосредоточившись на поддержке более современных версий.

API и интеграция

На момент релиза официальный API для V5 отсутствует. Существующие неофициальные API-решения не гарантируют стабильность и могут нарушать условия использования Suno.

Для коммерческого применения рекомендуется ожидать официального API или использовать веб-интерфейс платформы.

Практические применения

Для музыкантов:

  • Создание демо-версий композиций

  • Генерация бэк-треков и аранжировок

  • Исследование новых музыкальных направлений

  • Быстрое прототипирование музыкальных идей

Для контент-мейкеров:

  • Создание фоновой музыки для видео

  • Генерация джинглов и звуковых логотипов

  • Подбор музыкального сопровождения под настроение контента

  • Создание уникальных саундтреков

Ограничения и правовые аспекты

Использование V5 ограничено условиями подписки и может включать ограничения на коммерческое использование. Генерируемая музыка подлежит тем же авторским правовым вопросам, что и другой ИИ-контент.

Пользователям рекомендуется ознакомиться с лицензионными условиями перед коммерческим применением сгенерированных композиций.

Конкурентная позиция

V5 усиливает позиции Suno как лидера в сфере ИИ-генерации музыки, конкурируя с решениями от AIVA, Amper Music и других разработчиков. Качество студийного уровня делает платформу привлекательной для профессионального применения в медиа-индустрии.

Теги:
Рейтинг0
Комментарии0

Менеджер Stripe Кэмерон Маттис простым способом отфильтровывает ИИ-рекрутеров, он добавил в раздел «О себе» в LinkedIn простой промпт для нейросетей с просьбой вставить в сообщение рецепт испанского пудинга. Это работает, ему присылают рецепты в предложениях о работе.

Теги:
Всего голосов 4: ↑4 и ↓0+5
Комментарии0

Составили рекомендации, как безопасно разрабатывать ИИ‑агентов и мультиагентные системы

Команда Security Yandex Cloud опубликовала руководство по снижению рисков при разработке и внедрении агентов на базе LLM. Мы обобщили опыт создания агентов для ML, Security и других сервисов Яндекса, которые уже используют агентную систему и генеративные технологии компании.

Результатом этой работы стал подход к разработке модели угроз при внедрении, а также методы защиты для ключевых компонентов:

  • самих генеративных моделей,

  • модулей и баз знаний, которые используются в работе ИИ‑агентов.

Особое внимание мы уделили безопасности данных и предотвращению рисков, возникающих из‑за автономности агентов.

Читать документ

При подготовке рекомендаций мы также учли лучшие практики международных организаций, включая OWASP®, NIST и MITRE ATT&CK®.

Предложенные в документе принципы безопасной разработки используются на всех этапах при создании автономных или взаимодействующих между собой ИИ‑агентов в сервисах Яндекса. Команды безопасности ещё на стадии проектирования изучают будущую архитектуру и проверяет её на безопасность. Затем специалисты тестируют код на возможные уязвимости и проверяют на соответствие стандартам безопасной разработки.

Яндекс также изучает возможные способы атак на нейросети и разрабатывает защиту от потенциальных угроз. Антиробот Яндекса защищает ИИ‑сервисы от злоупотребления и эксплуатации уязвимостей. Сервис Yandex Smart Web Security теперь содержит ML WAF — технологию для защиты от веб‑атак на основе машинного обучения, которая даёт более широкое покрытие векторов атак за счёт сочетания сигнатурного анализа и ML. Центр мониторинга выявляет угрозы и анализирует подозрительную активность в инфраструктуре. Ещё один инструмент для проверки и усиления безопасности ИИ — направление программы Яндекса «Охоты за ошибками», связанное с генеративными нейросетями.

Теги:
Всего голосов 9: ↑9 и ↓0+9
Комментарии0

Google Labs запустила Mixboard — ИИ-платформу для создания интерактивных мудбордов

Google представила экспериментальную платформу Mixboard для визуального концептинга с поддержкой ИИ-генерации изображений. Сервис объединяет функциональность интерактивной доски с возможностями новой модели редактирования изображений Nano Banana, позволяя создавать и миксовать визуальный контент через естественные языковые команды.

Архитектура и функциональность

Mixboard построена на базе Google Labs как экспериментальная платформа для исследования применений генеративного ИИ в креативных процессах. Система использует открытый canvas-интерфейс с интегрированными возможностями генерации и редактирования изображений.

Основные технические возможности:

  • Генерация изображений из текстовых промптов

  • Редактирование через естественные языковые команды

  • Пакетная генерация связанного контента по теме

  • Комбинирование и миксование загруженных изображений

  • Контекстная генерация текста на основе визуального контента

Модель Nano Banana

Ключевая техническая особенность — интеграция новой модели редактирования изображений Nano Banana. Модель позволяет вносить точечные изменения в существующие изображения через текстовые команды без перегенерации всего контента.

Возможности Nano Banana:

  • Локальные изменения в определенных областях изображения

  • Комбинирование элементов из разных источников

  • Адаптация стиля и цветовой схемы

  • Сохранение общей композиции при внесении изменений

Интерфейс и workflow

Платформа предлагает два способа создания проектов: генерация с нуля из текстового промпта или использование готовых шаблонов. Система автоматически предлагает релевантные визуальные элементы и позволяет создавать вариации одним кликом.

Функции интерфейса:

  • Drag-and-drop размещение элементов на canvas

  • Инструменты "regenerate" и "more like this" для создания вариаций

  • Импорт собственных изображений с возможностью ИИ-обработки

  • Экспорт готовых мудбордов в различных форматах

Сравнение с конкурентами

Mixboard позиционируется как альтернатива Pinterest и Canva с акцентом на ИИ-ассистированное создание контента. В отличие от коллажного подхода Pinterest, платформа генерирует оригинальный визуальный контент без зависимости от существующих изображений.

Отличия от аналогов:

  • Pinterest — курирование существующего контента vs генерация нового

  • Canva — шаблонный дизайн vs свободное концептирование

  • Miro — collaborative whiteboarding vs ИИ-ассистированная визуализация

  • Figma — UI/UX дизайн vs креативное исследование идей

Технические ограничения

Платформа находится в публичной бета-версии с доступом только для пользователей из США. Это связано с ограничениями генеративных ИИ-моделей Google и требованиями локального законодательства по контенту.

Система работает через веб-интерфейс без возможности офлайн-использования. Качество генерации зависит от специфичности промптов и может требовать итеративного уточнения для достижения желаемого результата.

Практические применения

Для дизайнеров:

  • Быстрое создание концептуальных мудбордов

  • Исследование визуальных направлений проекта

  • Генерация альтернативных вариаций дизайн-решений

Для маркетологов:

  • Создание визуальных концепций кампаний

  • Тестирование креативных подходов

  • Подготовка материалов для брифинга агентствам

Для разработчиков продуктов:

  • Визуализация пользовательских сценариев

  • Создание референсов для UI/UX команды

  • Исследование визуальной идентичности продукта

Интеграция с экосистемой Google

Mixboard требует Google-аккаунт и интегрируется с другими сервисами Google Labs. Платформа использует инфраструктуру Google Cloud для генерации и обработки изображений, что обеспечивает масштабируемость и производительность.

Техническая интеграция:

  • Синхронизация проектов через Google Drive

  • Возможность встраивания в Google Slides и Docs

  • API для интеграции с внешними инструментами

  • Discord-сообщество для обратной связи и обновлений

Перспективы развития

Как экспериментальный продукт Google Labs, Mixboard служит полигоном для тестирования новых подходов к ИИ-ассистированному креативному процессу. Результаты могут быть интегрированы в

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Ближайшие события

Как вайб-кодить с вайбом, а не с техдолгом и багами 👨‍💻✨

Разберемся в этом на вебинаре с нашим техническим экспертом Сашей Константиновым. Будет полезно всем, кто работает с кодом и данными — вы узнаете, как с помощью AI писать код быстрее и не проседать при этом в качестве.

Поговорим о том, как:

  • Научить IDE кодить в вашем стиле, предсказуемо и по нужным стандартам.

  • Подключить языковую модель к VS Code. Рассмотрим все на примере LLM из Evolution Foundation Models.

  • Мониторить безопасность и качество кода в SonarQube.

📅 Когда? 30 сентября в 11 по мск.

📍 Где? Онлайн — вам осталось только зарегистрироваться →

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

«Найди то, не знаю что» среди миллиарда сущностей 😱

Примерно так звучат задачи специалистов, которые работают с LLM. В новом выпуске нашего подкаста «Кофе-брейк» развеиваем миф о том, что ИИ отберёт у всех нас работу (спойлер: не у всех), и обсуждаем, как вообще устроен поиск по ключевым словам. А помогает нам в этом Денис Шавейников — руководитель команды поиска VK.

Хватайте капучино и включайте выпуск ☕️

Теги:
Всего голосов 14: ↑13 и ↓1+16
Комментарии0

Байесовские А/Б-тесты: примеры байесовского моделирования

-Блокнот: https://github.com/andrewbrdk/Bayesian-AB-Testing
-Все видео: https://www.youtube.com/playlist?list=PLqgtGAeapsOPpV0FqeXEpWosHBW8ZebYl

Теги:
Рейтинг0
Комментарии0

Napkin AI обновила алгоритмы генерации интеллект-карт с адаптивным редактированием

Платформа автоматической визуализации Napkin AI выпустила обновление системы создания интеллект-карт. Новые алгоритмы поддерживают множественные форматы, адаптивные ориентации и редактирование с сохранением структуры макета без перестроения связей между узлами.

Технические улучшения

Система использует алгоритмы обработки естественного языка для анализа структуры текста и автоматического выбора оптимального типа визуализации. Новые интеллект-карты поддерживают горизонтальные, вертикальные и компактные форматы, автоматически подстраивая интервалы и организацию при редактировании.

Ключевые технические особенности:

  • Парсинг иерархических структур из неструктурированного текста

  • Автоматическое определение уровней детализации и сложности

  • Динамическая адаптация макета без перестроения DOM-структуры

  • Поддержка экспорта в векторные форматы (SVG, PDF)

Алгоритм адаптивного редактирования

Основная техническая проблема традиционных систем mind mapping — необходимость полной перерисовки при изменении узлов из-за сложных зависимостей. Napkin AI решает это через алгоритм сохранения топологии.

Принцип работы:

  1. Система создает граф связей независимо от визуального представления

  2. При редактировании изменяется только содержимое узлов

  3. Макет автоматически перестраивается с сохранением общей структуры

  4. Алгоритм балансировки распределяет элементы без пересечений

Архитектура системы

Napkin AI состоит из нескольких модулей: анализатора текста, генератора визуальных схем и рендеринга. Анализатор использует NLP-модели для извлечения ключевых концепций и их связей.

Компоненты обработки:

  • Text Parser — выделение сущностей и связей

  • Layout Engine — размещение элементов с минимизацией пересечений

  • Style Generator — применение визуальных стилей под тип контента

  • Export Module — конвертация в различные форматы

Типы генерируемых структур

Система автоматически определяет подходящий тип визуализации на основе анализа текста. Для иерархических данных создаются древовидные структуры, для процессов — линейные схемы, для концептуальных связей — сетевые графы.

Napkin генерирует различные форматы интеллект-карт со стилевыми опциями для передачи разных уровней детализации, что позволяет адаптировать визуализацию под конкретную задачу.

Сравнение с существующими решениями

Отличия от классических mind mapping инструментов:

  • Автоматическая генерация структуры из текста vs ручное создание

  • Сохранение макета при редактировании vs полная перерисовка

  • ИИ-определение оптимального формата vs фиксированные шаблоны

Конкуренты и позиционирование:

  • XMind, MindMeister — ручное создание карт

  • Lucidchart — фокус на диаграммах процессов

  • Miro — collaborative whiteboarding

  • Napkin AI — автоматическая генерация из текста

Практические применения

Для разработчиков:

  • Визуализация архитектуры систем из технической документации

  • Создание диаграмм зависимостей проектов

  • Генерация схем API и data flow

Для технических писателей:

  • Структурирование сложных технических концепций

  • Создание диаграмм для документации

  • Визуализация пользовательских сценариев

Ограничения и особенности

Качество результата зависит от структурированности исходного текста. Хаотичные заметки требуют предварительной обработки. Система работает лучше с логически организованной информацией с четкими иерархическими связями.

Текущая версия поддерживает английский язык с ограниченной поддержкой других языков. Сложные научные термины могут интерпретироваться неточно без контекстной настройки.

Интеграция и API

Платформа предоставляет REST API для интеграции с внешними системами. Поддерживается импорт из популярных форматов (Markdown, JSON) и экспорт в векторные и растровые форматы.

Доступные интеграции:

  • Google Docs через расширение

  • Slack для создания визуализаций в чатах

  • Notion для встраивания интерактивных диаграмм

  • API для кастомных приложений

Система предлагает бесплатный план с ограничениями на количество генераций в месяц. Платные планы включают дополнительные стили, приоритетную обработку и API-доступ.

Теги:
Рейтинг0
Комментарии0

3 неочевидных способа сэкономить на инференсе ML-модели в облаке кроме автоскейлинга 💸💸💸

Привет! Сегодня хотим поделиться тремя полезными способами сэкономить на инференсе, которые работают в облаке, причем, не только у нас (что? да!).  

А то ведь как бывает: запустишь свою крутую LLM-ку в продакшен, а счет прилетает такой, что хочется отключить обратно. Горизонтальный скейлинг не всегда выход. Но дешевле — не значит менее производительно. Мы приведем алгоритмы для сервиса Evolution ML Inference, но их можно адаптировать для любого провайдера. 

Способ 1. Использовать Sleep Mode vLLM 🔧

Способ работает только для языковых моделей (LLM), таких как Qwen, LLaMA, Mistral и других, запускаемых через vLLM. С диффузионными моделями, CV и временными рядами фокус не прокатит. Sleep Mode временно выгружает веса модели из GPU в RAM, освобождая до 90% видеопамяти. А раз GPU-ресурс не используется, то и не тарифицируется. «Разбудить» модель можно за секунды и без полной перезагрузки. 

Что делать: 

1. Запустите модель в ML Inference с runtime vLLM.

2. Включите режим разработки:

   VLLM_SERVER_DEV_MODE=1

3. Добавьте флаг:

   --enable-sleep-mode   

4. Управляйте через HTTP:

   ⦁ POST /sleep?level=1 — выгрузить веса, сохранить возможность быстрого запуска.

   ⦁ POST /wake_up — вернуть модель в активное состояние.

Когда применять: 

  • В сценариях с неравномерной нагрузкой (например, днём активность, ночью — нет).

  • Между итерациями RLHF, когда нужно освободить GPU. 

Способ 2. Serverless + Scale to Zero 🔧

Способ подходит вообще для всего. Суть в том, что контейнер с моделью останавливается при отсутствии запросов, освобождая все выделенные ресурсы (GPU, RAM, CPU). Кеш модели сохраняется, но тоже не тарифицируется в период простоя — PROFIT! При поступлении нового запроса модель запускается из кеша — и тут, мы, конечно, имеем проблему с задержкой при «холодном старте». Но пара секунд ожидания экономит нам сотни тысяч.

Что делать: 

1. При создании инференса в ML Inference:

   ⦁ Установите min_replicas = 0.

   ⦁ Выберите тип масштабирования: RPS или Concurrency.

2. Убедитесь, что Idle-таймаут = 40 сек.

Когда применять: 

  • Для MVP, демо, внутренних API.

  • Сценариев с нерегулярной нагрузкой (например, 100 запросов в день).

  • Моделей, где допустима небольшая задержка при первом запросе.

Способ 3. Time Slicing GPU 🔧

Способ работает в рамках Managed Kubernetes (MK8s), при условии, что в кластере создана группа узлов с GPU NVIDIA Tesla V100. Суть в том, что одна физическая GPU делится между несколькими подами (например, 5 подов по 1 GPU): каждый получает свою долю времени, как если бы у него была выделенная карта. 

Что делать: 

1. Создайте кластер Managed Kubernetes с узлом, где:

   ⦁ GPU: NVIDIA Tesla V100.

   ⦁ Количество GPU: 1.

2. Настройте Time-Slicing. Создайте ConfigMap:

   apiVersion: v1

   kind: ConfigMap

   metadata:

     name: time-slicing-config

     namespace: gpu-operator

   data:

     tesla-v100: |-

       version: v1

       sharing:

         timeSlicing:

           resources:

             - name: nvidia.com/gpu

               replicas: 5

   Примените: kubectl apply -f cloudru-time-slicing.yaml

3. Установите NVIDIA GPU Operator. В Личном кабинете Cloud.ru:

   ⦁ Перейдите в кластер → Плагины → Добавить.

   ⦁ Выберите NVIDIA GPU Operator.

   ⦁ В расширенной конфигурации укажите:

     devicePlugin:

       config:

         name: time-slicing-config

         default: tesla-v100

4. Проверьте работу. Запустите Deployment с 5 репликами:

   resources:

     limits:

       nvidia.com/gpu: 1

Все 5 подов должны перейти в статус Running.

Когда применять: 

  • Для тестовых и демо-сценариев, стартапов или MVP.

  • Для низконагруженных задач — инференс небольших моделей, дообучение, RLHF.

  • Для команд разработки, чтобы работать в одном кластере и делить ресурсы.

А какие нестандартные методы оптимизации бюджета используете вы? Собираем коллекцию советов для экономных в комментариях!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Яндекс снова на обложке, хотя теперь под именем Nebius. После сделки с Microsoft акции в США улетели на +71%. Формально — всё красиво: дата-центр в Нью-Джерси, контракт на $17+ млрд до 2031 года. Но за кулисами это выглядит чуть иначе.

Главная проблема индустрии — NVIDIA ограничивает квоты на свои чипы. Это значит, что даже гиганты вроде Microsoft не могут прийти и сказать: «Дайте нам вагон H100, мы оплатим картой». Карточек тупо нет столько, сколько всем нужно. Поэтому Microsoft вынужден искать партнёров, у которых есть доступ к чипам через свои каналы.

Появляется Nebius. У компании свой лимит на железо, свои отношения с NVIDIA — и теперь кусок этого лимита фактически «арендован» Microsoft. То есть вместо того, чтобы напрямую выбивать квоты, корпорация берёт вычислительные мощности у бывшей «Яндекс N.V.».

Теги:
Всего голосов 2: ↑1 и ↓1+1
Комментарии1

Вышла нейросеть для инженеров, которая умеет генерить сложные 3D-модели в CAD. Просто закидываете чертёж и получаете готовую модель детали, которую можно отредактировать промптом или задействовать в AutoCAD для ручного редактирования.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Вклад авторов