Как вайб-кодить с вайбом, а не с техдолгом и багами 👨💻✨
Разберемся в этом на вебинаре с нашим техническим экспертом Сашей Константиновым. Будет полезно всем, кто работает с кодом и данными — вы узнаете, как с помощью AI писать код быстрее и не проседать при этом в качестве.
Поговорим о том, как:
Научить IDE кодить в вашем стиле, предсказуемо и по нужным стандартам.
«Найди то, не знаю что» среди миллиарда сущностей 😱
Примерно так звучат задачи специалистов, которые работают с LLM. В новом выпуске нашего подкаста «Кофе-брейк» развеиваем миф о том, что ИИ отберёт у всех нас работу (спойлер: не у всех), и обсуждаем, как вообще устроен поиск по ключевым словам. А помогает нам в этом Денис Шавейников — руководитель команды поиска VK.
Napkin AI обновила алгоритмы генерации интеллект-карт с адаптивным редактированием
Платформа автоматической визуализации Napkin AI выпустила обновление системы создания интеллект-карт. Новые алгоритмы поддерживают множественные форматы, адаптивные ориентации и редактирование с сохранением структуры макета без перестроения связей между узлами.
Технические улучшения
Система использует алгоритмы обработки естественного языка для анализа структуры текста и автоматического выбора оптимального типа визуализации. Новые интеллект-карты поддерживают горизонтальные, вертикальные и компактные форматы, автоматически подстраивая интервалы и организацию при редактировании.
Ключевые технические особенности:
Парсинг иерархических структур из неструктурированного текста
Автоматическое определение уровней детализации и сложности
Динамическая адаптация макета без перестроения DOM-структуры
Поддержка экспорта в векторные форматы (SVG, PDF)
Алгоритм адаптивного редактирования
Основная техническая проблема традиционных систем mind mapping — необходимость полной перерисовки при изменении узлов из-за сложных зависимостей. Napkin AI решает это через алгоритм сохранения топологии.
Принцип работы:
Система создает граф связей независимо от визуального представления
При редактировании изменяется только содержимое узлов
Макет автоматически перестраивается с сохранением общей структуры
Алгоритм балансировки распределяет элементы без пересечений
Архитектура системы
Napkin AI состоит из нескольких модулей: анализатора текста, генератора визуальных схем и рендеринга. Анализатор использует NLP-модели для извлечения ключевых концепций и их связей.
Компоненты обработки:
Text Parser — выделение сущностей и связей
Layout Engine — размещение элементов с минимизацией пересечений
Style Generator — применение визуальных стилей под тип контента
Export Module — конвертация в различные форматы
Типы генерируемых структур
Система автоматически определяет подходящий тип визуализации на основе анализа текста. Для иерархических данных создаются древовидные структуры, для процессов — линейные схемы, для концептуальных связей — сетевые графы.
Napkin генерирует различные форматы интеллект-карт со стилевыми опциями для передачи разных уровней детализации, что позволяет адаптировать визуализацию под конкретную задачу.
Сравнение с существующими решениями
Отличия от классических mind mapping инструментов:
Автоматическая генерация структуры из текста vs ручное создание
Сохранение макета при редактировании vs полная перерисовка
ИИ-определение оптимального формата vs фиксированные шаблоны
Конкуренты и позиционирование:
XMind, MindMeister — ручное создание карт
Lucidchart — фокус на диаграммах процессов
Miro — collaborative whiteboarding
Napkin AI — автоматическая генерация из текста
Практические применения
Для разработчиков:
Визуализация архитектуры систем из технической документации
Создание диаграмм зависимостей проектов
Генерация схем API и data flow
Для технических писателей:
Структурирование сложных технических концепций
Создание диаграмм для документации
Визуализация пользовательских сценариев
Ограничения и особенности
Качество результата зависит от структурированности исходного текста. Хаотичные заметки требуют предварительной обработки. Система работает лучше с логически организованной информацией с четкими иерархическими связями.
Текущая версия поддерживает английский язык с ограниченной поддержкой других языков. Сложные научные термины могут интерпретироваться неточно без контекстной настройки.
Интеграция и API
Платформа предоставляет REST API для интеграции с внешними системами. Поддерживается импорт из популярных форматов (Markdown, JSON) и экспорт в векторные и растровые форматы.
Доступные интеграции:
Google Docs через расширение
Slack для создания визуализаций в чатах
Notion для встраивания интерактивных диаграмм
API для кастомных приложений
Система предлагает бесплатный план с ограничениями на количество генераций в месяц. Платные планы включают дополнительные стили, приоритетную обработку и API-доступ.
3 неочевидных способа сэкономить на инференсе ML-модели в облаке кроме автоскейлинга 💸💸💸
Привет! Сегодня хотим поделиться тремя полезными способами сэкономить на инференсе, которые работают в облаке, причем, не только у нас (что? да!).
А то ведь как бывает: запустишь свою крутую LLM-ку в продакшен, а счет прилетает такой, что хочется отключить обратно. Горизонтальный скейлинг не всегда выход. Но дешевле — не значит менее производительно. Мы приведем алгоритмы для сервиса Evolution ML Inference, но их можно адаптировать для любого провайдера.
Способ 1. Использовать Sleep Mode vLLM 🔧
Способ работает только для языковых моделей (LLM), таких как Qwen, LLaMA, Mistral и других, запускаемых через vLLM. С диффузионными моделями, CV и временными рядами фокус не прокатит. Sleep Mode временно выгружает веса модели из GPU в RAM, освобождая до 90% видеопамяти. А раз GPU-ресурс не используется, то и не тарифицируется. «Разбудить» модель можно за секунды и без полной перезагрузки.
Что делать:
1. Запустите модель в ML Inference с runtime vLLM.
2. Включите режим разработки:
VLLM_SERVER_DEV_MODE=1
3. Добавьте флаг:
--enable-sleep-mode
4. Управляйте через HTTP:
⦁ POST /sleep?level=1 — выгрузить веса, сохранить возможность быстрого запуска.
⦁ POST /wake_up — вернуть модель в активное состояние.
Когда применять:
В сценариях с неравномерной нагрузкой (например, днём активность, ночью — нет).
Между итерациями RLHF, когда нужно освободить GPU.
Способ 2. Serverless + Scale to Zero 🔧
Способ подходит вообще для всего. Суть в том, что контейнер с моделью останавливается при отсутствии запросов, освобождая все выделенные ресурсы (GPU, RAM, CPU). Кеш модели сохраняется, но тоже не тарифицируется в период простоя — PROFIT! При поступлении нового запроса модель запускается из кеша — и тут, мы, конечно, имеем проблему с задержкой при «холодном старте». Но пара секунд ожидания экономит нам сотни тысяч.
Что делать:
1. При создании инференса в ML Inference:
⦁ Установите min_replicas = 0.
⦁ Выберите тип масштабирования: RPS или Concurrency.
2. Убедитесь, что Idle-таймаут = 40 сек.
Когда применять:
Для MVP, демо, внутренних API.
Сценариев с нерегулярной нагрузкой (например, 100 запросов в день).
Моделей, где допустима небольшая задержка при первом запросе.
Способ 3. Time Slicing GPU 🔧
Способ работает в рамках Managed Kubernetes (MK8s), при условии, что в кластере создана группа узлов с GPU NVIDIA Tesla V100. Суть в том, что одна физическая GPU делится между несколькими подами (например, 5 подов по 1 GPU): каждый получает свою долю времени, как если бы у него была выделенная карта.
Что делать:
1. Создайте кластер Managed Kubernetes с узлом, где:
Яндекс снова на обложке, хотя теперь под именем Nebius. После сделки с Microsoft акции в США улетели на +71%. Формально — всё красиво: дата-центр в Нью-Джерси, контракт на $17+ млрд до 2031 года. Но за кулисами это выглядит чуть иначе.
Главная проблема индустрии — NVIDIA ограничивает квоты на свои чипы. Это значит, что даже гиганты вроде Microsoft не могут прийти и сказать: «Дайте нам вагон H100, мы оплатим картой». Карточек тупо нет столько, сколько всем нужно. Поэтому Microsoft вынужден искать партнёров, у которых есть доступ к чипам через свои каналы.
Появляется Nebius. У компании свой лимит на железо, свои отношения с NVIDIA — и теперь кусок этого лимита фактически «арендован» Microsoft. То есть вместо того, чтобы напрямую выбивать квоты, корпорация берёт вычислительные мощности у бывшей «Яндекс N.V.».
Вышла нейросеть для инженеров, которая умеет генерить сложные 3D-модели в CAD. Просто закидываете чертёж и получаете готовую модель детали, которую можно отредактировать промптом или задействовать в AutoCAD для ручного редактирования.
Хочу рассказать про Diffusion модели и одну проблему, которую решили в статье "Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning"
Представьте: вы пишете письмо в саппорт. Большое, с болью, как положено. А потом система берёт и начинает стирать из него слова. Сначала одно-два, потом половину. В итоге доходит до состояния «*** не работает *** вчера *** клиенты». Это называется forward-процесс. То есть сначала текст намеренно превращают в кашу.
Дальше reverse-процесс. Модель берёт этот обрубок и пытается догадаться, что же там было. Сначала простые слова (имена, даты). Потом технические термины. Потом связки. И вот у вас снова появляется более-менее внятное письмо. Это обучение через боль: чтобы в будущем модель могла достраивать даже то, чего не слышала.
Теперь внимание. В обычных генеративках текст растёт пословно, как будто вы диктуете. В диффузии всё наоборот: модель сразу пуляет целое «окно» текста, пытаясь угадать кучу слов одновременно. Звучит круто? Ага, только дальше начинается Long Decoding Window. Чем дальше от начала, тем больше мозг модели закипает. Итог: повторы, бессмысленные вставки, рандомный шум. Письмо начинается адекватно, а заканчивается как будто писал уставший стажёр.
Учёные посмотрели на этот и сказали: ладно, давайте хотя бы починим. Придумали Convolutional Decoding — это как если бы у стажёра попросили сначала сосредоточиться на ближних словах, а дальние воспринимать с осторожностью. Добавили Rejective Fine-Tuning — модель теперь штрафуют за «the the the» и «: : :». И добили EOS-fill: как только модель ставит точку, всё дальше просто забивается точками, и никто не позорится.
Рабочее решение: — Convolutional Decoding — как если бы стажёру сказали: «сначала смотри на ближние слова, а дальние фильтруй». — Rejective Fine-Tuning — за повторы и мусор прилетает штраф, и модель учится так не делать. — EOS-fill — как только модель ставит точку, дальше всё затирается точками, и никто не позорится.
Результат: та же диффузия, но быстрее, чище и без проблем на длинных текстах. Выглядит как будто саппорт наконец-то перестал косплеить генератор случайных слов и начал отвечать по делу.
Андрей Бурков — канадский специалист по машинному обучению из Квебека. Он руководил командами машинного обучения в Gartner и TalentNeuron, много лет возится с обработкой естественного языка, а прославился «The Hundred-Page Machine Learning Book», компактным учебником, который разошёлся по университетским курсам. В 2024—2025 годах он выпустил продолжение — «The Hundred-Page Language Models Book», где объясняет путь от простых счётных моделей и свёрточным нейросетям к трансформерам и БЯМ.
Впрочем, Бурков не просто повис где-то в сухой академии и написании учебников — он активно ведёт микроблог в X. Тон его микроблога и интервью легко узнать: он любит сбивать хайп и говорить про реальные ограничения моделей. Давайте хотя бы посмотрим, как озаглавлены его недавние беседы: «БЯМ — полезные лжецы» и «Вокруг БЯМ и агентов слишком много хайпа». По его мнению, большие языковые модели полезны, но склонны обещать больше, чем могут, а агенты без аккуратной инженерии разваливаются на форматировании, таксономиях и хрупких пайплайнах.
Аналогично скептичен и недавний твит Буркова. Андрей язвительно приводит следующее остроумное наблюдение: «БЯМ дообучили врать почти во всех ответах по написанию кода». Исследователь обратил внимание, что когда генерируется ответ, сначала модель торжественно выдаёт в тексте «я реализовал такую-то фичу», а сам код рождается позже — токен за токеном. По сути, БЯМ врёт, она ещё не написала никакого кода.
Однако в комментарии пришёл не менее маститый исследователь искусственного интеллекта Андрей Карпатый со своей фирменной иронией. Карпатый — один из одиннадцати основателей OpenAI, он возглавлял компьютерное зрение в Tesla и просто преподавал культовый курс CS231n.
Карпатый с юмором пишет: «Код был написан на слоях 22–30 и хранится в value-активациях, ты просто не можешь его прочитать. Мне кажется, тебе нужно извиниться перед БЯМ».
На самом деле шутка не на пустом месте: в трансформерах мысли о продолжении действительно заранее складываются в активациях, а суммарная память шага течёт по так называемому residual stream. Модули внимания и многослойные перцептроны читают из него и записывают обратно векторы, которые затем превращаются в следующий токен. До того как вывести первую строку функции, модель уже набрала внутренний, так сказать, замысел будущего кода, хотя это не готовый текст, а распределённые признаки будущего ответа.
Baidu представила ERNIE X1.1 — модель рассуждений уровня GPT-5 и Gemini 2.5 Pro
На конференции WAVE SUMMIT 2025 китайская компания Baidu анонсировала ERNIE X1.1 — обновленную модель рассуждений с существенными улучшениями в точности, следовании инструкциям и агентских возможностях. Модель превосходит DeepSeek R1-0528 и сопоставима с топовыми решениями от OpenAI и Google.
Технические улучшения
ERNIE X1.1 демонстрирует значительный прирост производительности относительно предыдущей версии. Фактическая точность выросла на 34.8%, следование инструкциям улучшилось на 12.5%, а агентские способности — на 9.6%.
Архитектурные особенности:
Построена на базе мультимодальной модели ERNIE 4.5
Использует итеративную гибридную систему обучения с подкреплением
Объединяет смешанное reinforcement learning и итеративную самодистилляцию
Поддерживает контекст 128K токенов
Производительность в бенчмарках
По результатам множественных тестов ERNIE X1.1 превосходит DeepSeek R1-0528 в общей производительности, показывая явные преимущества в ряде задач. Модель работает на одном уровне с такими топовыми решениями как GPT-5 и Gemini 2.5 Pro.
Модель показывает выдающиеся результаты в широком спектре задач: создании контента, логических рассуждениях, математических вычислениях, генерации кода и использовании инструментов.
Qianfan MaaS — платформа Models-as-a-Service для корпоративных клиентов и разработчиков
Параллельно с ERNIE X1.1 компания открыла исходный код модели ERNIE-4.5-21B-A3B-Thinking — легковесной MoE-модели с 21 миллиардом общих и 3 миллиардами активных параметров.
Экосистема PaddlePaddle
Развитие ERNIE X1.1 происходит в контексте расширения экосистемы PaddlePaddle. На данный момент экосистема PaddlePaddle-ERNIE обслуживает 23.33 миллиона разработчиков и 760,000 предприятий.
Новые инструменты включают:
PaddlePaddle framework v3.2 с улучшениями обучения и совместимости
ERNIEKit для разработки фундаментальных моделей
FastDeploy v2.2 для эффективного развертывания
Научные тулкиты PaddleCFD и PaddleMaterials
Baidu Comate 3.5S
Одновременно с ERNIE X1.1 представлена обновленная версия ИИ-помощника для программирования Baidu Comate 3.5S. Система поддерживает более 10 миллионов разработчиков, а внутри Baidu 45% нового кода теперь генерируется ИИ.
Новая версия усиливает возможности мульти-агентного сотрудничества, позволяя одному разработчику достигать продуктивности целой команды.
Конкурентная позиция
ERNIE X1.1 позиционируется как прямой конкурент западных моделей рассуждений. Baidu делает ставку на сочетание высокой производительности с локализацией под китайский рынок и требования регуляторов.
Преимущества модели:
Конкурентоспособная производительность с глобальными лидерами
Интеграция в экосистему китайских облачных сервисов
Поддержка специфичных для региона задач и языковых особенностей
Соответствие местным требованиям по данным и безопасности
Релиз ERNIE X1.1 демонстрирует способность китайских технологических компаний создавать модели мирового уровня и конкурировать с ведущими американскими разработчиками ИИ.
🤖 Запустили AI-помощника Клаудию — она доступна в вашем личном кабинете. Клаудия поможет создать ВМ, уточнит задачу и подберет конфигурацию, подскажет команды в консоли. А еще настроит виджеты, алерты и нотификации для контроля ВМ, поможет найти нужное в документации и выступит как co-pilot. Попробуйте бесплатно — новым пользователям дадим 4 000 рублей на облачные ресурсы.
🖥️ В Evolution Foundation Modelsоткрыли доступ к новым open source моделям, в том числе к OpenAI 120b, Qwen-3, GigaChat, GLM-4.5 и другим. Всего доступно 20+ LLM, ранжировщиков и эмбеддеров, а до 31 октября вы можете бесплатно потестировать их на своих проектах.
Участвовали в крупных мероприятиях:
Провели митап Cloud․ru Tech Lab: AI&ML, где рассказали, как автоматизировали пользовательские сценарии с помощью AI-агента, разобрали устройство агентов, RAG и Ragas. А еще слушатели могли вживую пообщаться с экспертами, «прожарить» свое резюме и посетить демозону AI-решений на базе Cloud․ru Evolution.
Организовали конференцию GoCloud Tech 2025 о создании решений на базе AI и облаков. Обсудили кейсы внедрения AI&ML, тренды в создании облачной инфраструктуры, актуальные практики для работы с данными в облаке.
Во второй раз приняли участие в крупнейшей AI-выставке в мире — World Artificial Intelligence Conference в Шанхае 🇨🇳 На нашем стенде мы показали платформу Cloud․ru Advanced, провели встречи с Geely, Tencent, Baidu, IFlytek, GAC, TikTok, Alibaba, Li Auto и другими зарубежными компаниями.
🧠 Запустили бесплатный курс про создание ML-моделей и их внедрение в бизнес. Будет полезно менеджерам продуктов и проектов, DS-, backend- и frontend-разработчикам, продуктовым дизайнерам. Можно учиться в комфортном темпе, а в конце дадим именной сертификат.
✨ Предлагаем бесплатно протестировать сервисы Evolution Data Platform — новой платформы для полного цикла работ с данными:
Evolution Managed BI для визуализации и анализа данных в облаке, в стадии public preview;
Evolution Managed Airflow поможет управлять рабочими процессами. Находится в стадии private preview — напишите своему аккаунт-менеджеру, чтобы начать тестирование.
Запустили в публичное превью и другие сервисы Evolution Data Platform:
Обсудили с Павлом Наумовым, первым вице-президентом Газпромбанка, как меняется клиентский путь и что такое «человеколюбие» в цифровых продуктах. Смотрите на удобной площадке: VK Видео, YouTube или Rutube.
💳 Упростили регистрацию в реферальной программе: теперь подать заявку можно в несколько кликов, а на каждом этапе вы можете получить помощь менеджера. Присоединяйтесь к программе до 30 сентября, рекомендуйте сервисы Cloud.ru, получайте 20% от суммы их чеков в первый год и 15% — в последующие.
Представлен инструментарий Stupid Meter для оценки в реальном времени работы крупных языковых моделей, включая OpenAI GPT-5, Anthropic Claude Opus 4 и Google Gemini 2.5 Pro. Система непрерывно запускает более 140 тестов, проверяя корректность, стабильность, эффективность и способность к восстановлению после ошибок. Результаты отображаются на виде таблице, показывающем текущее состояние моделей.
Также Stupid Meter анализирует затраты на выполнение задач. В расчёт берутся не только цены API, но и количество попыток, необходимых для получения правильного ответа. Таким образом, более дорогая модель может оказаться выгоднее «дешёвой», если справляется быстрее. Исходный код проекта на GitHub: AI Stupid Meter - API Server и AI Stupid Meter - Web Frontend.
OpenAI внедряет проверку возраста в свою нейросеть ChatGPT. Если ИИ решит, что пользователь младше 18 лет по стилю общения, то он получит доступ только к урезанной версии ChatGPT с цензурой и родительским контролем. Также нейросеть обучат не вступать во «флиртующие разговоры» с несовершеннолетними и не обсуждать темы, связанные с самоубийством.
Взрослый пользователь сможет подтвердить свой возраст, предоставив паспорт или водительские права. «Мы понимаем, что это нарушает конфиденциальность для взрослых, но считаем это оправданным компромиссом», — пояснили в OpenAI.
LLamaSwap - гибкая альтернатива Ollama Ollama — прекрасное приложение, основанное на llama.cpp, которым я пользовался для инференса локальных моделей до недавних пор, однако у него есть несколько критических недостатков:
Отсутствие поддержки всех GPU и BLAS, доступных в llama.cpp. Для меня это стало проблемой после перехода на Radeon RX 6800: инференс через Vulkan на llama.cpp работает быстрее и стабильнее, чем ROCm, но Ollama не поддерживает Vulkan.
Отсутствие тонкой настройки. Например, на момент написания статьи в Ollama нельзя выгружать часть MoE-слоев на CPU, что позволяет сильно увеличить скорость инференса при нехватке VRAM для загрузки всех слоев на GPU.
Ollama использует собственное хранилище моделей, несмотря на то, что под капотом работает с GGUF. Если загрузить модель с Hugging Face, Ollama всё равно скопирует её в своё хранилище, а модели в наше время весят не мало и занимают лишнее место на SSD.
Функции доступные в llama.cpp появляются в ollama с задержкой , а иногда и вовсе не появляются.
Мне нужна была альтернатива, способная динамически управлять загрузкой моделей в памяти через API без моего участия, как это делает Ollama, но без вышеперечисленных недостатков. В итоге я остановил выбор на проекте llama-swap.
Llama-Swap — приложение на Go, которое запускает несколько инстансов llama-server и проксирует запросы к ним по заданным правилам.
Плюсы по сравнению с Ollama:
Полный доступ ко всем возможностям llama-server (например --override-tensor для выгрузки MoE слоев на CPU).
Поддержка большего количества GPU кскорений (таких как Vulkan или даже связки Vulkan + CUDA)
Возможность настроить отдельную версию llama-server для каждой модели (если в будущих обновлениях что то сломается).
Более гибкая настройка правил загрузки/выгрузки моделей в память: (одновременная загрузка, поочередная по запросам).
Не дублирует модели на диске (если используются форматы поддерживаемые llama.cpp).
Из коробки есть WebUI для управления загрузкой/выгрузкой моделей.
Минусы:
Из коробки не работает, требуется настройка через config.yaml и наличие рабочего llama-server.
Проект молодой, и его дальнейшая судьба пока не ясна.
Основные пункты файла конфигурации
Список моделей с указанием их расположения и параметров запуска (влючая путь к llama-server).
Группировка моделей, к группам применяются правила загруpки/выгрузки из памяти: - Все модели в группе загружены одновременно. - Модели загружаются по мере поступления запросов
Различные настройки прокси, порты, таймауты и пр.
У меня мини-ПК с интегрированной Radeon 780m, 32 ГБ ОЗУ и eGPU RX 6800. Я полностью перешел на Llama-Swap + OpenWebUI и всё больше отказываюсь от использования онлайн-сервисов вроде OpenRouter — ведь возможностей моего недорогого, по современным меркам ПК, хватает для запуска, таких моделей как Gemma3 30B и Qwen3-Coder-30B-A3B-Instruct. Думаю, в скором времени, когда ПК с объёмами памяти от 64 ГБ и выше станут ещё дешевле, интегрированная графика — мощнее и на рынке окажется множетсво БУ GPU с объемом VRAM 16ГБ и выше, часть людей, использующих LLM для своих задач, сможет полностью перейти на локальный инференс. Хотя это, возможно, это только моя фантазия. Всем спасибо за прочтение.
ByteDance представила Seedream 4.0 — мультимодальную модель генерации и редактирования изображений
Команда Seed от ByteDance выпустила Seedream 4.0 — новую модель, объединяющую генерацию и редактирование изображений в единой архитектуре. Система создает изображения разрешением до 4K за 1.8 секунды и превосходит Gemini 2.5 Flash по внутренним бенчмаркам компании.
Архитектура и производительность
Seedream 4.0 использует Mixture of Experts (MoE) архитектуру для оптимизации вычислительной эффективности. Модель генерирует изображения в разрешении 2K за 1.8 секунды с возможностью создания до 9 консистентных изображений одновременно.
Ключевые технические характеристики:
Единая архитектура для генерации и редактирования
Поддержка до 6 референсных изображений
Пакетная обработка входных данных
Разрешение до 4K с высокой детализацией
Интеграция знаниевой базы для сложных задач
Функциональные возможности
Текстовое редактирование позволяет вносить точные изменения одним предложением — от удаления объектов до замены текста на постерах с сохранением стилистики.
Стилевые трансформации поддерживают профессиональные художественные стили: акварель, киберпанк, ретро-дизайн. Система создает уникальные визуальные решения за секунды.
Знаниевая генерация создает образовательные иллюстрации, схемы и профессиональные изображения на основе встроенных знаний и логических способностей.
Сравнение с конкурентами
По внутреннему бенчмарку MagicBench модель превосходит существующие решения в трех ключевых измерениях: следование промптам, выравнивание с источником и эстетическое качество.
Результаты тестирования показали:
Высокие оценки в text-to-image задачах
Сбалансированность между следованием промптам и сохранением исходного изображения
Первое место во внутренней Elo-оценке для редактирования
Доступность и интеграция
Модель доступна через множество платформ: Higgsfield, Krea AI, Freepik Pikaso, Fal AI, Replicate, Glif. Это обеспечивает широкий доступ для разработчиков и креаторов.
API-интеграция поддерживает:
Пакетную загрузку множественных референсов
Генерацию нескольких вариаций одновременно
Настройку разрешения и качества
Интеграцию в существующие рабочие процессы
Практические применения
Для дизайнеров и маркетологов:
Быстрое создание концептов и мокапов
A/B-тестирование визуальных решений
Адаптация контента под разные форматы
Для образования:
Создание инфографики и диаграмм
Визуализация сложных концепций
Генерация учебных материалов
Для e-commerce:
Создание продуктовых изображений
Адаптация под разные платформы
Массовая обработка каталогов
Технологические особенности
Модель демонстрирует сложные мультимодальные способности: понимание контекста, логическое рассуждение, поддержание консистентности между референсами. Это выделяет Seedream 4.0 среди традиционных генераторов изображений.
Интеграция генерации и редактирования в единую систему устраняет необходимость переключения между различными инструментами, ускоряя творческий процесс.
Недавно у нас в университете ИТМО прошел форсайт, посвященный видению развития отдельных направлений искусственного интеллекта на ближайшее будущее. Были приглашены эксперты из Индии и Китая, которые рассказали о развивающихся в их странах направлениях ИИ. В том числе выступали и наши эксперты.
Мне тоже удалось выступить. Я рассказывал о временных рядах, а именно о «изощренных» методах их прогнозирования и генерации на основе физически-информированных нейронных сетей. По этому поводу можно обратиться к другим моим статьям на хабре или в блоге.
Вот к каким трем основным направлениям развития ИИ в ближайшие 5-10 лет пришло большинство экспертов:
1.Вопросы эффективности. Развитие современных методов активно порождает вопросы эффективности как программного обеспечения, так и аппаратного обеспечения («железа»). Сейчас создают очень большие модели, для обучения которых требуются тысячи видеокарт. Для инференса этих моделей требуется меньше ресурсов, но это все равно затратно. Сейчас, например, актуальны методы квантизации больших моделей. В этой области ведется много исследований. Также ученые ищут подходы к более эффективному использованию железа, например, как оптимальнее оркестрировать поток задач.
2. Биологически правдоподобные модели. Вторым направлением можно выделить построение новых моделей машинного обучения на основе принципов работы биологических нейронных сетей. Наш мозг очень эффективно обрабатывает входящую информацию: в каждый момент времени активируются не все нейроны сразу, а только те, которые нужны для текущей задачи. Кстати, если бы работали все нейроны одновременно, то в голове возник бы шум, и мы не смогли бы сконцентрироваться на чем-то одном.
А в классических нейронных сетях все не так — там задействуются все нейроны одновременно. Исключением являются модели Mixture of Experts (смесь экспертов). Их принцип работы можно вообразить так: представьте, что вы задаете нейронной сети вопрос по математике. Очевидно, что в данный момент не нужно задействовать знания по биологии, истории и т.д. В MoE есть специальный блок — маршрутизатор (router) — который отвечает за перенаправление запроса к тому или иному «эксперту». Конечно, он может направить запрос сразу к нескольким экспертам, если вопрос затрагивает разные области знаний.
На практике нет такого явного тематического разделения экспертов, обычно они подбираются и обучаются самостоятельно для наилучшей генерации той или иной последовательности. И обычно эксперты активируются не для всего запроса целиком, а для отдельных токенов (например, слов) внутри этого запроса.
В общем, направление верное, собственно все чат боты сегодня строят на этой архитектуре. Однако в реальном биологическом мозге эта система представляет собой гораздо более сложную структуру. В мозге взрослого человека около 86 миллиардов нейронов и на каждом нейроне может быть от 5 до 10 тысяч синаптических связей. Как можно понять, плотность связей в нашем мозге чрезвычайно высока.
3.Фундаментальные мультимодальные модели и новая математика.
Наконец, последнее направление связано с созданием не просто языковых моделей, а фундаментальных моделей, работающих с разными модальностями (типами данных). На самом деле, любую информацию можно свести к языку — даже математические формулы можно просто описать словами. Однако в этом направлении предлагается переосмыслить текущие подходы и развивать модели с новой математикой для описания этих различных модальностей.
Также до сих пор нет единого математического обоснования нейронных сетей, лишь отдельные области и лишь отдельная математика. А когда будет единая теория не ясно.
В общем, есть куда двигаться. А как вы считаете какие направления появятся или переосмыслят в ближайшее 5-10 лет? Пишите комментарии, будет интересно почитать.
Я навайбкодил Вам систему управления отчетами на 100500 Jupyter ноутбуков
Расскажу историю о том, как я решил проблему с хаосом в Jupyter-отчетах и создал систему juport (Jupyter Report System)ссылка на GitHub. А заодно поделюсь мыслями о том, как меняется разработка в эпоху AI-ассистентов.
Проблема: 100500 отчетов и никакого порядка
У меня накопилось огромное количество отчетов, сделанных в Jupyter Lab. Каждый — отдельный файл с кодом, паролями и прочей «кухней».
Главные проблемы:
Безопасность. Нельзя просто так поделиться отчетом с руководством или бухгалтерией, потому что там есть доступы к базам и код.
Рутина. Нет централизованного места для запуска отчетов, автоматизации по расписанию и единого интерфейса для просмотра.
Хаос. Все результаты разбросаны по папкам, и чтобы найти нужный Excel-файл, приходилось долго копаться.
Концепция решения
Нужно было что-то, что позволит разрабатывать отчеты в привычном Jupyter Lab, а потом автоматически запускать их, генерировать чистые HTML-версии без кода и собирать все артефакты в одном месте.
Решение: juport — система управления отчетами
Я создал систему (ну как сам, навайбкодил), состоящую из двух компонентов:
Jupyter Lab Sidecar. Это обычный Jupyter Lab в Docker-контейнере. Здесь разработчики пишут и тестируют отчеты, как привыкли.
juport— система управления. Веб-приложение на Python, которое сканирует папку с ноутбуками. Оно позволяет запускать отчеты вручную или по расписанию, выполняет их в изолированном окружении, генерирует HTML-версии без лишней информации, собирает все артефакты (Excel, картинки) в одну табличку и предоставляет удобный веб-интерфейс. Авторизация — через LDAP.
Как это работает
Разработка отчета:
Вы создаете ноутбук в Jupyter Lab.
Пишете код, тестируете, сохраняете.
Используете переменные окружения для конфигурации, чтобы не хранить пароли в коде.
Запуск отчета:
Заходите в веб-интерфейс juport.
Видите список всех ноутбуков.
Нажимаете «Запустить» или настраиваете расписание.
Система выполняет ноутбук и собирает результаты.
Результат:
Чистый HTML-отчет без кода и паролей, доступный для просмотра.
Все Excel-файлы, картинки и PDF собраны в одном месте.
Удобный интерфейс для скачивания.
История выполнений и логи.
Как это сделано
Я не написал ни одной строчки кода сам. Все навайбкодил через Cursor с помощью промптов.
Да, именно так. Привыкайте. Такова реальность.
Андрея Карпатый говорил о том, что скоро разработка будет выглядеть совсем иначе. И он прав.
Мы, миллениалы, единственное поколение, которое разбиралось, как собрать компьютер с нуля. Бумеры были до бума ПК, а зумеры уже родились, когда все было готово. С кодом происходит то же самое. Через N лет опытные разработчики будут получать отличные результаты через промпты, потому что у них есть 20 лет опыта. Этот опыт — не знание синтаксиса, а понимание:
Архитектурных паттернов
Принципов проектирования
Торговых компромиссов
Потенциальных проблем
Именно поэтому те, кто шарит, получат отличный результат, а те, кто не шарит, получат «коричневую субстанцию».
AI-ассистенты — это не замена разработчикам, а инструмент, который многократно увеличивает нашу скорость. Опыт и понимание архитектуры становятся еще важнее. А новичкам будет сложнее, потому что им придется мотивированно изучать технологии, чтобы получать от нейросетей качественные вещи.
Выводы
AI-ассистенты — это не замена, а инструмент.
Опыт и понимание архитектуры становятся критически важными.
Скорость разработки для опытных специалистов вырастет в разы.
Новичкам придется приложить больше усилий для освоения профессии.
А как вы видите будущее разработки с AI? Делитесь в комментариях!
Статья о том, что при попытке получить "случайное" число от 0 до 100, LLM возвращает не истинно случайное число, а демонстрируют предвзятость (bias), обусловленную особенностями обучающих данных (например знаменитое 42, а это отсылка к роману "Автостопом по Галактике"). Причем распределение этих чисел примерно одинаковое от модели к модели (OpenAI GPT-3.5 Turbo, Anthropic Claude 3 Haiku, Google Gemini 1.0 Pro), что говорит о "культурологическом" смещении в вероятностных механизмах. В общем нейросети это не про рандом.
На сайте Сколково вышла история о том, как мы перестраиваем культуру от проектной к продуктовой. Главный инсайт — технологии сами по себе мало чего стоят. Важно проверять спрос, быстро тестировать идеи и выводить на рынок только то, что реально нужно клиентам. В итоге мы выстроили систему R&D, научились работать с гипотезами и запустили собственные продукты. Это не только про рост бизнеса, но и про смену культуры внутри команды.
Каждая идея проходит определённые этапы: исследования, прототипирование, планирование продукта и реализация MVP. Идеи "отваливаются" на каждом этапе и это позволяет сделать процесс более дешевым и не "тащить" за собой идеи, которые в последствии не примет рынок. Таким образом, повышается вероятность продукта на рынке. На картинке ниже схематично представлена воронка идеи от этапа к этапу. Из 100 идей до вывода на рынок доходят примерно 7, это среднее значение по акселераторам крупных компаний.
Изучение Python может показаться сложным, но с правильным подходом и пониманием ключевых аспектов процесс станет понятным и увлекательным. Привет, я Иван Чернов, senior system architect, кратко расскажу, как начать вкатываться в Python, с какими проблемами сталкиваются новички и как их преодолеть.
Первые шаги
Определяемся с направлением, в котором вы хотите развиваться. Это может быть веб-разработка, машинное обучение, DevOps и т. д. Каждое направление требует своих знаний и навыков. Поэтому важно понять, что конкретно вам интересно и на какой позиции не будет скучно или слишком сложно.
Начните с изучения базовых понятий, таких как переменные, типы данных, структуры данных и функции. Это заложит фундамент для дальнейшего изучения.
Когда определились с направлением и изучили теорию — проходите курсы с практическим обучением или начинайте работать с кодом сами. Всегда лучше писать, чем читать. Как только вывели “Hello, World!”, переходите к обучающим программам, где первые задачки применимы к жизни. Например, на некоторых курсах учат разрабатывать Telegram-бота под ваши нужды. Это отличная практика для понимания процессов.
Также можете прочитать базу «Питона» — книгу “Automated Boring Stuff with Python”. В ней много практических задач, которые помогут вам освоить язык. А ещё есть полезный курс “Learning How to Learn”, который учит, как правильно учиться, опираясь на достижения нейронауки.
Этап, на котором новички отваливаются
При более глубоком изучении «Питона» новичок столкнётся с первой проблемой — настройкой инфраструктуры. На этом этапе многое пугает: установка редакторов кода, интерпретаторов, пакетных менеджеров и прочее. Даже опытные программисты каждый день ищут подходящие инструменты и пытаются освоить новые.
Чтобы облегчить старт, можно для начала научиться использовать онлайн-среду разработки, например Replit. Можно просто зайти на сайт, выбрать язык Python и сразу приступать к написанию кода.
Replit — это сервис для вайб-кодинга. В нём можно быстро экспериментировать с задачами и сразу видеть результат. Так вы сконцентрируетесь именно на изучении языка, а не на технических сложностях.
Тут есть большое «но»: на вайб-кодинге далеко не уедешь. Использование онлайн-сред — это чит-код, который облегчает старт, но не учит решать реальные проблемы. Так что с комплексной инфраструктурой всё же придётся разобраться.
Концептуальные вопросы
Отдельно стоит отметить концептуальные вопросы, которые могут возникнуть на старте. Новички часто сталкиваются с трудностями в понимании таких понятий, как переменные и функции.
Например, в Python переменная может принимать разные значения, что противоречит математическим представлениям. Это может привести к путанице и неправильному пониманию основ программирования.
Важно понимать, что программирование — это не только про то, как писать код, но и о то, как мыслит как программист. Необходимо развивать критическое мышление и осознавать, что многие концепции, которые мы учили на уроках математики, могут быть неверными в программировании.
Советы начинающим питонщикам
Постоянная практика. Пишите код каждый день, хотя бы немного. Работайте над проектами, которые вас интересуют, и решайте проблемы, которые вас раздражают. Я в 2010-м хотел, чтобы дома лампочка включалась по голосу. С помощью Python удалось сделать это.
Изучайте чужой код. Чтение и понимание чужого кода поможет вам увидеть, как другие решают задачи и какие подходы используют. Однако не стоит изучать рандомный код. Лучше ищите тот, что поможет улучшить ваши проекты.
Go sport, go team. Физическая активность способствует лучшему усвоению информации. Поэтому не забывайте делать перерывы и заниматься спортом.
Заключение
Определитесь с направлением, изучите теорию, но не медлите с практикой. Не пугайтесь сложностей инфраструктуры: всегда можно нагуглить или спросить на форумах. Пользуйтесь онлайн-средами, но не делайте большую ставку на вайб-кодинг. Не бойтесь начинать и ошибаться — и у вас всё получится.