Нейро-дайджест: ключевые события мира AI за 3-ю неделю октября / Habr

Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.

Меня зовут Вандер, и каждую неделю я обозреваю новости о ней��осетях и ИИ.

Неделя выдалась интересной: Google релизнули Veo 3.1, Microsoft показала свой генератор картинок, Qwen представили компактные VL-модели, в n8n добавили AI-режим, Карпаты запустил nanochat.

Всё самое важное — в одном месте. Поехали!

Предыдущий выпуск

📋 В этом выпуске

🧠 Модели и LLM

Qwen3 VL — новая компактная линейка 4B/8B от китайцев
В ChatGPT добавят эротические чаты
MWS Vision Bench — открытый бенчмарк для русскоязычных документов

🎨 Генеративные нейросети

Google Veo 3.1. Ответ Sora 2?
MAI-Image-1 — генератор картинок от Microsoft

🔧 AI-инструменты и платформы

В n8n добавили AI-режим
Gemini 2.5 Computer Use — агент для управления компьютером
nanochat от Андрея Карпаты — тренируем чат-бота за 4 часа

🧩 AI в обществе и исследованиях

NVIDIA инвестирует в xAI
IBM интегрирует Claude
Figure AI представила нового робота F.03

🧠 Модели и LLM

❯ Qwen3 VL — новые модельки от Alibaba

Alibaba представила Qwen3 VL — новую серию мультимодальных моделей на 4 и 8 миллиардов параметров.

Модели умеют понимать изображения, текст и сочетания этих данных, а также работать офлайн. Qwen3 VL оптимизирована под повседневные задачи: от распознавания документов до анализа графиков и UI-элементов.

Модели легко развернуть локально даже на потребительской видеокарте. При этом сохраняется поддержка широкого контекста и сложных промптов.

В открытом доступе опубликованы веса и демо, что уже вызвало активное обсуждение среди разработчиков — многие отмечают хорошую скорость и точность при умеренных требованиях к железу.

🔗 GitHub 🔗 HuggingFace

❯ В ChatGPT добавят эротику

В ChatGPT добавят возможность вести интимные диалоги для юзеров старше 18 лет. В декабре обещают отдельный взрослый режим, который позволит обсуждать интимные темы и вести ролевые диалоги без фильтров.

После выхода GPT-5 пользователи жаловались на жёсткую модерацию, и многие уходили на сторонние решения.

Теперь OpenAI решила официально сегментировать аудиторию и дать больше свободы взрослым пользователям. Но чтобы использовать функцию, нужно будет пройти верификацию возраста.

Фичи уже тестируются на ограниченном числе аккаунтов.

У тяночек Илона, кажется, конкуренты.

❯ MWS Vision Bench — открытый бенчмарк для документов на русском

MWS AI выпустила MWS Vision Bench — первую открытую площадку для оценки качества распознавания документов на русском языке мультимодальными моделями.

Теперь можно объективно сравнить, насколько хорошо разные VLM-модели справляются с типовыми задачами.

Бенчмарк ориентирован на паспорта, квитанции, чеки, медкарты. Уже поддерживаются такие фреймворки, как LLaVA и Qwen-VL.

В топе сейчас Gemini 2.5 Pro и Claude Sonnet 4.5. Удивительно, но GPT-5 в этом тесте заняла только седьмое место.

🔗 GitHub 🔗 HuggingFace

🎨 Генеративные нейросети

❯ Google Veo 3.1 — ответ на Sora 2?

Революции не случилось, скорее небольшой апдейт в ответ на недавний выход Sora 2 от OpenAI.

Главное — теперь можно задать не только первый, но и последний кадр ролика. Модель также стала лучше понимать русский язык в промптах, но вот надписи на видео по-прежнему генерирует с ошибками.

Слухи о генерации видео до одной минуты не подтвердились. В сервисе Google Flow, где уже доступна новинка, ролики ограничены 8 секундами.

Попробовать можно в Google Flow, дают 100 бесплатных кредитов. Есть два режима: Quality и Fast. Работает пока нестабильно: генерация может оборваться на 99%, но кредиты за это возвращают. Ещё раскатали на Replicate и других агрегаторах

🔗 Google Flow

❯ MAI-Image-1 — генератор изображений от Microsoft

Microsoft выкатила свою первую модель для генерации изображений — MAI-Image-1. Это часть большого плана по снижению зависимости от OpenAI, чтобы в будущем Copilot и Bing работали на своих технологиях.

Результаты пока скромные. Модель заняла 9-е место в рейтинге. Судя по примерам, картинки напоминают генераторы прошлого поколения: кожа выглядит пластиковой, а детализация невысокая. Хотя в анонсе это подается как «дебют в топ-10».

Скоро модель обещают добавить в Copilot и Bing Image Creator. А пока единственный способ ее попробовать — поймать вслепую на арене LMArena.

🔗 Microsoft AI 🔗 LMArena

🔧 AI-инструменты и платформы

❯ В n8n добавили AI-режим

В n8n завезли AI-режим: теперь создавать проекты можно прямо в чате с ИИ-агентом.

Не нужно перетаскивать блоки и собирать конвейер вручную — просто пишешь, что хочешь сделать, всё построится автоматически.

На платформе по-прежнему можно автоматизировать задачи и собирать агентов без кода вручную.

Функция доступна всем:

бесплатным пользователям: 20 генераций в пробном периоде
платным подписчикам: 50 кредитов в месяц

🔗 n8n Release Notes

❯ Gemini 2.5 Computer Use — агент, который управляет вашим ПК

Google выпустила Gemini 2.5 Computer Use — это ИИ-агент, который умеет управлять вашим ПК. Нажимает на кнопки, вводит текст и двигает мышкой, чтобы выполнить вашу задачу.

Агент анализирует скриншот экрана и решает, что делать дальше. Пока он лучше всего справляется с управлением в браузере и на мобильных устройствах, но для полноценной работы с Windows или macOS его еще не оптимизировали. По результатам тестов, он обходит аналогичные решения от OpenAI и Claude.

Есть бесплатное демо онлайн. Вы даете агенту задачу, например «узнай, сколько пользователей у ChatGPT», и смотрите, как он открывает браузер, гуглит и ищет ответ. Сессия ограничена 5 минутами.

Для разработчиков агент доступен через API в Google AI Studio и Vertex AI. Google также позаботилась о безопасности: можно настроить, какие действия ИИ должен подтверждать у пользователя, прежде чем их выполнить.

🔗 Demo 🔗 Google Blog

❯ nanochat — свой ChatGPT за 4 часа и $100

Андрей Карпатый, один из сооснователей OpenAI, выпустил проект nanochat. Это набор инструментов, чтобы любой желающий мог с нуля обучить своего мини-чат-бота.

Процесс максимально упрощен. Вы арендуете сервер с 8 видеокартами H100, запускаете один скрипт, и через 4 часа получаете готовую модель с веб-интерфейсом для общения. Стоимость аренды такого сервера — примерно $100 за сеанс.

Проект продолжает идею nanoGPT, но если раньше речь шла только о предобучении, то nanochat покрывает весь цикл до готового продукта. Весь код — минималистичный и понятный, без лишних зависимостей. Цель — сделать создание небольших языковых моделей простым и доступным.

nanochat станет итоговым проектом в будущем курсе Карпаты LLM101n. Глобальная задача — улучшить качество «микромоделей», которые можно обучить с бюджетом до $1000.

🔗 GitHub 🔗 Обсуждение проекта

🧩 AI в обществе и исследованиях

❯ NVIDIA вложит $2 млрд в xAI Маска. Но есть нюанс…

NVIDIA инвестирует до $2 миллиардов в xAI в рамках инвест-раунда на $20 миллиардов.

Но самое интересное — это не прямая инвестиция, а хитрая схема, которую некоторые называют «круговым» финансированием.

Инвесторы не получают долю в xAI. Вместо этого их деньги идут в специально созданную компанию-прокладку SPV. Эта фирма на все $20 миллиардов закупит чипы у самой же NVIDIA, а затем просто сдаст их в аренду xAI на пять лет.

Такая схема выгодна всем. Маск получает нужное ему железо для дата-центра Colossus 2, не размывая свою долю в компании. А инвесторы, включая NVIDIA, получают более надежный актив — не акции стартапа, а право на арендные платежи за видеокарты. Их вложения защищены стоимостью оборудования, даже если xAI не взлетит.

В итоге NVIDIA и продала чипов на миллиарды, и обеспечила себе гарантированный возврат инвестиций.

❯ IBM интегрирует Claude

IBM и Anthropic объявили о стратегическом партнерстве. Модели Claude будут встроены в продукты IBM, начиная со среды для программистов IDE.

Это еще один шаг Anthropic в большой бизнес. По данным Menlo Ventures, корпорации все чаще выбирают Claude вместо решений OpenAI.

В середине 2025 года доля Anthropic на корпоративном рынке составила 32%, в то в��емя как у OpenAI — 25%.

Новая IDE от IBM с Claude уже доступна в закрытом режиме для более чем 6000 первых пользователей. Компания заявляет, что с ней производительность программистов выросла в среднем на 45%.

Вдобавок компании выпустили совместное руководство по созданию ИИ-агентов для бизнеса.

🔗 Руководство по ИИ-агентам

❯ Figure AI представила робота F.03

Стартап Figure AI представил третье поколение своих человекоподобных роботов — F.03. Главное — он полностью готов к серийному производству.

Робота серьезно прокачали. HD-камеры теперь встроены даже в кисти рук, чтобы ИИ-мозг Helix лучше ориентировался в пространстве. А датчики в пальцах настолько чувствительные, что могут определить вес обычной скрепки.

Из других обновлений: новые руки, беспроводная зарядка, улучшенное голосовое управление и тканевая одежда. В демонстрационном ролике F.03 выполняет все действия автономно, без помощи оператора.

Компания планирует выпускать до 12 000 роботов в год, а за четыре года хочет собрать 100 000 андроидов.

🔗 Анонс Figure 03

❯ Аудиоверсия дайджеста

❯ Заключение

На этой неделе всё: Qwen выкатили лёгкие мультимодальные модели, OpenAI готовит взрослый режим без цензуры, а MWS запустили первый бенчмарк для русскоязычных документов. Google обновил Veo 3.1, Microsoft представила MAI-Image-1, а n8n завёз AI-режим для сборки процессов в чате.

Gemini 2.5 научился управлять компьютером, Андрей Карпаты показал, как собрать собственного чат-бота за 4 часа, а в индустрии — стратегические шаги: инвестиции NVIDIA в xAI, корпоративная интеграция Claude от IBM и новый человекоподобный робот от Figure AI.

ИИ всё глубже встраивается в нашу жизнь — от автоматизации и креатива до инфраструктуры и образования.

До встречи в следующем выпуске!

Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩

Нейро-дайджест: ключевые события мира AI за 3-ю неделю октября