Коротко о том, чем гиганты индустрии баловали нас на этой неделе:
🟡PrettyPrompt — вышло расширение для браузера для написания идеальных промптов; 🟡Sora — видеогенератор от OpenAI добавили в Bing Video Creator, где его можно потестить бесплатно; 🟡Captions — выпустили нейронку для генерации видео с ИИ-актерами; 🟡OpenAI — раскатали для всех агента Codex для подписчиков Plus и врубили улучшенную память для всех юзеров ChatGPT; 🟡Luma — выкатили фичу для редактирования видео в Dream Machine; 🟡Altar 2.0 — бесплатный ИИ-помощник, который работает как мультиагентная система; 🟡Higgsfield — добавили создание говорящих ИИ-аватаров; 🟡ElevenLabs — представили новую модель для генерации озвучки — Eleven V3; 🟡HeyGen — прокачали свой генератор аватаров; 🟡Manus — выкатили сразу несколько обновлений: генерацию видео, поиск изображений и интеграцию с One Drive; 🟡Google — показали свой новый генератор мультфильмов.
С начала года Anthropic тестирует Claude Code — терминального агента для программирования на больших языковых моделях. Совсем недавно, 4 июня, инструмент добавили в подписки Pro и Max. Энтузиасты с удовольствием принялись тестировать продукт.
Как на личном примере показал микроблогер snwy, не обходится без курьёзов. Как утверждает программист, он попросил агента исправить баг парсера и прилёг. Когда энтузиаст вновь подошёл к компьютеру, Mac уже не загружался, выдавая ошибку об отсутствии операционной системы.
Вероятно, Claude Code дохимичился до того, что снёс содержимое системного диска. Что конкретно случилось, автор твитов не рассказывает. Указывается лишь, что на этой машине утилита для выполнения команд с полномочиями суперпользователя sudo была настроена с директивой NOPASSWD, чтобы при вызове команды пароль вводить не приходилось.
👍 OpenAI презентовали серьезное обновление в ChatGPT. Если кратко, то бота теперь можно заставить полноценно работать за вас
В нейронку прикрутили прямой коннект с рабочими сервисами по типу Github, Dropbox, Gmail и т.д. Какие это открывает возможности?
ИИ сам вытащит весь контекст из рабочих аккаунтов и будет в состоянии взять задачу в таск-трекере, написать код, протестировать его, прислать отчет на почту и залить изменения на Github.
Если требуется глубокое погружение в тему, то чат-бот поймет это и начнет копать по необходимости.
Завариваем чай, откидывает спинку кресла и наблюдаем за нашим цифровым сотрудником.
🟡Появилась генерация видео. Агент по промпту создает целые истории, похожие на мини-фильм, тут есть все: продуманные сцены, логика и реалистичная анимация.
🟡Добавили поиск изображений. Делаем запрос, а ИИ за вас прошерстит весь интернет в поисках нужной пикчи.
💸 Закрой ДОЛГИ с помощью ChatGPT — есть семь топовых промтов для устранения беспорядков в финансах 💸
🔠 Грамотно ведем бюджет и при этом не экономим на каждой мелочи Вот мой ежемесячный доход: [вставь сумму]. Составь простой бюджет, чтобы хватало на аренду, еду, накопления и немного жизни. Без жёстких ограничений.
🔠 Проверяем все подписки, которые съедают ваши деньги Вот за что я сейчас плачу: [вставь список сервисов]. Какие из них можно спокойно отключить, глядя на пользу и приоритет?
🔠 Выясняем самые большие траты Задай мне 5 умных вопросов, чтобы выяснить, на что я трачу больше, чем думаю, и подскажи, как это остановить.
🔠 Создаем подушку безопасности Хочу накопить 10 000 долларов за 90 дней. Построй для меня план, чтобы это было реально и не ощущалось как голодовка.
🔠 Бюджет в игровой форме с кайфом Преврати мой бюджет в игру: каждую неделю — челлендж и маленькая награда. Хочу, чтобы не в напряг, а в кайф.
🔠 Оценочка своего состояния Задай мне несколько вопросов о привычках и оцени моё финансовое здоровье. Подкинь 3 простых способа быстро прокачать его.
🔠 Ревизия ваших денег и способ начать копить бабосик Вот мои доходы и долги: [вставь данные]. Помоги выстроить схему, чтобы закрывать счета, копить и всё же жить по-человечески.
Решил понять, как сейчас можно создавать ИИ-агентов. Вариантов так много, что голова может пойти кругом. Я попытаться увидеть в этом систему.
Принципиально есть три основных направления.
1. Засучить рукава и писать много кода самому
Нужно неплохо знать какой-нибудь язык программирования (сюрприз!).
Лучше всего — Python, потому что он используется для LLM и это как бы "родной" язык для работы с ИИ. Но и другие языки тоже вполне подойдут. У меня есть некоторый опыт с Node.js, поэтому я, например, использую его.
С точки зрения сложности проекта средний ИИ-агент — это довольно простая программа.
У вас может быть веб-сервер на базе Express или просто скрипт. Триггером (тем, что запускает агента) может выступать любой планировщик или внешняя система, которая вызывает агента через веб-хук.
Например, написал пользователь на сайте сообщение. Ваш сайт посылает запрос вашему серверу и там уже агент начинает свою работу.
Во варианте с написанием кода у вас максимум гибкости, возможностей и... кайфа от процесса, если вы любите кодить. Можно реализовать любую сложную логику.
Писать агентов реально интересно, потому что это не просто примитивный CRUD. Нужно продумывать воркфлоу и порой взаимодействие между агентами. Я уж не говорю про механизмы самообучения.
2. Писать меньше кода за счет использования фреймворков
Пожалуй, это самый оптимальный и адекватный подход, если вы планируете создавать сложные агенты.
Под "сложными" я имею ввиду автономные агенты и команды агентов.
Автономный агент может сам принимать решения, что дальше делать в зависимости от ситуации. То есть это не фиксированная if-else логика.
Например, в аутриче важно фокусироваться на ценных лидах. Чем лучше подобраны лиды, тем больше эффективность кампаний.
У вас может быть главный агент ("мозг") и команда вспомогательных агентов, отвечающих за определенные задачи, такие как обогащение данных о лиде, скоринг и категоризация, написание писем, личных сообщений.
Главный агент может использовать вспомогательные агенты в зависимости от ценности лида. Особо ценный лид может быть передан в обработку нескольким аутрич-агентам (e-mail, личные сообщения), а менее ценный — только e-mail-аутрич-агенту. E-mail-агент может поменять текст следующего письма, если в личных сообщениях лид что-то написал другому агенту и контекст поменялся.
Суть тут в том, что решение принимается динамично за счет LLM. И еще нужен общий контекст между агентами, чтобы все это работало в унисон.
Фреймворки тут могут быть очень полезны, потому что в них реализованы инструменты для всего этого, и вам не придется изобретать необходимую логику с нуля. Также фреймворки поддерживают интеграции со многими сервисами, поэтому опять же надо меньше кода писать самому.
Примеры подобных фреймворков: AutoGen (Python), CrewAI (Python), LangChain (Python, Node.js).
3. Писать минимум кода и создавать ИИ-агентов в конструкторах.
Сейчас есть много, так называемых, "no-code" решений для создания ИИ-агентов. Тут большой набор вариантов, начиная от тех, что попроще (Zapier, make.com) и заканчивая более продвинутыми (n8n, pipedream).
Все эти платформы — это что-то вроде Scratch для взрослых.
Суть сводится к тому, что вы создаете нужный вам воркфлоу и настраиваете интеграции через интерфейс приложения.
Простые агенты можно создавать вообще без единой строчки кода. Сложные агенты скорее всего не получится реализовать из-за ограничений.
Тут максимум хайпа, потому что люди, не умеющие писать код, получили возможность ✨ творить ✨ .
--- Некая матрица принятия решения, как я это вижу
💡 Хочу построить простого агента или не умею кодить (тогда сложного агента создать не получится). ➡️ Использовать конструкторы.
💡 Хочу сложного агента и умею кодить на Python. ➡️ Юзать фреймворк или писать с нуля. Скорее всего юзать фреймворк более оправдано, потому что есть из чего выбрать.
💡 Хочу сложного агента и умею кодить на др. языках (например, Node.js) ➡️ Писать с нуля.
Исследование показало, что искусственный интеллект может создавать смешные интернет-мемы, но самые остроумные шутки по-прежнему придумывают люди. Учёные сравнили мемы, созданные людьми, искусственным интеллектом и в сотрудничестве человека с ИИ. Результаты показали, что у машин есть потенциал, но человеческая интуиция в юморе пока незаменима.
Суть проблемы заключается в понимании границ креативности ИИ. Может ли машина по-настоящему понять культурный контекст, иронию и нюансы, необходимые для качественного юмора? Исследователи из Технологического института KTH, Мюнхенского университета Людвига‑Максимилиана и Дармштадтского технического университета провели масштабный эксперимент для ответа на этот вопрос.
В ходе исследования три группы участников создавали мемы. Первая группа состояла только из людей, вторая использовала языковую модель для генерации мемов, а третья совмещала работу человека и ИИ. Затем почти 100 человек оценивали созданные мемы по креативности, юмору и желанию поделиться. В среднем мемы, полностью созданные ИИ, получили более высокие оценки.
Однако самые смешные и запоминающиеся отдельные мемы были созданы людьми. В то же время, совместная работа человека и ИИ привела к появлению наиболее креативных и виральных мемов. Это говорит о том, что ИИ отлично справляется с генерацией большого количества идей, но человеческое участие необходимо для отбора и доработки лучшего контента.
На бенчмарках модель заметно подросла и «поумнела» на задачах кода, логики и точных наук.
– 82.2% на задачах по программированию (Aider Polyglot) – 86.4% на вопросах по естественным наукам (GPQA) – 21.6% на Humanity’s Last Exam (тест на мышление и знания)
Цены в API: — до 200K токенов: $1.25 input / $10 output — больше 200K: $2.50 / $15 (за 1M токенов)
Представлен ультимативный бесплатный гайд по вайб-кодингу, в котором есть всё. Автор — ведущий инженер Google. Внутри проекта описаны лучшие техники промптинга, готовые шаблоны, фреймворки, сценарии — всё продумано до мелочей. Там нет устаревших советов, всё подогнано под новейшие модели и ИИ-сервисы.
Теперь не нужно рыться в интернете часами — ИИ сделает всю нудную работу за вас: найдёт информацию, оформит отчёты, создаст таблицы, гайды, презентации. В итоге получается целая интерактивная книга по вашей теме: внутри находятся графики, иллюстрации и дашборды.
Бонус: на базе собранных данных можно даже создавать целые приложения. Пробуем и экономим время!
Привет, меня зовут Александр, я аналитик в Альфа-Банке. Однажды я устал, что на Feature Store, на платформе для дата-инженеров (DE) и дата-саентистов (DS), невозможно ничего найти.
Поиск по контексту отсутствует. Приходится руками шерстить огромное количество ETL-проектов в поисках той самой полезной информации, полагаясь сначала на удачу, а после — на опыт и помощь коллег.
Feature Store сама по себе — платформа, которая должна упрощать работу коллег с большими данными, упрощает бюрократию жизненного цикла создания ETL, ввода моделей в промышленную эксплуатацию. Но какой же поиск там...В общем, хотелось бы улучшить процесс по поиску данных в ней.
В ООН начали говорить об опасностях общего искусственного интеллекта (AGI)
Встретил рекомендательный отчет (28 мая 2025) от консультативной группы высокого уровня о том, что надо бы что-то делать с этими рисками на международном уровне.
Это правильный шаг, вот только как и с изменением климата, на мировом законодательном уровне мы критически отстаем от развивающихся событий. Авторы говорят о вероятном появлении AGI в ближайшие 10 лет.
Вот краткий пересказ документа с моими комментами:
AGI - ИИ, который будет способен выполнять большой спектр когнитивных задач на или сверх уровня человека. Речь не об уровне среднего человека, а об уровне самого крутого человека в этой области. Дальше проходной кусок текста про огромное количество плюшек человечеству, который такой ИИ может дать, это не интересно.
Риски:
🔸Джин из бутылки. Если ИИ станет автономным и способным к самоулучшению, то вряд ли удастся снова взять его под контроль.
🔸Вооружение. Так ИИ может создать новые куда более мощные виды убийств людей. Авторы отдельно подчеркивают рои (swarms) автономных систем вооружения.
🔸Уязвимости киберсистем и инфраструктуры. Энергетика, медицина, транспорт, экономика … все может накрыться, если атаками на них займется AGI.
🔸Концентрации власти и увеличение неравенства. Кто обладает AGI, тот и пожинает плоды. Весь мир может стать банановыми республиками одной или двух конкретных стран, да и внутри этих стран неравенство возрастет значительно, так как эти плоды будут в руках корпораций и/или правительства.
🔸Экзистенциальные риски. AGI может преследовать свои цели, несогласованные с нашими, что может привести к тому, что мы потеряем контроль над происходящим.
Авторы настаивают на создании международного регулирования AGI на базе ООН. Потом там раздел об идеях практических механизмов, и подчеркивается, что это прям срочно срочно надо делать.
Тут, конечно, есть большая проблема, что если регулирование будет принято, то без подписания его США и Китаем никакого в нем смысла не будет. Смогут ли будущие “банановые республики” надавить на них достаточно, чтобы это случилось, причем быстро, это открытый вопрос.
Сейчас вокруг ИИ-агентов много хайпа. Но что именно скрывается за этим термином? До конца непонятно.
Люди понимают его по-разному. Кто-то называет агентом вообще всё, что выходит за рамки простого диалога с ChatGPT, а кто-то считает, что агент — это исключительно полностью автономная самообучающаяся система, движущаяся к цели.
Мне кажется, истина где-то посередине.
Ключевым фактором здесь является степень автономности системы. Под автономностью я имею в виду способность системы самостоятельно принимать решения.
Например, если у нас есть жёстко заданная логика if-else, основанная на выводе модели, — это не автономность. Потому что решение в таком случае принимает код, а не LLM.
А вот если LLM сам решает, что делать дальше, — это уже и есть автономность!
Я бы грубо разделил системы на следующие уровни автономности:
0️⃣ Скрипт с фиксированной логикой, выполняющий один или несколько шагов и делающий один или более запросов к LLM. 1️⃣ + ИИ предоставлены инструменты, которые он может использовать при необходимости (например, поиск или калькулятор). 2️⃣ + Порядок шагов определяет сам ИИ (например, получает сообщение от пользователя и решает — ответить на основе базы знаний или эскалировать человеку). 3️⃣ + Система самообучается и со временем повышает качество своей работы (ориентирована на достижение цели). 4️⃣ + Система может менять свою структуру во время работы (например, агент-папа может создавать или удалять других агентов).
Уровень 0 я бы не стал называть ИИ-агентом. Это скорее просто воркфлоу с использованием ИИ.
А вот начиная с уровня 1, уже можно говорить об ИИ-агенте, потому что в процесс включаются элементы автономности.
Это, в целом, соответствует подходу Anthropic: статья
Это довольно объемный документ — 340 страниц, и в нем демонстрируется экспоненциальный рост ключевых показателей. Исследование подробно показывает, как менялся и развивался ландшафт продуктов, технологий и сервисов, связанных с AI за последние годы.
Для тех, кто хочет ознакомиться подробнее, вот основные интересные моменты, которые я выделил после внимательного изучения:
Компания xAI построила суперкомпьютер Colossus площадью 70 000 м² с 200 000 GPU всего за 122 дня. Это яркий пример того, как политика, деньги и настойчивость Илона Маска позволяют достигать невероятных результатов. Интересно, что для строительства использовали старый завод «Электролюкс».
Новая архитектура GPU Blackwell от NVIDIA потребляет в 105 000 раз меньше энергии на один токен по сравнению с GPU Kepler 2014 года! Можно представить это так: автомобиль, который раньше расходовал 10 литров на 100 км, стал бы потреблять всего 0.000095 литра — поразительный скачок эффективности.
В 2025 году китайская компания DeepSeek обучила модель уровня GPT-4 за примерно 5млнпротив40 млн у OpenAI. При этом стоимость использования DeepSeek V3 составляет всего около 0.2% от стоимости GPT-4.5 — очевидно, что в будущем цена за токен будет стремиться к нулю.
В тесте Turing Test 2025 года около 73% участников приняли ответы GPT-4.5 за человеческие. В области программирования DeepSeek показывает результат 98 из 100 — даже превосходя OpenAI (97/100).
Около 2.6 миллиарда человек (примерно 32% населения), которые никогда не пользовались интернетом, пропустят эру браузеров и поисковиков и сразу перейдут к использованию AI-ассистентов на родном языке. Это колоссальный скачок через технологическую эпоху: аналогичная ситуация произошла в Китае, где часть пользователей сразу перешла с отсутствия ПК к использованию смартфонов.
Несмотря на то что стоимость инференса снизилась на 99.7% за последние годы, общие расходы на AI продолжают расти экспоненциально. Это говорит о том, что чем дешевле становится использование AI, тем шире его внедрение во все сферы жизни.
Новые AI-агенты вроде Claude или Operator теперь могут напрямую управлять компьютером: кликать мышкой, заполнять формы или делать покупки за вас. Это кардинальный сдвиг от роли «ассистента» к роли «исполнителя», который развивается очень быстро и мощно. В будущем многие из них станут самостоятельными «организмами», работающими на блокчейне и использующими доходы от своей деятельности для оплаты своих расходов и выплат роялти создателям (здесь можно вставить ваше имя).
«Скорость скорости» — интернету понадобилось более 20 лет для массового принятия технологий; AI достигает такого же уровня за всего лишь 2–3 года. Каждая следующая волна технологий приходит вдвое быстрее предыдущей. Мы сейчас находимся в точке, когда изменения происходят так быстро, что общество едва успевает их осмыслить — скоро может наступить сингулярность!
Bentley Motors рассказали о внедрении AI-модели Hide Inspection, которая следит за качеством кожи.
На производство Bentayga SUV нужно около девяти шкур, но на деле используется больше, потому что часть отбраковывается — укусы насекомых, шрамы, царапины не могут оказаться в люксовом салоне авто. Модель Hide Inspection использует компьютерное зрение и AI для обработки изображений, чтобы детектировать мельчайшие дефекты. Модель не только обнаруживает повреждения, но и составляет выкройку так, чтобы избежать проблемных мест и при этом как можно эффективнее использовать всю шкуру. В результате удаётся сократить объём выбрасываемой кожи.
Сама модель, вероятно, не является эксклюзивной — аналогичную или ту же самую технологию ранее внедрили на производстве Volkswagen Group. Но случай Bentley интересен тем, что это, пожалуй, первый или один из первых кейсов внедрения автоматизации на производстве люксового сектора. Ручная обработка, живые мастера — для этого сегмента экономики это не сдерживающий фактор, а, наоборот, повод для гордости и часть ценности продукта. Поэтому внедрение новых технологий может восприниматься не как необходимость, а как угроза традициям и статусу продукта. За объёмами производства или скоростью компании этого сегмента тоже вроде бы не слишком гонятся. Выходит, мы наблюдаем редкий случай, когда автоматизация вводится не ради экономии или ускорения, а исключительно ради повышения качества.
Больше подобных новостей о роботах и AI в индустрии — в нашем канале
Как обещал, сообщаю о выходе в издательстве "Бомбора" на русском языке (в моем переводе) монографии Саймона Принса, которую я неоднократно упоминал в своих публикациях. Оригинал называется "Understanding Deep Learning (2023)", перевод вышел под заглавием "Машинное обучение. От основ до продвинутых моделей (2025)".
Судя по тому, что на Литрес книга передана 19 мая 2025 года, из типографии вышла совсем недавно.
Коротко о том, чем гиганты индустрии баловали нас на той неделе:
🟡Prompt Jesus — платформа для создания идеальных промптов; 🟡Manus — научился превращать фото в постеры; 🟡Google — выпустили свой генератор речи; 🟡Opera — анонсировала браузер с ИИ-агентами — Neon; 🟡Kling — обновили свой видеогенератор до версии 2.1; 🟡DeepSeek R1 — прокачали до уровня o3; 🟡Perplexity — выкатили режим Labs для генерации кода, таблиц и приложений; 🟡Flowith — открыли для всех своего ИИ-агента Neo; 🟡Manus — теперь генерирует презентации; 🟡FLUX.1 Kontext — новый генератор и редактор изображений.