Как стать автором
Поиск
Написать публикацию
Обновить
1265.13

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга

OpenAI начала тайно тестировать о3 Alpha на WebArena. Эниузиасты уже попробовали и заявили, что это лучшая тулза для программирования, которая на раз-два уничтожает конкурентов типа Cursor и предыдущую о3 Pro. Умеет генерить сайты и веб-приложения, клонирует игры типа Minecraft, Flappy Bird и даже GTA с первой попытки.

Теги:
0
Комментарии1

💻 ChatGPT научился делать всё за вас.

Только недавно OpenAI представила o3-pro и вот теперь OpenAI запустили Agent — встроенного ИИ-помощника, который:

🟡Сам ищет инфу в интернете.
🟡Логинится на сайтах и кликает кнопки.
🟡Пишет код, делает коммиты, заполняет формы.
🟡Делает покупки, готовит презентации, отвечает на письма и многое другое.

❗️ А перед важными действиями ChatGPT Agent спрашивает подтверждение.

OpenAI заявляет, что модель превосходит o3 и o4-mini в «Последнем экзамене человечества» почти в два раза.

👀 Агент уже доступен для подписчиков Plus, Pro и Team.

Теги:
+5
Комментарии0

Как работают AI-агенты в мультиагентных системах? 🤖🤖

Представьте команду проекта. Каждый в ней решает конкретную задачу, у него есть специфические знания, цели и способы их достижения. Но вместе они действуют намного эффективнее, чем поодиночке. Отлаженная коммуникация — одна из основ успешного проекта.

Как взаимодействуют участники в проекте?

  1. Общаются в чатах 📨
    Отправляют друг другу вопросы, обмениваются запросами и информацией. Например, технический лидер просит у BI-аналитика свежие данные.

  2. Договариваются и иногда конкурируют ⚖️
    Бывает, что участники на время подменяют друг друга или вносят коррективы в изначальные процессы, а иногда — соперничают за ресурсы.

  3. Достигают синергии 🧠
    Если последовательно, по правилам и согласованно выполнять задачи, то совокупный вклад нередко может привести к значительным результатам. 

Вот и в мультиагентных системах всё устроено примерно так же. Агенты работают как команда: общаются, договариваются и достигают результатов, которые не под силу в одиночку.

В каких областях особенно полезен такой подход? Например:

  • Транспорт и логистика (оптимизация маршрутов).

  • CRM и обслуживание клиентов (виртуальные ассистенты, голосовые боты).

  • Финансы и трейдинг (алгоритмическая торговля, прогнозирование рынков).

  • Умные энергосистемы (балансировка нагрузки).

  • Разработка собственных AI-помощников (обучение моделей).

А чтобы снизить затраты ресурсов на интеграцию разрозненных компонентов и ускорить запуск своих решений, можно использовать новый сервис для создания автономных AI-агентов — Evolution AI Agents. Он подойдет для работы как профессиональным ML-разработчикам, так и пользователям без навыка работы с ML. 

Как думаете, смогут ли когда-нибудь мультиагентные системы заменить менеджеров проектов?

Теги:
0
Комментарии0

🔥 В приложении ChatGPT для MacOS наконец-то раскатили фичу “Запись” на всех Plus подписчиков.

👍 Теперь можно записывать любой мит, наговаривать кучу мыслей и размышлений, и чатик всё это транскрибирует в текст и выдаст в удобном виде + можно еще сразу же с этим контекстом початиться.

При чём транскрипция выдается не слово в слово, а сразу переписывается в формат, который удобно читать и легче воспринимать.

Обновление кайф! Давно ожидаемая фича для тех, кто оплачивает только $20/мес.💰

Ловите лайфхак — если хотите понять, какая LLM’ка вам идеально подходит.⬅️

Теги:
0
Комментарии0

Главный экономист OpenAI Ронни Чаттерджи назвал четыре умения, которые родителям нужно развивать у своих детей, чтобы они стали успешными в мире ИИ:

  • прежде всего нужно учиться критически мыслить и формулировать задачи.

  • нужно быть нейропластичным, гибким и уметь адаптироваться, потому что мир будет меняться очень быстро. Изменения происходят не только в ИИ, но и в других сферах от климата до геополитики, поэтому приспосабливаться придётся ко многому.

  • нужно учить своих детей эмоциональному интеллекту. Это особенно важно сейчас, когда ИИ всё чаще берёт на себя технические задачи вроде программирования.

  • счёт и письмо. У детей Чаттерджи есть калькуляторы и сервисы для транскрипции аудио, но он всё равно заставляет их учить таблицу умножения и учиться писать тексты.

Чаттерджи признал, что точно предсказать, как изменится мир и где будет работать следующее поколение людей. Но добавил, что не волнуется, кем будут работать его дети — его собственные родители едва ли могли предугадать, каким будет современный мир.

Теги:
0
Комментарии2

Не так давно делал подборку музыкальных нейросетей, в которую входила Suno.
И теперь у Suno вышла новая модель - Suno 4.5+ 🔥

Что же там добавили:

Из своего аудио можно сделать полноценную песню
Начать можно хоть с вокала, хоть с инструментала!

Можно использовать плейлист как референс для создания нового трека 👏
Доступна на тарифе Pro

Кто уже успел потестить, как ваши впечатления?

Теги:
+1
Комментарии0

17 июля 2025 года OpenAI представила режим агента для ChatGPT (agent mode) с соединением исследований и действий.

В OpenAI пояснили, что агент — это микс из последних моделей компании и различных инструментов. Агент может выполнять сложные цепочки заданий, самостоятельно искать способы решений, писать для этого код и проводить исследовательский поиск в интернете. Агенту, например, можно дать доступ к почте и навсегда забыть о рутине.

В демонстрации новой опции ChatGPT в режиме agent mode попросили подготовить молодого человека к свадьбе друга. Нейросеть нашла ему трендовые образы, подобрала костюм нужного размера, подходящую обувь и написала поздравительную речь.

Агент умеет отправить письмо коллеге, забронировать столик в ресторане, найти наряд на мероприятие или распланировать тур на грядущую поездку. Режим агента использует огромное количество API и сам подключает их. Все зависит от задач, которые агенту поставлены.

Разработчики пояснили, что это первый инструмент, который работает во встроенном браузере. Он также умеет всё, что и ChatGPT: генерировать картинки, отвечать на вопросы и проводить исследования.

Теги:
0
Комментарии0

👩‍🎨 В ChatGPT появились стили для генерации изображений.

Теперь можно не разбираться в тонкостях промптинга и стилизовать пикчу в пару кликов. Как это работает:

🟡Жмём «Создать изображение» — «Стили».
🟡Выбираем подходящий стиль.
🟡В диалоговом окне появляется уже готовый промпт.
🟡При желании загружаем фото, которое нужно стилизовать, и отправляем чат-боту вместе с промптом.

Кстати только недавно OpenAI представила o3-pro, кто ещё не чекал советую!

Делитесь результатами ✍️

Теги:
+2
Комментарии1

АГЕНТЫ И АГЕНТНАЯ ЭКОНОМИКА. 17.07.25.

Микро-дайджест недели.

=> Если мы будем следить за ходом их мысли (рассуждениями ИИ-агентов), то мы сможем лучше их понимать и управлять ими. Этот манифест за безопасность Chain of Thought Monitorability подписали вчера ведущие исследователи индустрии.

Но по факту весь ризонинг, демонстрируемый пользователю, может оказаться внешней декорацией, а решение LLM может принимать исходя из совершенно другой логики и других связей, то есть не тех, которые они демонстрируют в цепочках рассуждений. Другое дело с мультиагентными системами, там есть возможность сохранить прозрачность, даже в случае деградации "честного" Chain-of-Thought у отдельных моделей.

Я называю эту область когнитивной инженерией, а будущих специалистов когнитивными инженерами. Пишу об этом книгу.

=> Не любите вайб дебаггинг также как и я? На подходе инженер Azimov, и его ключевое отличие от текущих код-генераторов в том, что он не только генерит код, по словам разработчика он его будет "понимать".

Потому что он имеет доступ ко всей информации проекта, изучает всю экосистему разработки внутри компании и вытащит весь требуемый контекст: просмотрит всю кодовую базу, архитектурную документацию, обсуждения на GitHub, историю чатов и многое другое. Рекомендую внимательно изучить подход этого стартапа, это следующий уровень, который возможно дает ответы на вопрос, почему лидеры мнений были так оптимистичны в своих публичных спичах.

=> Деньги любят тишину. Я попробовал угадать, что за продукт выкатит бывшая CTO Open AI Мира Мурати, которая недавно подняла еще 2 млрд $ на seed-раунде при оценке 12 млрд $, при этом никто не знает, а чем собственно занимается ее стартап Thinking Machines Lab AI. Читайте в новой статье

=> Open Deep Research это агент для глубоких исследований с открытым исходным кодом, созданный на основе LangGraph и совместимый с вашими источниками данных, LLM и MCP-серверами. Подробно в блоге

И краткий обзор на YT демонстрирующий архитектуру такого агента и принципы разработки, как запустить агента локально с помощью LangGraph Studio и как быстро протестировать его с помощью Open Agent Platform.

=> AWS стремится стать универсальным центром для ИИ-агентов от Anthropic, IBM, Perplexity и других. Amazon Bedrock AgentCore - ожидаемый релиз комплексного подхода AWS для создания и развертывания различных ИИ-агентов. Одно место, любые агенты, все под рукой. Иначе бизнес начинает сходить с ума от разнообразия выбора, в котором он в общей массе не очень то пока разбирается.

AWS представил комплексный набор сервисов корпоративного уровня, которые помогают разработчикам быстро и безопасно развертывать и эксплуатировать ИИ-агенты в любом масштабе, используя любую платформу и модель, размещенную на Amazon Bedrock или в другом месте. Здесь все подробности. А здесь коротко в видео на YT.

=> Хотите собирать низко висящие фрукты лиды? Есть такое решение Orange Slice. Они собирают разные рыночные сигналы по вашим ICP и определяют тех, кто заинтересуется вашим продуктом, а затем преподносят вам их словно "на блюдечке", с различными нюансами и деталями, так что остается только продать 😉

=> Посмотрите на Runway Act-Two - я впечатлен, модель захвата движения нового поколения с существенным улучшением качества и поддержкой отслеживания головы, лица, тела и рук. Для Act-Two требуется только видеозапись движения и референсный персонаж.

Lionsgate и AMC Networks уже участвуют в проекте, изучая модель будущих производственных процессов для Голливуда.

=> И напоследок, вот такой фреймворк, эмулирующий функциональность Grok Heavy с помощью мультиагентной оркестровки. И никаких $300

***

Предыдущие материалы и выпуски дайджеста, там до сих пор много интересных инсайтов. Более 50% из них имеют длинный горизонт актуальности. О новых бизнес-моделях и ИИ-стартапах: Айвентор и Фред

Теги:
+2
Комментарии0

ITFB Group и BSS приглашают на вебинар «Как речевая аналитика помогает проверять продуктовые и маркетинговые гипотезы»

Речевая аналитика — это уже не только контроль качества и эффективность операторов. Современные инструменты позволяют выявлять продуктовые и маркетинговые инсайты, проверять гипотезы и строить стратегию на основе реальных диалогов с клиентами.

Обсудим:
— Как речевая аналитика помогает контакт-центрам повышать качество, снижать нагрузку и увеличивать продажи
— Как с её помощью проверять продуктовые и маркетинговые гипотезы — на реальных кейсах
— Современные инструменты: автоматический поиск инсайтов и генерация гипотез
— Как генеративные модели расширяют возможности речевой аналитики
— Практический кейс внедрения в «Честном знаке»

Спикеры:
Анна Ивлева — Product Owner речевой аналитики, BSS
Дарья Громова — ведущий аналитик по контакт-центрам, BSS
Никита Лаухин — руководитель группы контроля качества клиентского сервиса, «Честный знак»
Николай Чекин — директор по развитию партнёрских продуктов, ITFB Group

Узнайте, как извлечь максимум пользы из речевых данных и зачем в этом помогают LLM.

Когда: 23 июля в 11:00
Формат: Онлайн

🔗 ЗАРЕГИСТРИРОВАТЬСЯ

Теги:
+3
Комментарии0

Марта Шкрета — одна из авторов научной статьи «Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts» (arXiv:2503.02819). В работе описывается применение корректоров Фейнмана — Каца, теоретически выверенной процедуры коррекции траекторий в уже обученных диффузионных моделях, позволяющей генерировать выборки точно из новой, заданной пользователем плотности, а не полагаться на эвристическое смешение скоров.

Статья получила приглашение на International Conference on Machine Learning этого, 2025 года. В рамках конференции ICML в числе прочих форматов проводятся постерные доклады в выставочном зале. В данном формате в отведённый слот времени авторы прикрепляют плакаты одного из типовых размеров (рекомендуется до 182 см в длину) и общаются с любым подошедшим участником. По сути, это сотни одновременных мини-презентаций для тех, кого не посчитали достаточно интересным для большого доклада.

При всей сложности научной работы Шкреты и её соавторов команда подошла к оформлению своего постера с юмором. Авторы воспользовались созвучием сокращения англоязычного написания «Feynman — Kac formula» и названия сети ресторанов быстрого питания KFC. У себя в микроблоге Марта выложила фотографию постера. Заметно, как дизайн постера повторяет шрифты и прочие элементы оформления ресторанов с курятиной, а текст обильно снабжён разнообразными отсылками к еде и её приготовлению.

@martoskreto
Теги:
0
Комментарии0

Сегодня за день я сделал:

1. Переработал FidoJ (современный аналог jNode, на базе микросервисной архитектуры) настолько, насколько это возможно. Поправил все последствия вайбкодинга, и теперь FidoJ - это реально пусечка.

2. NodehistJ (Java-аналог перловому nodehist) также подвергся небольшим изменениям, также касающиеся устранения последствий вайбкодинга.

3. Теперь я не планирую делегировать ИИ бо‌льшую часть своей работы. По моему мнению, ИИ (юзал DeepSeek-V3, ибо Claude слишком дорогой для меня) даже не справлялся с багфиксом, чего уж говорить о полноценном рефакторинге. Поэтому с вайбкодингом я завязываю. Вручную намного быстрее, чем через ИИ.

Теги:
0
Комментарии1

Ближайшие события

Nvidia и Perplexity убили Google Chrome — вышел мощный ИИ-браузер Comet и это буквально Chrome на стероидах.

Самое интересное:

— ИИ-ассистент Comet Assistant, который доступен в любой момент — он поможет разобраться с любым сайтом;
— Вместо привычного Google — ИИ-поисковик Perplexity
— Agentic Search: кроме простого поиска, агент может выполнять действия. Например, что-то купить, запланировать и т.д.;
— Умное управление вкладками и интерфейсом — вкладки группируются сами, автоматическое закрытие дублей;
— И самое крутое: ВСТРОЕННЫЙ БЛОКИРОВЩИК РЕКЛАМЫ!

Более подробно уже все рассказывал, но кому интересно можете посмотреть. Ваше мнение? Кто уже протестил — делитесь впечатлениями!

Comet уже доступен подписчикам Perplexity — здесь.

Теги:
+1
Комментарии0

🤓 Claude научился работать с десятком сервисов.

Anthropic выкатили большой список, в который входят Figma, Notion, Spotify, Chrome, Canva, Stripe и другие.

Их все можно подключить к нейронке благодаря инструменту Connectors, и превратить ИИ в агента, который:

🟡Автоматизирует рутину
🟡Кликает, пишет, двигает
🟡Подключается к десяткам платформ без костылей

👀 Для этого качаем десктопное приложение и делаем коннект. 7 дней можно тестить бесплатно, еще советую чекнуть топ-3 маркетинговых взрыва июня 2025, может найдете для себя что-то новое!

Теги:
0
Комментарии0

За создание аниме-аватаров для чат-бота Grok в xAI платят до $440 тыс. в год. Разработчику нужно создавать реалистичных ИИ-аватаров, вовсю тестировать геймплей во всех ситуациях и работать с голосовыми командами. Требования — Python, Rust, WebSocket, WebRTC и опыт работы iOS.

Теги:
+1
Комментарии0


Недавно писал, что по итогу нейросейти заменят нас еще быстрее, теперь по итогу YouTube объявил войну ИИ-мусору — платформа отберет монетизацию у сгенерированного контента.

По новым правилам лишатся монетизации ролики, если:
— Контент вторичен или переработан без добавленной ценности (реакты, ремиксы, пересказ чужих видео без вклада);
— Использованы чужие фрагменты без существенного изменения;
— Видео созданы на отвали — один дубль, голый рабочий стол, отсутствие монтажа или сценария;
— Присутствует обнажёнка или сексуальный подтекст;
— Ролик целиком сгенерирован ИИ без участия автора;
— Звук синтезирован, без реального человеческого голоса.

При этом YouTube подчёркивает: использовать ИИ — не запрещено, если он помогает создать оригинальный и ценный контент.

Безумные истории про котиков в безопасности.

Теги:
+5
Комментарии0

По мнению специалиста по этике моделей в OpenAI Шона Гроува, в будущем наиболее ценными программистами станут те, кто умеет чётко формулировать мысли, а не просто писать код.

«Если вы умеете эффективно коммуницировать — вы уже умеете программировать», — утверждает он. Гроув считает, что программирование всегда было не столько про строки кода, сколько про структурированное выражение намерений: от понимания задачи и целей до их формализации в понятной форме как для людей, так и для машин.

Гроув называет код лишь «потерянной проекцией» (lossy projection) изначального замысла и ценностей. С развитием ИИ систем, по его мнению, главное умение программиста смещается от написания кода к созданию точных спецификаций и промптов, способных передать намерение максимально полно.

«Тот, кто пишет спецификацию — будь то менеджер, инженер, маркетолог или законодатель — и есть новый программист», — пояснил Гроув. По сути, будущее разработки смещается от технического исполнения к смысловому моделированию: важно не столько, как вы пишете код, сколько, что вы хотите выразить. ИИ берет на себя синтаксис, а человеку остаётся формулировать мысль — ясно, логично и недвусмысленно, полагает Гроув.

Теги:
+3
Комментарии1

Интегрируйте LLM и AI в ваши задачи с Evolution Foundation Models  🤖

❓ Что за инструмент? Evolution Foundation Models — сервис, с помощью которого можно использовать готовые LLM- и AI-модели. Для этого не нужно разворачивать их инференс или писать код. Каждая модель доступна для тестирования в среде AI Playground — это поможет быстрее выбрать и настроить нужную.

🖥 Особенности и преимущества. Сейчас доступно 15 open source моделей, включая DeepSeek, GigaChat и Qwen. Полный список есть на маркетплейсе Cloud.ru. Модели развернуты на российских серверах, что гарантирует высокий уровень безопасности в соответствии с законами РФ, а еще делает удобнее оплату.

Используйте Evolution Foundation Models в удобном интерфейсе через API или AI Playground. С помощью API можно интегрировать подходящие модели в ваши сервисы и проекты, а в среде AI Playground есть возможность экспериментировать с AI, безопасно тестировать разные модели, их настройки и промпты.

Доступность сервиса (SLA) — 99,9%, а оплата проходит по мере потребления токенов.

✍️ Где, как и для чего использовать:

  • Создавать интерактивные чат-боты, чтобы они отвечали на типовые вопросы клиентов и снижали нагрузку на операторов службы поддержки.

  • Генерировать персональные скидки и акции для покупателей, автоматизировать коммуникации с клиентами.

  • Ускорять разработку: генерировать фрагменты кода, рефакторить и оптимизировать его.

  • Автоматически анализировать и интерпретировать большие объемы неструктурированных текстовых данных. На их базе формировать отчеты, создавать документы по шаблонам, выявлять тренды и закономерности, делать прогнозы.

  • Генерировать тексты: описания товаров, посты, фрагменты статей, сценарии видео или подкастов.

  • Создавать изображения на основе текстовых промптов, чтобы ускорить создание упаковок, вывесок, иллюстраций, баннеров, обложек.

Подключить нужную модель с помощью Evolution Foundation Models можно в личном кабинете Cloud.ru. А еще больше сервисов для работы с GenAI есть в цифровой среде Evolution AI Factory — в нее включены шесть сервисов, которые помогут с машинным обучением, внедрением мультиагентных систем и развертыванием LLM-моделей. 

Теги:
0
Комментарии0

Как улучшить режим ночной съемки с помощью нейросети на примере MEFNet

Смешивание экспозиций обычно применяют для улучшения изображений при дневной съемке, особенно в условиях яркого солнца. Но мы решили проверить: можно ли адаптировать этот способ для съемки в темноте? Он поможет осветлить изображение и заметно снизить уровень шумов.

MEFNet — это подход к слиянию изображений с разной экспозицией. Он создан для работы со статическими последовательностями кадров произвольного разрешения и в произвольном количестве. Название MEFNet происходит от термина Multi-Exposure Fusion, то есть «многоэкспозиционное смешивание». Отсюда и сокращение MEF.

Главная цель MEFNet — извлекать полезные детали как из темных, так и из пересвеченных областей, чтобы сформировать итоговое изображение с хорошим балансом яркости и контраста. При этом метод должен избегать артефактов, характерных для классических алгоритмов.

Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819
Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819

Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819

Алгоритм MEFNet работает следующим образом. На вход подается серия изображений с разной экспозицией — они сначала переводятся в YUV-формат. Далее основная обработка выполняется только по Y-каналу, который отвечает за яркость. Дело в том, что именно яркостный компонент в наибольшей степени определяет структуру и детализацию сцены.

Затем нужно уменьшить разрешение всех изображений — так сокращаются вычислительные затраты. Полученные кадры поступают в нейросеть, которая генерирует весовые карты для каждого изображения, также в пониженном разрешении. Она обрабатывает серии произвольного пространственного размера и числа экспозиций, а также генерирует карты соответствующего размера и количества. Сеть состоит из семи сверточных слоев с расширенными свертками, которые увеличивают поле восприятия (receptive field) без потери разрешения: 

  • Слои 1–6 используют ядра размером 3×3 с разными коэффициентами расширения (dilation rates): 1, 2, 4, 8, 16, 1. Это позволяет захватывать контекст на разных масштабах.

  • Слой 7 — финальный слой с ядром 1×1, который преобразует фичи в весовые карты.

  • Нормализация — после каждого сверточного слоя (кроме последнего) применяется адаптивная нормализация (AN), сочетающая нормализацию по экземпляру (instance normalization) с обучаемыми параметрами.

  • Активация — используется Leaky ReLU (LReLU) для сохранения структурной информации.

Подробнее о MEFNet и других алгоритмах улучшения режима ночной съемки в мобильных устройствах на примере планшета KVADRA_T читайте в статье Полины Лукичевой из команды AI ML Kit в YADRO.

Теги:
0
Комментарии0

Вклад авторов