Обновить
1218.24

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга

Главный экономист OpenAI Ронни Чаттерджи назвал четыре умения, которые родителям нужно развивать у своих детей, чтобы они стали успешными в мире ИИ:

  • прежде всего нужно учиться критически мыслить и формулировать задачи.

  • нужно быть нейропластичным, гибким и уметь адаптироваться, потому что мир будет меняться очень быстро. Изменения происходят не только в ИИ, но и в других сферах от климата до геополитики, поэтому приспосабливаться придётся ко многому.

  • нужно учить своих детей эмоциональному интеллекту. Это особенно важно сейчас, когда ИИ всё чаще берёт на себя технические задачи вроде программирования.

  • счёт и письмо. У детей Чаттерджи есть калькуляторы и сервисы для транскрипции аудио, но он всё равно заставляет их учить таблицу умножения и учиться писать тексты.

Чаттерджи признал, что точно предсказать, как изменится мир и где будет работать следующее поколение людей. Но добавил, что не волнуется, кем будут работать его дети — его собственные родители едва ли могли предугадать, каким будет современный мир.

Теги:
Всего голосов 6: ↑2 и ↓40
Комментарии2

Не так давно делал подборку музыкальных нейросетей, в которую входила Suno.
И теперь у Suno вышла новая модель - Suno 4.5+ 🔥

Что же там добавили:

Из своего аудио можно сделать полноценную песню
Начать можно хоть с вокала, хоть с инструментала!

Можно использовать плейлист как референс для создания нового трека 👏
Доступна на тарифе Pro

Кто уже успел потестить, как ваши впечатления?

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

17 июля 2025 года OpenAI представила режим агента для ChatGPT (agent mode) с соединением исследований и действий.

В OpenAI пояснили, что агент — это микс из последних моделей компании и различных инструментов. Агент может выполнять сложные цепочки заданий, самостоятельно искать способы решений, писать для этого код и проводить исследовательский поиск в интернете. Агенту, например, можно дать доступ к почте и навсегда забыть о рутине.

В демонстрации новой опции ChatGPT в режиме agent mode попросили подготовить молодого человека к свадьбе друга. Нейросеть нашла ему трендовые образы, подобрала костюм нужного размера, подходящую обувь и написала поздравительную речь.

Агент умеет отправить письмо коллеге, забронировать столик в ресторане, найти наряд на мероприятие или распланировать тур на грядущую поездку. Режим агента использует огромное количество API и сам подключает их. Все зависит от задач, которые агенту поставлены.

Разработчики пояснили, что это первый инструмент, который работает во встроенном браузере. Он также умеет всё, что и ChatGPT: генерировать картинки, отвечать на вопросы и проводить исследования.

Теги:
Рейтинг0
Комментарии0

👩‍🎨 В ChatGPT появились стили для генерации изображений.

Теперь можно не разбираться в тонкостях промптинга и стилизовать пикчу в пару кликов. Как это работает:

🟡Жмём «Создать изображение» — «Стили».
🟡Выбираем подходящий стиль.
🟡В диалоговом окне появляется уже готовый промпт.
🟡При желании загружаем фото, которое нужно стилизовать, и отправляем чат-боту вместе с промптом.

Кстати только недавно OpenAI представила o3-pro, кто ещё не чекал советую!

Делитесь результатами ✍️

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии1

АГЕНТЫ И АГЕНТНАЯ ЭКОНОМИКА. 17.07.25.

Микро-дайджест недели.

=> Если мы будем следить за ходом их мысли (рассуждениями ИИ-агентов), то мы сможем лучше их понимать и управлять ими. Этот манифест за безопасность Chain of Thought Monitorability подписали вчера ведущие исследователи индустрии.

Но по факту весь ризонинг, демонстрируемый пользователю, может оказаться внешней декорацией, а решение LLM может принимать исходя из совершенно другой логики и других связей, то есть не тех, которые они демонстрируют в цепочках рассуждений. Другое дело с мультиагентными системами, там есть возможность сохранить прозрачность, даже в случае деградации "честного" Chain-of-Thought у отдельных моделей.

Я называю эту область когнитивной инженерией, а будущих специалистов когнитивными инженерами. Пишу об этом книгу.

=> Не любите вайб дебаггинг также как и я? На подходе инженер Azimov, и его ключевое отличие от текущих код-генераторов в том, что он не только генерит код, по словам разработчика он его будет "понимать".

Потому что он имеет доступ ко всей информации проекта, изучает всю экосистему разработки внутри компании и вытащит весь требуемый контекст: просмотрит всю кодовую базу, архитектурную документацию, обсуждения на GitHub, историю чатов и многое другое. Рекомендую внимательно изучить подход этого стартапа, это следующий уровень, который возможно дает ответы на вопрос, почему лидеры мнений были так оптимистичны в своих публичных спичах.

=> Деньги любят тишину. Я попробовал угадать, что за продукт выкатит бывшая CTO Open AI Мира Мурати, которая недавно подняла еще 2 млрд $ на seed-раунде при оценке 12 млрд $, при этом никто не знает, а чем собственно занимается ее стартап Thinking Machines Lab AI. Читайте в новой статье

=> Open Deep Research это агент для глубоких исследований с открытым исходным кодом, созданный на основе LangGraph и совместимый с вашими источниками данных, LLM и MCP-серверами. Подробно в блоге

И краткий обзор на YT демонстрирующий архитектуру такого агента и принципы разработки, как запустить агента локально с помощью LangGraph Studio и как быстро протестировать его с помощью Open Agent Platform.

=> AWS стремится стать универсальным центром для ИИ-агентов от Anthropic, IBM, Perplexity и других. Amazon Bedrock AgentCore - ожидаемый релиз комплексного подхода AWS для создания и развертывания различных ИИ-агентов. Одно место, любые агенты, все под рукой. Иначе бизнес начинает сходить с ума от разнообразия выбора, в котором он в общей массе не очень то пока разбирается.

AWS представил комплексный набор сервисов корпоративного уровня, которые помогают разработчикам быстро и безопасно развертывать и эксплуатировать ИИ-агенты в любом масштабе, используя любую платформу и модель, размещенную на Amazon Bedrock или в другом месте. Здесь все подробности. А здесь коротко в видео на YT.

=> Хотите собирать низко висящие фрукты лиды? Есть такое решение Orange Slice. Они собирают разные рыночные сигналы по вашим ICP и определяют тех, кто заинтересуется вашим продуктом, а затем преподносят вам их словно "на блюдечке", с различными нюансами и деталями, так что остается только продать 😉

=> Посмотрите на Runway Act-Two - я впечатлен, модель захвата движения нового поколения с существенным улучшением качества и поддержкой отслеживания головы, лица, тела и рук. Для Act-Two требуется только видеозапись движения и референсный персонаж.

Lionsgate и AMC Networks уже участвуют в проекте, изучая модель будущих производственных процессов для Голливуда.

=> И напоследок, вот такой фреймворк, эмулирующий функциональность Grok Heavy с помощью мультиагентной оркестровки. И никаких $300

***

Предыдущие материалы и выпуски дайджеста, там до сих пор много интересных инсайтов. Более 50% из них имеют длинный горизонт актуальности. О новых бизнес-моделях и ИИ-стартапах: Айвентор и Фред

Теги:
Всего голосов 6: ↑4 и ↓2+2
Комментарии0

ITFB Group и BSS приглашают на вебинар «Как речевая аналитика помогает проверять продуктовые и маркетинговые гипотезы»

Речевая аналитика — это уже не только контроль качества и эффективность операторов. Современные инструменты позволяют выявлять продуктовые и маркетинговые инсайты, проверять гипотезы и строить стратегию на основе реальных диалогов с клиентами.

Обсудим:
— Как речевая аналитика помогает контакт-центрам повышать качество, снижать нагрузку и увеличивать продажи
— Как с её помощью проверять продуктовые и маркетинговые гипотезы — на реальных кейсах
— Современные инструменты: автоматический поиск инсайтов и генерация гипотез
— Как генеративные модели расширяют возможности речевой аналитики
— Практический кейс внедрения в «Честном знаке»

Спикеры:
Анна Ивлева — Product Owner речевой аналитики, BSS
Дарья Громова — ведущий аналитик по контакт-центрам, BSS
Никита Лаухин — руководитель группы контроля качества клиентского сервиса, «Честный знак»
Николай Чекин — директор по развитию партнёрских продуктов, ITFB Group

Узнайте, как извлечь максимум пользы из речевых данных и зачем в этом помогают LLM.

Когда: 23 июля в 11:00
Формат: Онлайн

🔗 ЗАРЕГИСТРИРОВАТЬСЯ

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Марта Шкрета — одна из авторов научной статьи «Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts» (arXiv:2503.02819). В работе описывается применение корректоров Фейнмана — Каца, теоретически выверенной процедуры коррекции траекторий в уже обученных диффузионных моделях, позволяющей генерировать выборки точно из новой, заданной пользователем плотности, а не полагаться на эвристическое смешение скоров.

Статья получила приглашение на International Conference on Machine Learning этого, 2025 года. В рамках конференции ICML в числе прочих форматов проводятся постерные доклады в выставочном зале. В данном формате в отведённый слот времени авторы прикрепляют плакаты одного из типовых размеров (рекомендуется до 182 см в длину) и общаются с любым подошедшим участником. По сути, это сотни одновременных мини-презентаций для тех, кого не посчитали достаточно интересным для большого доклада.

При всей сложности научной работы Шкреты и её соавторов команда подошла к оформлению своего постера с юмором. Авторы воспользовались созвучием сокращения англоязычного написания «Feynman — Kac formula» и названия сети ресторанов быстрого питания KFC. У себя в микроблоге Марта выложила фотографию постера. Заметно, как дизайн постера повторяет шрифты и прочие элементы оформления ресторанов с курятиной, а текст обильно снабжён разнообразными отсылками к еде и её приготовлению.

@martoskreto
Теги:
Рейтинг0
Комментарии0

Nvidia и Perplexity убили Google Chrome — вышел мощный ИИ-браузер Comet и это буквально Chrome на стероидах.

Самое интересное:

— ИИ-ассистент Comet Assistant, который доступен в любой момент — он поможет разобраться с любым сайтом;
— Вместо привычного Google — ИИ-поисковик Perplexity
— Agentic Search: кроме простого поиска, агент может выполнять действия. Например, что-то купить, запланировать и т.д.;
— Умное управление вкладками и интерфейсом — вкладки группируются сами, автоматическое закрытие дублей;
— И самое крутое: ВСТРОЕННЫЙ БЛОКИРОВЩИК РЕКЛАМЫ!

Более подробно уже все рассказывал, но кому интересно можете посмотреть. Ваше мнение? Кто уже протестил — делитесь впечатлениями!

Comet уже доступен подписчикам Perplexity — здесь.

Теги:
Всего голосов 11: ↑4 и ↓7+1
Комментарии0

🤓 Claude научился работать с десятком сервисов.

Anthropic выкатили большой список, в который входят Figma, Notion, Spotify, Chrome, Canva, Stripe и другие.

Их все можно подключить к нейронке благодаря инструменту Connectors, и превратить ИИ в агента, который:

🟡Автоматизирует рутину
🟡Кликает, пишет, двигает
🟡Подключается к десяткам платформ без костылей

👀 Для этого качаем десктопное приложение и делаем коннект. 7 дней можно тестить бесплатно, еще советую чекнуть топ-3 маркетинговых взрыва июня 2025, может найдете для себя что-то новое!

Теги:
Рейтинг0
Комментарии0

За создание аниме-аватаров для чат-бота Grok в xAI платят до $440 тыс. в год. Разработчику нужно создавать реалистичных ИИ-аватаров, вовсю тестировать геймплей во всех ситуациях и работать с голосовыми командами. Требования — Python, Rust, WebSocket, WebRTC и опыт работы iOS.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0


Недавно писал, что по итогу нейросейти заменят нас еще быстрее, теперь по итогу YouTube объявил войну ИИ-мусору — платформа отберет монетизацию у сгенерированного контента.

По новым правилам лишатся монетизации ролики, если:
— Контент вторичен или переработан без добавленной ценности (реакты, ремиксы, пересказ чужих видео без вклада);
— Использованы чужие фрагменты без существенного изменения;
— Видео созданы на отвали — один дубль, голый рабочий стол, отсутствие монтажа или сценария;
— Присутствует обнажёнка или сексуальный подтекст;
— Ролик целиком сгенерирован ИИ без участия автора;
— Звук синтезирован, без реального человеческого голоса.

При этом YouTube подчёркивает: использовать ИИ — не запрещено, если он помогает создать оригинальный и ценный контент.

Безумные истории про котиков в безопасности.

Теги:
Всего голосов 4: ↑4 и ↓0+5
Комментарии0

По мнению специалиста по этике моделей в OpenAI Шона Гроува, в будущем наиболее ценными программистами станут те, кто умеет чётко формулировать мысли, а не просто писать код.

«Если вы умеете эффективно коммуницировать — вы уже умеете программировать», — утверждает он. Гроув считает, что программирование всегда было не столько про строки кода, сколько про структурированное выражение намерений: от понимания задачи и целей до их формализации в понятной форме как для людей, так и для машин.

Гроув называет код лишь «потерянной проекцией» (lossy projection) изначального замысла и ценностей. С развитием ИИ систем, по его мнению, главное умение программиста смещается от написания кода к созданию точных спецификаций и промптов, способных передать намерение максимально полно.

«Тот, кто пишет спецификацию — будь то менеджер, инженер, маркетолог или законодатель — и есть новый программист», — пояснил Гроув. По сути, будущее разработки смещается от технического исполнения к смысловому моделированию: важно не столько, как вы пишете код, сколько, что вы хотите выразить. ИИ берет на себя синтаксис, а человеку остаётся формулировать мысль — ясно, логично и недвусмысленно, полагает Гроув.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии1

Ближайшие события

Интегрируйте LLM и AI в ваши задачи с Evolution Foundation Models  🤖

❓ Что за инструмент? Evolution Foundation Models — сервис, с помощью которого можно использовать готовые LLM- и AI-модели. Для этого не нужно разворачивать их инференс или писать код. Каждая модель доступна для тестирования в среде AI Playground — это поможет быстрее выбрать и настроить нужную.

🖥 Особенности и преимущества. Сейчас доступно 15 open source моделей, включая DeepSeek, GigaChat и Qwen. Полный список есть на маркетплейсе Cloud.ru. Модели развернуты на российских серверах, что гарантирует высокий уровень безопасности в соответствии с законами РФ, а еще делает удобнее оплату.

Используйте Evolution Foundation Models в удобном интерфейсе через API или AI Playground. С помощью API можно интегрировать подходящие модели в ваши сервисы и проекты, а в среде AI Playground есть возможность экспериментировать с AI, безопасно тестировать разные модели, их настройки и промпты.

Доступность сервиса (SLA) — 99,9%, а оплата проходит по мере потребления токенов.

✍️ Где, как и для чего использовать:

  • Создавать интерактивные чат-боты, чтобы они отвечали на типовые вопросы клиентов и снижали нагрузку на операторов службы поддержки.

  • Генерировать персональные скидки и акции для покупателей, автоматизировать коммуникации с клиентами.

  • Ускорять разработку: генерировать фрагменты кода, рефакторить и оптимизировать его.

  • Автоматически анализировать и интерпретировать большие объемы неструктурированных текстовых данных. На их базе формировать отчеты, создавать документы по шаблонам, выявлять тренды и закономерности, делать прогнозы.

  • Генерировать тексты: описания товаров, посты, фрагменты статей, сценарии видео или подкастов.

  • Создавать изображения на основе текстовых промптов, чтобы ускорить создание упаковок, вывесок, иллюстраций, баннеров, обложек.

Подключить нужную модель с помощью Evolution Foundation Models можно в личном кабинете Cloud.ru. А еще больше сервисов для работы с GenAI есть в цифровой среде Evolution AI Factory — в нее включены шесть сервисов, которые помогут с машинным обучением, внедрением мультиагентных систем и развертыванием LLM-моделей. 

Теги:
Рейтинг0
Комментарии0

Как улучшить режим ночной съемки с помощью нейросети на примере MEFNet

Смешивание экспозиций обычно применяют для улучшения изображений при дневной съемке, особенно в условиях яркого солнца. Но мы решили проверить: можно ли адаптировать этот способ для съемки в темноте? Он поможет осветлить изображение и заметно снизить уровень шумов.

MEFNet — это подход к слиянию изображений с разной экспозицией. Он создан для работы со статическими последовательностями кадров произвольного разрешения и в произвольном количестве. Название MEFNet происходит от термина Multi-Exposure Fusion, то есть «многоэкспозиционное смешивание». Отсюда и сокращение MEF.

Главная цель MEFNet — извлекать полезные детали как из темных, так и из пересвеченных областей, чтобы сформировать итоговое изображение с хорошим балансом яркости и контраста. При этом метод должен избегать артефактов, характерных для классических алгоритмов.

Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819
Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819

Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819

Алгоритм MEFNet работает следующим образом. На вход подается серия изображений с разной экспозицией — они сначала переводятся в YUV-формат. Далее основная обработка выполняется только по Y-каналу, который отвечает за яркость. Дело в том, что именно яркостный компонент в наибольшей степени определяет структуру и детализацию сцены.

Затем нужно уменьшить разрешение всех изображений — так сокращаются вычислительные затраты. Полученные кадры поступают в нейросеть, которая генерирует весовые карты для каждого изображения, также в пониженном разрешении. Она обрабатывает серии произвольного пространственного размера и числа экспозиций, а также генерирует карты соответствующего размера и количества. Сеть состоит из семи сверточных слоев с расширенными свертками, которые увеличивают поле восприятия (receptive field) без потери разрешения: 

  • Слои 1–6 используют ядра размером 3×3 с разными коэффициентами расширения (dilation rates): 1, 2, 4, 8, 16, 1. Это позволяет захватывать контекст на разных масштабах.

  • Слой 7 — финальный слой с ядром 1×1, который преобразует фичи в весовые карты.

  • Нормализация — после каждого сверточного слоя (кроме последнего) применяется адаптивная нормализация (AN), сочетающая нормализацию по экземпляру (instance normalization) с обучаемыми параметрами.

  • Активация — используется Leaky ReLU (LReLU) для сохранения структурной информации.

Подробнее о MEFNet и других алгоритмах улучшения режима ночной съемки в мобильных устройствах на примере планшета KVADRA_T читайте в статье Полины Лукичевой из команды AI ML Kit в YADRO.

Теги:
Рейтинг0
Комментарии0

Google больше НЕ НУЖЕН — вышел мощнейший и абсолютно БЕСПЛАТНЫЙ ИИ-поисковик Scira 🔥🔥

Он позволяет находить любую инфу всего в два клика — в него встроены множество нейронок: от Grok и Claude до GPT-4o и Gemini

Имеется режим «глубокого поиска», который нароет вообще любую инфу. Можно настроить поиск исключительно по научным статьям, картам или YouTube

При этом поисковик идеально понимает запросы на русском языке, работает бесплатно и не требует регистрации 👏
Кстати, знаю что поможет упростить использование и сделать ваш опыт максимально комфортным в AI и ML!

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии4

Automate Your Daily Tasks in 10 Minutes: A Practical Guide to n8n for Beginners

Until 2022, I thought automation was only large companies. But in 2022 I discovered n8n, and everything changed. Now, I automate routine work, reports, and even whole business processes—sometimes in under 10 minutes. Here’s how it works, what surprised me, and what you can try today.

In 2022, I deployed n8n on a separate VPS to demonstrate the ability to process design data from Revit and show that it's like working in Dynamo or Grasshopper, but for data managers and automation pipelines outside of Autodesk products.

But it was hard to get experts interested in 2022 - at the time, n8n was still in its early stages: there were no Python nodes, no LLM integration, and most workflows took weeks to create, relying on scattered blog posts and incomplete examples on forums.

Fast forward to 2025, and everything has changed.

Today, thanks to native LLM nodes, you can simply ask ChatGPT, Claude, or any advanced AI assistant to generate automation n8n pipelines — whether for validating parameters or producing custom QTO tables — and get ready-to-run workflows in seconds.

Why Bother with Automation?

Let’s be honest: most “office work” is repetitive. Copy-paste, renaming files, sending the same email—again and again. It’s boring and, more importantly, wastes hours every week. For me, automation started as an experiment, but quickly became a must-have. Once you automate your first task, you won’t want to go back.

What is n8n and Why Use It?

n8n (pronounced “n-eight-n”) is a free, open-source tool for automating anything—emails, file operations, notifications, even AI tasks. The best part? No coding needed. You just drag, drop, connect blocks, and press play. It runs on Windows, Mac, or Linux. I set up my first workflow in under 15 minutes.

How I Got Started (And You Can Too)

  1. Install Node.js (from the official site, takes 2 minutes)

  2. Install n8n with one command

  3. Open n8n in your browser (local or online)

  4. Start building: drag blocks (“nodes”) to connect apps, add logic, or even call ChatGPT to write emails for you!

Video Tutorial:
Automate Your CAD-BIM Workflows Local with n8n + ChatGPT & Claude | No Code, No Plugins, No Internet

My first workflow? Automating project reports — collecting data, formatting it, and sending it as an email, all triggered by a single button.

Video Tutorial:
Automate Your CAD-BIM Workflows Local with n8n + ChatGPT & Claude | No Code, No Plugins, No Internet

Where the Magic Happens: AI & Templates

The next “wow moment” for me was connecting n8n to AI tools like Claude and ChatGPT. Need to generate text, analyze data, summarize, or respond to messages? Just add a ChatGPT node—no API coding, just your prompt.

Short on time? n8n has a big library of ready-made templates. You can find workflows for almost any need: document processing, cloud backups, database syncs, even advanced stuff like BIM/CAD data processing. Grab a template, tweak it for your needs, done.

Lessons Learned and Tips

  • Don’t overthink: Start simple. Even automating one small task (like downloading attachments from email) pays off.

  • Debug as you go: n8n makes it easy to see where something breaks—just follow the logs, tweak, and re-run.

  • Experiment: The community is active and shares real-life examples. Some of my best workflows came from GitHub repos or the official n8n library.

  • Combine tools: I use n8n with spreadsheets, databases, cloud storage, and AI. Everything connects!

Why You Should Try It

After a few weeks, I realized how much time I was saving. Reports that took 30 minutes now take 2. Integrations that seemed impossible (like sending BIM data to a spreadsheet, then to Teams) were suddenly simple.

Automation isn’t just for techies anymore. With tools like n8n, anyone can build and run real workflows—saving hours, reducing errors, and focusing on what really matters.

Теги:
Всего голосов 4: ↑2 и ↓2+2
Комментарии3

В системах видеонаблюдения и видеоаналитики часто приходится иметь дело с кадрами низкого качества. Объект съемки далеко, плохое освещение, ограниченные возможности камеры – и вместо четкой картинки мы получаем лишь набор пикселей. Знакомая ситуация?

"Что тут происходит? 😑"
"Что тут происходит? 😑"



Почему это большая проблема?

Распознать что-либо по такому "размытому квадратику" – серьезный вызов для алгоритмов. Стандартные модели, обученные на четких изображениях, часто теряют эффективность, когда объект занимает по высоте всего 32 пикселя (а то и 10!). Это напрямую влияет на точность работы систем в реальных условиях – будь то поиск автомобиля, предмета или распознавание лиц.

В чем сложность?

Главная трудность – "пропасть" между миром четких картинок (на которых обычно учатся модели) и миром размытых кадров. Алгоритмы плохо переносят знания из одного "мира" в другой.

Как с этим бороться?

В нашей новой (и первой) статье мы подробно разобрали ключевые подходы к решению такой проблемы в контексте распознавания лиц:

1. "Дорисовка" деталей: специальные нейросети пытаются увеличить и улучшить размытое изображение перед анализом. Работает, но есть риск "придумать" несуществующие детали.

2. Адаптация модели: как "подружить" алгоритм с плохим качеством?

  • Трюки с данными: искусственно ухудшаем хорошие изображения при обучении (сжатие, шум), чтобы модель привыкла к помехам.

  • Дообучение: учим модель на реальных размытых данных. Важно делать это аккуратно, чтобы она не забыла, как работать с четкими изображениями. Помогают методы вроде LoRA (дообучение только маленькой части сети).

  • "Учитель" для "ученика": мощная модель, видящая четкие картинки, учит компактную модель работать с размытыми, передавая свои "знания".

3. PETALface: новый подход, который динамически комбинирует разные "настройки" (LoRA-адаптеры) в модели в зависимости от качества конкретного входящего кадра. Перспективно, но требует дальнейшего изучения.

Хотите разобраться глубже?

В статье мы подробно разбираем плюсы и минусы каждого подхода, рассматриваем специализированные датасеты (TinyFace, BRIAR) и анализируем нюансы свежего метода PETALface.

Сталкивались ли вы с проблемой низкого разрешения в своих проектах? Какие методы оказались эффективными? Делитесь опытом в комментариях!

Теги:
Всего голосов 4: ↑3 и ↓1+4
Комментарии0

Хотите узнать, как устроен и работает искусственный интеллект, а еще провести время интересно и с пользой? 📚

Тогда ловите подборку от Дмитрия Юдина — технического лидера AI в Cloud․ru. В списке книги как для новичков, так и для продвинутых:

1. «iPhuck 10‎», Виктор Пелевин 📗

Философия, технологии и сарказм в одном флаконе. Главный герой — детектив и искусственный интеллект, который пишет романы, в которых расследует преступления. 

Для тех, кто любит постиронию, искусство и немного цифрового безумия.

2. «Охота на электроовец», 2 тома, Сергей Марков 📗

Это полноценная энциклопедия по истории искусственного интеллекта. От древних счетов до электросетей, от Гиппократа до GigaChat. В книге юмор и много неожиданных фактов. 

Будет интересно тем, кто хоть раз спрашивал GigaChat, как он работает :)

3. «Глубокое обучение», Ян Гудфеллоу 📗

Книга, достойная лежать на тумбочке у каждого дата-сайентиста. Толстая, серьезная, техническая. Если хочешь копнуть глубже в нейросети это твой новый лучший (и требовательный) друг. 

Не для слабонервных, но зато после прочтения в разговорах можно уверенно использовать пруфы: «Ну, в третьем томе всё расписано…».

4. «Грокаем глубокое обучение», Эндрю Траск 📗

Более дружелюбный вход в тему — Траск объединяет всё пошагово, просто и понятно. Если слово «грокаем» кажется вам сложным, не волнуйтесь — книга помогает реально понять, а не заучить. 

Подойдет тем, кто хочет разобраться, но не знает, с какой стороны подойти.

5. «Как учится машина», Ян Лекун 📗

Легенда в мире AI объясняет, куда движется искусственный интеллект, как он работает, и почему нам (возможно) не стоит паниковать. Мало формул, но много рассуждений, иронии и визионерства.

Для тех, кто хочет понимать технологии, а не просто удивляться им.

👉 А еще приглашаем внести свой вклад в развитие отечественного AI — испытать нашего нового AI-помощника Клаудию, который позволяет автоматизировать управление ресурсами и инфраструктурой в публичном облаке Cloud.ru Evolution.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии2

🫧 Технологический пузырь лопнул: что случилось с ИИ-агентами?

Аналитики из Gartner предупредили, что к 2027 году более 40% проектов с ИИ-агентами будут закрыты. Спойлер: ИИ как ключевую технологию никто не отменяет, но если будете запускать своих ИИ-агентов, учтите риски, которые увидели эксперты и добавили мы от себя.

ИИ-агенты — это программы, которые автономно или полуавтономно могут принимать решение с использованием технологий ИИ. Когда вам не надо каждый раз запрашивать чат-бот, а он сам отследит ситуацию и будет выдавать вам самые оптимальные туристические маршруты.

Естественно, это даёт возможность упростить и ускорить бизнес-процессы, и компании активно используют её. Аналитики Gartner предсказывают, что к 2028 году как минимум 15% рабочих решений будет приниматься с участием ИИ-агентов (сейчас около нуля), а 33% корпоративного ПО будет включать ИИ-агентов (сейчас около 1%). Почему же эта же компания предупреждает об отмене почти половины проектов с ИИ-агентами?

Во-первых, из-за непредсказуемой стоимости. Сейчас внедрение ИИ-агентов находится на экспериментальной стадии и может дать первые результаты. Но при попытке полноценно интегрировать их в бизнес-процессы компании могут столкнуться с тем, что это дорого или невыгодно.

Во-вторых, из-за непредсказуемой ценности для бизнеса. Понятно, что ИИ может ускорить бизнес-процессы и повысить их эффективность. А может и не помочь. Только после «приземления» тех же больших языковых моделей будет ясно, могут ли они помочь (как в случае с поиском по техдокументации) или потребуют слишком больших затрат ресурсов на проверку результатов работы ИИ.

Наконец, третий пункт — это сложность риск-менеджмента. Как предотвратить утечку информации и взлом ИИ? Как убедиться в адекватности результатов работы ИИ-агента? Это ещё предстоит научиться узнавать, потому что стандартных методик пока нет.

Возможно, сразу во всех трёх пунктах лежит ещё один момент. Gartner предупреждает, что под модным названием компаниям пытаются «продать» и RPA, и чат-боты и другие процессы, которые работают без ИИ или автоматизации. Если они помогают бизнесу — это, конечно, хорошо, но цена старых решений под видом модных «ИИ-агентов» может оказаться выше, чем у исходного продукта, а значит, финальная окупаемость будет под вопросом.

В общем, совет можно дать такой: используйте новые инструменты, но не поддавайтесь на хайп — взвешивайте риски и потенциал внедрения ИИ-агентов.

Теги:
Всего голосов 16: ↑16 и ↓0+26
Комментарии2

Вклад авторов