Как стать автором
Поиск
Написать публикацию
Обновить

Научпоп

Сначала показывать
Порог рейтинга

Марта Шкрета — одна из авторов научной статьи «Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts» (arXiv:2503.02819). В работе описывается применение корректоров Фейнмана — Каца, теоретически выверенной процедуры коррекции траекторий в уже обученных диффузионных моделях, позволяющей генерировать выборки точно из новой, заданной пользователем плотности, а не полагаться на эвристическое смешение скоров.

Статья получила приглашение на International Conference on Machine Learning этого, 2025 года. В рамках конференции ICML в числе прочих форматов проводятся постерные доклады в выставочном зале. В данном формате в отведённый слот времени авторы прикрепляют плакаты одного из типовых размеров (рекомендуется до 182 см в длину) и общаются с любым подошедшим участником. По сути, это сотни одновременных мини-презентаций для тех, кого не посчитали достаточно интересным для большого доклада.

При всей сложности научной работы Шкреты и её соавторов команда подошла к оформлению своего постера с юмором. Авторы воспользовались созвучием сокращения англоязычного написания «Feynman — Kac formula» и названия сети ресторанов быстрого питания KFC. У себя в микроблоге Марта выложила фотографию постера. Заметно, как дизайн постера повторяет шрифты и прочие элементы оформления ресторанов с курятиной, а текст обильно снабжён разнообразными отсылками к еде и её приготовлению.

@martoskreto
Теги:
0
Комментарии0

Сегодня за день я сделал:

1. Переработал FidoJ (современный аналог jNode, на базе микросервисной архитектуры) настолько, насколько это возможно. Поправил все последствия вайбкодинга, и теперь FidoJ - это реально пусечка.

2. NodehistJ (Java-аналог перловому nodehist) также подвергся небольшим изменениям, также касающиеся устранения последствий вайбкодинга.

3. Теперь я не планирую делегировать ИИ бо‌льшую часть своей работы. По моему мнению, ИИ (юзал DeepSeek-V3, ибо Claude слишком дорогой для меня) даже не справлялся с багфиксом, чего уж говорить о полноценном рефакторинге. Поэтому с вайбкодингом я завязываю. Вручную намного быстрее, чем через ИИ.

Теги:
0
Комментарии1

Nvidia и Perplexity убили Google Chrome — вышел мощный ИИ-браузер Comet и это буквально Chrome на стероидах.

Самое интересное:

— ИИ-ассистент Comet Assistant, который доступен в любой момент — он поможет разобраться с любым сайтом;
— Вместо привычного Google — ИИ-поисковик Perplexity
— Agentic Search: кроме простого поиска, агент может выполнять действия. Например, что-то купить, запланировать и т.д.;
— Умное управление вкладками и интерфейсом — вкладки группируются сами, автоматическое закрытие дублей;
— И самое крутое: ВСТРОЕННЫЙ БЛОКИРОВЩИК РЕКЛАМЫ!

Более подробно уже все рассказывал, но кому интересно можете посмотреть. Ваше мнение? Кто уже протестил — делитесь впечатлениями!

Comet уже доступен подписчикам Perplexity — здесь.

Теги:
+1
Комментарии0

🤓 Claude научился работать с десятком сервисов.

Anthropic выкатили большой список, в который входят Figma, Notion, Spotify, Chrome, Canva, Stripe и другие.

Их все можно подключить к нейронке благодаря инструменту Connectors, и превратить ИИ в агента, который:

🟡Автоматизирует рутину
🟡Кликает, пишет, двигает
🟡Подключается к десяткам платформ без костылей

👀 Для этого качаем десктопное приложение и делаем коннект. 7 дней можно тестить бесплатно, еще советую чекнуть топ-3 маркетинговых взрыва июня 2025, может найдете для себя что-то новое!

Теги:
0
Комментарии0

За создание аниме-аватаров для чат-бота Grok в xAI платят до $440 тыс. в год. Разработчику нужно создавать реалистичных ИИ-аватаров, вовсю тестировать геймплей во всех ситуациях и работать с голосовыми командами. Требования — Python, Rust, WebSocket, WebRTC и опыт работы iOS.

Теги:
+1
Комментарии0

На Steam Deck вышел неофициальный плагин lsfg‑vk для утилиты Lossless Scaling, позволяющий повысить производительность в играх путём генерации кадров. Для установки плагина на портативный ПК, потребуется сперва купить основную версию Lossless Scaling в Steam, установить менеджер плагинов Decky Loader и открыть в нём архив с lsfg‑vk. После установки плагина для использования генерации кадров в конкретной игре, её необходимо открывать с командой «~/lsfg%command%» в параметрах запуска.

Lossless Scaling — это популярное приложение, позволяющее масштабировать изображение и генерировать дополнительные промежуточные кадры в играх для повышения плавности и производительности.

Теги:
0
Комментарии0


Недавно писал, что по итогу нейросейти заменят нас еще быстрее, теперь по итогу YouTube объявил войну ИИ-мусору — платформа отберет монетизацию у сгенерированного контента.

По новым правилам лишатся монетизации ролики, если:
— Контент вторичен или переработан без добавленной ценности (реакты, ремиксы, пересказ чужих видео без вклада);
— Использованы чужие фрагменты без существенного изменения;
— Видео созданы на отвали — один дубль, голый рабочий стол, отсутствие монтажа или сценария;
— Присутствует обнажёнка или сексуальный подтекст;
— Ролик целиком сгенерирован ИИ без участия автора;
— Звук синтезирован, без реального человеческого голоса.

При этом YouTube подчёркивает: использовать ИИ — не запрещено, если он помогает создать оригинальный и ценный контент.

Безумные истории про котиков в безопасности.

Теги:
+5
Комментарии0

Люди остаются наиболее уязвимым звеном в системе безопасности

За последние годы арсенал кибермошенников, атакующих банки и их клиентов, пополнился различными инструментами – от масок, копирующих лицо жертвы, до сложных алгоритмов искусственного интеллекта, позволяющих полностью воссоздать «цифровую личность». Наш коллега, Директор дирекции контроля и безопасности «ОТП Банка» Сергей Зиборов в интервью приложению «Ведомости. Технологии и инновации» рассказал, как в современных условиях построить эффективную систему защиты в финансовом секторе и можно ли победить беспечность клиентов, которая становится причиной двух из трех успешных атак.

В 2023 г. было совершено 3 300 успешных кибератак ‒ этот год стал рекордным за целое десятилетие. Сергей рассказал, что количество мошеннических операций в отрасли продолжает расти. По разным оценкам, за последние три года их число увеличилось на 30-40%. Основной вклад в такую динамику внесли атаки методом социальной инженерии (включают обман и психологические манипуляции, направленные на то, чтобы заставить жертву совершить нужные злоумышленнику действия), а также схемы обмана при помощи телефонных звонков, мессенджеров и поддельных сайтов.

Методы «цифровых атак» становятся все изощреннее. Помимо традиционно активного использования фишинга (копии сайтов для получения доступа к личной информации клиентов, например паролям), в сети компьютеров, зараженных вредоносным программным обеспечением, растет число случаев использования мошенниками искусственного интеллекта и дипфейков ‒ методов синтеза изображения и голоса клиентов. По данным системного интегратора «Информзащита», с января по октябрь 2024 г. число атак с использованием технологии дипфейк в финансовом секторе выросло на 13% год к году ‒ до 5 700 случаев.

При этом улучшилась и эффективность антифрод-систем банков, количество предотвращенных мошеннических операций значительно выросло. По данным ЦБ, антифрод-системы кредитных организаций в 2024 г. отразили 72,17 млн попыток хищения денег клиентов со стороны злоумышленников. Годом ранее ‒ 34,77 млн.

В первом квартале 2025 г. количество предотвращенных «ОТП Банком» операций без добровольного согласия клиентов увеличилось на 17% по сравнению с IV кварталом 2024 г. и составило 631 транзакцию. Это связано в основном с возросшей активностью мошенников. Вследствие этого системой антифрода банка было выявлено и отклонено больше подозрительных операций по сравнению с предыдущим периодом. При этом в банке уделяют большое внимание влиянию системы антифрода на наших клиентов: в течение первого квартала 2025 г. доля приостановленных антифродом операций от общего их количества была снижена почти вдвое: с 0,27% до 0,18%.


Развитие новых технологий, по сути, идет на пользу прежде всего мошенникам.

По словам Сергея, в ИТ любая технология с момента появления рассматривается как инструмент, с помощью которого можно сделать как плохое, так и хорошее. Условно: при помощи блокчейна можно торговать оружием, а можно организовать благотворительный фонд. Соревнование между теми, кто использует технологии для нападения, и теми, кто с их помощью защищает клиентов, идет постоянно.

Продолжение интервью можно прочитать на сайте "Ведомости".

Теги:
0
Комментарии0

Есть два вида веры в силу науки.

Первый, наиболее распространённый, заключается в том, что наука настолько крута, настолько многого достигла, что в целом все законы природы уже открыты и требуют лишь незначительных уточнений.

Второй и, увы, более редкий, заключается в том, что наука настолько крута, что она способна совершить открытия, которые могут полностью перевернуть современные устоявшиеся представления.

К первому типу относился, например, Альберт Майкельсон, сказавший:

Наиболее важные фундаментальные законы и факты физической науки уже открыты, и они настолько твердо установлены, что возможность их изменения в результате новых открытий крайне маловероятна… Наши будущие открытия должны быть ограничены поиском шестого знака после запятой.

Обычно эту цитату приписывают Уильяму Томсону, лорду Кельвину, однако это не так. Хотя он тоже высказывался в похожем ключе: в физике осталось всего два "облачка", которые мешают считать физику "завершённой".

Альберт Майкельсон впервые сделал своё высказывание в 1896, затем повторил в 1903. Просто напомню, что в 1903 году:

  • не было теории относительности, даже специальной;

  • не было квантовой механики;

  • не было представления о других галактиках, наша галактика считалась всей Вселенной;

  • единственной известной элементарной частицей был электрон.

Прошло больше века, но людей, думающих как Альберт Майкельсон, становится только больше.

Теги:
0
Комментарии0

По мнению специалиста по этике моделей в OpenAI Шона Гроува, в будущем наиболее ценными программистами станут те, кто умеет чётко формулировать мысли, а не просто писать код.

«Если вы умеете эффективно коммуницировать — вы уже умеете программировать», — утверждает он. Гроув считает, что программирование всегда было не столько про строки кода, сколько про структурированное выражение намерений: от понимания задачи и целей до их формализации в понятной форме как для людей, так и для машин.

Гроув называет код лишь «потерянной проекцией» (lossy projection) изначального замысла и ценностей. С развитием ИИ систем, по его мнению, главное умение программиста смещается от написания кода к созданию точных спецификаций и промптов, способных передать намерение максимально полно.

«Тот, кто пишет спецификацию — будь то менеджер, инженер, маркетолог или законодатель — и есть новый программист», — пояснил Гроув. По сути, будущее разработки смещается от технического исполнения к смысловому моделированию: важно не столько, как вы пишете код, сколько, что вы хотите выразить. ИИ берет на себя синтаксис, а человеку остаётся формулировать мысль — ясно, логично и недвусмысленно, полагает Гроув.

Теги:
+3
Комментарии1

Интегрируйте LLM и AI в ваши задачи с Evolution Foundation Models  🤖

❓ Что за инструмент? Evolution Foundation Models — сервис, с помощью которого можно использовать готовые LLM- и AI-модели. Для этого не нужно разворачивать их инференс или писать код. Каждая модель доступна для тестирования в среде AI Playground — это поможет быстрее выбрать и настроить нужную.

🖥 Особенности и преимущества. Сейчас доступно 15 open source моделей, включая DeepSeek, GigaChat и Qwen. Полный список есть на маркетплейсе Cloud.ru. Модели развернуты на российских серверах, что гарантирует высокий уровень безопасности в соответствии с законами РФ, а еще делает удобнее оплату.

Используйте Evolution Foundation Models в удобном интерфейсе через API или AI Playground. С помощью API можно интегрировать подходящие модели в ваши сервисы и проекты, а в среде AI Playground есть возможность экспериментировать с AI, безопасно тестировать разные модели, их настройки и промпты.

Доступность сервиса (SLA) — 99,9%, а оплата проходит по мере потребления токенов.

✍️ Где, как и для чего использовать:

  • Создавать интерактивные чат-боты, чтобы они отвечали на типовые вопросы клиентов и снижали нагрузку на операторов службы поддержки.

  • Генерировать персональные скидки и акции для покупателей, автоматизировать коммуникации с клиентами.

  • Ускорять разработку: генерировать фрагменты кода, рефакторить и оптимизировать его.

  • Автоматически анализировать и интерпретировать большие объемы неструктурированных текстовых данных. На их базе формировать отчеты, создавать документы по шаблонам, выявлять тренды и закономерности, делать прогнозы.

  • Генерировать тексты: описания товаров, посты, фрагменты статей, сценарии видео или подкастов.

  • Создавать изображения на основе текстовых промптов, чтобы ускорить создание упаковок, вывесок, иллюстраций, баннеров, обложек.

Подключить нужную модель с помощью Evolution Foundation Models можно в личном кабинете Cloud.ru. А еще больше сервисов для работы с GenAI есть в цифровой среде Evolution AI Factory — в нее включены шесть сервисов, которые помогут с машинным обучением, внедрением мультиагентных систем и развертыванием LLM-моделей. 

Теги:
0
Комментарии0

Астрофотограф по имени Карл рассказал. что потратил всего $20 в магазине хозтоваров и полностью преобразил резкость своих астрофотографий.

В небольшом видео он показал три простых самодельных мода для астрофотографии, которые могут значительно улучшить снимки глубокого космоса без лишних трат, включая маску Бахтинова, напечатанную на 3D-принтере и флокирование трубы телескопа фетровыми полосками. Эти простые усовершенствования телескопа стоят меньше, чем один окуляр, но дают результаты, сравнимые с профессиональным оборудованием для астрофотографии.

Теги:
+3
Комментарии1

С 2026 года США начнут взимать дополнительный возвратный сбор за «добросовестность» (Visa Integrity Fee) в размере $250 за каждую неиммиграционную визу, включая туристические (B-1/B-2), студенческие (F/M), рабочие (H-1B) и обменные визы (J).

Новый сбор «Visa Integrity Fee» стал частью масштабного закона «One Big Beautiful Bill», подписанного президентом Дональдом Трампом 4 июля 2025 года. Исключение составляют только дипломатические категории виз A и G.

По оценкам экспертов, общая стоимость получения туристической визы может вырасти до $450–470, что в 2,5 раза превышает текущую сумму. Помимо нового сбора, также повышаются другие сопутствующие платежи, включая сбор за форму I-94 ($24) и повышенную стоимость ESTA ($40 вместо прежних $21).

Согласно официальному тексту закона, сбор «за добросовестность» рассматривается как залог, который может быть возвращён, если заявитель покинет США в течение пяти дней после истечения визы, не нарушив условий пребывания и не подав на продление. Однако для студентов и рабочих виз это означает, что деньги могут «зависнуть» на годы.

Теги:
0
Комментарии0

Ближайшие события

Как улучшить режим ночной съемки с помощью нейросети на примере MEFNet

Смешивание экспозиций обычно применяют для улучшения изображений при дневной съемке, особенно в условиях яркого солнца. Но мы решили проверить: можно ли адаптировать этот способ для съемки в темноте? Он поможет осветлить изображение и заметно снизить уровень шумов.

MEFNet — это подход к слиянию изображений с разной экспозицией. Он создан для работы со статическими последовательностями кадров произвольного разрешения и в произвольном количестве. Название MEFNet происходит от термина Multi-Exposure Fusion, то есть «многоэкспозиционное смешивание». Отсюда и сокращение MEF.

Главная цель MEFNet — извлекать полезные детали как из темных, так и из пересвеченных областей, чтобы сформировать итоговое изображение с хорошим балансом яркости и контраста. При этом метод должен избегать артефактов, характерных для классических алгоритмов.

Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819
Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819

Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819

Алгоритм MEFNet работает следующим образом. На вход подается серия изображений с разной экспозицией — они сначала переводятся в YUV-формат. Далее основная обработка выполняется только по Y-каналу, который отвечает за яркость. Дело в том, что именно яркостный компонент в наибольшей степени определяет структуру и детализацию сцены.

Затем нужно уменьшить разрешение всех изображений — так сокращаются вычислительные затраты. Полученные кадры поступают в нейросеть, которая генерирует весовые карты для каждого изображения, также в пониженном разрешении. Она обрабатывает серии произвольного пространственного размера и числа экспозиций, а также генерирует карты соответствующего размера и количества. Сеть состоит из семи сверточных слоев с расширенными свертками, которые увеличивают поле восприятия (receptive field) без потери разрешения: 

  • Слои 1–6 используют ядра размером 3×3 с разными коэффициентами расширения (dilation rates): 1, 2, 4, 8, 16, 1. Это позволяет захватывать контекст на разных масштабах.

  • Слой 7 — финальный слой с ядром 1×1, который преобразует фичи в весовые карты.

  • Нормализация — после каждого сверточного слоя (кроме последнего) применяется адаптивная нормализация (AN), сочетающая нормализацию по экземпляру (instance normalization) с обучаемыми параметрами.

  • Активация — используется Leaky ReLU (LReLU) для сохранения структурной информации.

Подробнее о MEFNet и других алгоритмах улучшения режима ночной съемки в мобильных устройствах на примере планшета KVADRA_T читайте в статье Полины Лукичевой из команды AI ML Kit в YADRO.

Теги:
0
Комментарии0

Эстетика-юзабилити

Всем привет, на связи Вадим, я BI-аналитик и хочу затронуть тему интересную для меня тему. Мой канал в тг: https://t.me/breaking_data

В UI/UX-дизайне и BI-аналитике в частности есть такой эффект - эстетика-юзабилити. Основывается он том факте, что люди воспринимают "привлекательные" продукты как "удобные" и "полезные", даже если никаких отличий от аналогов нет. Важно отметить, что данный эффект работает только в тех случаях, когда никаких значимых технических или функциональных отличий у продуктов нет.

Подсмотрел этот термин у @nastengraph в отношении dataviz'a, но его вполне можно экстраполировать и на другие сферы. Не хочу быть Тайлером Дерденом, но мы живем в мире фаст-фуда. Уйма компаний построены лишь на факте того, что их Бренд или продукт были более "привлекательными" для потребителей:
Telegram - на момент его выхода уже существовал What's Up и был монополистом.
Apple с Iphone - десятки и сотни брендов, боровшиеся за первенство, но все решил пользовательский опыт. Сегодня в целом трудно представить как рынок смартфонов (читать "рынок монополий"), мог быть зеленым, где не было яркого лидера.
Яндекс - долгое время в лидерах российских браузеров был Рамблер, кто-то вообще помнит что это?
FaceBook - да, сегодня этому явлению трудно подобрать определение, но когда-то это был ультимативнопрорывной продукт, затмивший остальные соцсети.

Все вышеперечисленные компании - это IT/Tech сектор. Можно разобрать и более низкоуровневые примеры бытовой жизни.

Например, почему мы выбираем одну кофейню, хотя рядом может быть дешевле и вкуснее? Часто — из-за атмосферы, шрифта в меню, музыки, света и логотипа на стаканчике. Та же история с супермаркетами, где "упаковка" важнее продукта. Или с автомобилями, где бренд и "статус" и составляют ценность.

Что это значит?
Визуальная подача - имеет значение. В аналитике, жизни, при создании своих проектов всё это не только «про красоту», но и про доверие, удобство.

Мораль: эстетика — это не просто "украшение". Это часть восприятия юзабилити. Не только в BI, где «понятный» отчет часто означает «эффективный» отчет, или любом другом продукте. Красота может и не спасти плохой продукт, но точно может дать хороший шанс среднему (Хотя Феррари до сих пор покупают, возможно, силы эстетики еще изучены в недостаточной степени)

Теги:
+1
Комментарии0

Google больше НЕ НУЖЕН — вышел мощнейший и абсолютно БЕСПЛАТНЫЙ ИИ-поисковик Scira 🔥🔥

Он позволяет находить любую инфу всего в два клика — в него встроены множество нейронок: от Grok и Claude до GPT-4o и Gemini

Имеется режим «глубокого поиска», который нароет вообще любую инфу. Можно настроить поиск исключительно по научным статьям, картам или YouTube

При этом поисковик идеально понимает запросы на русском языке, работает бесплатно и не требует регистрации 👏
Кстати, знаю что поможет упростить использование и сделать ваш опыт максимально комфортным в AI и ML!

Теги:
0
Комментарии4

Automate Your Daily Tasks in 10 Minutes: A Practical Guide to n8n for Beginners

Until 2022, I thought automation was only large companies. But in 2022 I discovered n8n, and everything changed. Now, I automate routine work, reports, and even whole business processes—sometimes in under 10 minutes. Here’s how it works, what surprised me, and what you can try today.

In 2022, I deployed n8n on a separate VPS to demonstrate the ability to process design data from Revit and show that it's like working in Dynamo or Grasshopper, but for data managers and automation pipelines outside of Autodesk products.

But it was hard to get experts interested in 2022 - at the time, n8n was still in its early stages: there were no Python nodes, no LLM integration, and most workflows took weeks to create, relying on scattered blog posts and incomplete examples on forums.

Fast forward to 2025, and everything has changed.

Today, thanks to native LLM nodes, you can simply ask ChatGPT, Claude, or any advanced AI assistant to generate automation n8n pipelines — whether for validating parameters or producing custom QTO tables — and get ready-to-run workflows in seconds.

Why Bother with Automation?

Let’s be honest: most “office work” is repetitive. Copy-paste, renaming files, sending the same email—again and again. It’s boring and, more importantly, wastes hours every week. For me, automation started as an experiment, but quickly became a must-have. Once you automate your first task, you won’t want to go back.

What is n8n and Why Use It?

n8n (pronounced “n-eight-n”) is a free, open-source tool for automating anything—emails, file operations, notifications, even AI tasks. The best part? No coding needed. You just drag, drop, connect blocks, and press play. It runs on Windows, Mac, or Linux. I set up my first workflow in under 15 minutes.

How I Got Started (And You Can Too)

  1. Install Node.js (from the official site, takes 2 minutes)

  2. Install n8n with one command

  3. Open n8n in your browser (local or online)

  4. Start building: drag blocks (“nodes”) to connect apps, add logic, or even call ChatGPT to write emails for you!

Video Tutorial:
Automate Your CAD-BIM Workflows Local with n8n + ChatGPT & Claude | No Code, No Plugins, No Internet

My first workflow? Automating project reports — collecting data, formatting it, and sending it as an email, all triggered by a single button.

Video Tutorial:
Automate Your CAD-BIM Workflows Local with n8n + ChatGPT & Claude | No Code, No Plugins, No Internet

Where the Magic Happens: AI & Templates

The next “wow moment” for me was connecting n8n to AI tools like Claude and ChatGPT. Need to generate text, analyze data, summarize, or respond to messages? Just add a ChatGPT node—no API coding, just your prompt.

Short on time? n8n has a big library of ready-made templates. You can find workflows for almost any need: document processing, cloud backups, database syncs, even advanced stuff like BIM/CAD data processing. Grab a template, tweak it for your needs, done.

Lessons Learned and Tips

  • Don’t overthink: Start simple. Even automating one small task (like downloading attachments from email) pays off.

  • Debug as you go: n8n makes it easy to see where something breaks—just follow the logs, tweak, and re-run.

  • Experiment: The community is active and shares real-life examples. Some of my best workflows came from GitHub repos or the official n8n library.

  • Combine tools: I use n8n with spreadsheets, databases, cloud storage, and AI. Everything connects!

Why You Should Try It

After a few weeks, I realized how much time I was saving. Reports that took 30 minutes now take 2. Integrations that seemed impossible (like sending BIM data to a spreadsheet, then to Teams) were suddenly simple.

Automation isn’t just for techies anymore. With tools like n8n, anyone can build and run real workflows—saving hours, reducing errors, and focusing on what really matters.

Теги:
+2
Комментарии3

В системах видеонаблюдения и видеоаналитики часто приходится иметь дело с кадрами низкого качества. Объект съемки далеко, плохое освещение, ограниченные возможности камеры – и вместо четкой картинки мы получаем лишь набор пикселей. Знакомая ситуация?

"Что тут происходит? 😑"
"Что тут происходит? 😑"



Почему это большая проблема?

Распознать что-либо по такому "размытому квадратику" – серьезный вызов для алгоритмов. Стандартные модели, обученные на четких изображениях, часто теряют эффективность, когда объект занимает по высоте всего 32 пикселя (а то и 10!). Это напрямую влияет на точность работы систем в реальных условиях – будь то поиск автомобиля, предмета или распознавание лиц.

В чем сложность?

Главная трудность – "пропасть" между миром четких картинок (на которых обычно учатся модели) и миром размытых кадров. Алгоритмы плохо переносят знания из одного "мира" в другой.

Как с этим бороться?

В нашей новой (и первой) статье мы подробно разобрали ключевые подходы к решению такой проблемы в контексте распознавания лиц:

1. "Дорисовка" деталей: специальные нейросети пытаются увеличить и улучшить размытое изображение перед анализом. Работает, но есть риск "придумать" несуществующие детали.

2. Адаптация модели: как "подружить" алгоритм с плохим качеством?

  • Трюки с данными: искусственно ухудшаем хорошие изображения при обучении (сжатие, шум), чтобы модель привыкла к помехам.

  • Дообучение: учим модель на реальных размытых данных. Важно делать это аккуратно, чтобы она не забыла, как работать с четкими изображениями. Помогают методы вроде LoRA (дообучение только маленькой части сети).

  • "Учитель" для "ученика": мощная модель, видящая четкие картинки, учит компактную модель работать с размытыми, передавая свои "знания".

3. PETALface: новый подход, который динамически комбинирует разные "настройки" (LoRA-адаптеры) в модели в зависимости от качества конкретного входящего кадра. Перспективно, но требует дальнейшего изучения.

Хотите разобраться глубже?

В статье мы подробно разбираем плюсы и минусы каждого подхода, рассматриваем специализированные датасеты (TinyFace, BRIAR) и анализируем нюансы свежего метода PETALface.

Сталкивались ли вы с проблемой низкого разрешения в своих проектах? Какие методы оказались эффективными? Делитесь опытом в комментариях!

Теги:
+4
Комментарии0

Хотите узнать, как устроен и работает искусственный интеллект, а еще провести время интересно и с пользой? 📚

Тогда ловите подборку от Дмитрия Юдина — технического лидера AI в Cloud․ru. В списке книги как для новичков, так и для продвинутых:

1. «iPhuck 10‎», Виктор Пелевин 📗

Философия, технологии и сарказм в одном флаконе. Главный герой — детектив и искусственный интеллект, который пишет романы, в которых расследует преступления. 

Для тех, кто любит постиронию, искусство и немного цифрового безумия.

2. «Охота на электроовец», 2 тома, Сергей Марков 📗

Это полноценная энциклопедия по истории искусственного интеллекта. От древних счетов до электросетей, от Гиппократа до GigaChat. В книге юмор и много неожиданных фактов. 

Будет интересно тем, кто хоть раз спрашивал GigaChat, как он работает :)

3. «Глубокое обучение», Ян Гудфеллоу 📗

Книга, достойная лежать на тумбочке у каждого дата-сайентиста. Толстая, серьезная, техническая. Если хочешь копнуть глубже в нейросети это твой новый лучший (и требовательный) друг. 

Не для слабонервных, но зато после прочтения в разговорах можно уверенно использовать пруфы: «Ну, в третьем томе всё расписано…».

4. «Грокаем глубокое обучение», Эндрю Траск 📗

Более дружелюбный вход в тему — Траск объединяет всё пошагово, просто и понятно. Если слово «грокаем» кажется вам сложным, не волнуйтесь — книга помогает реально понять, а не заучить. 

Подойдет тем, кто хочет разобраться, но не знает, с какой стороны подойти.

5. «Как учится машина», Ян Лекун 📗

Легенда в мире AI объясняет, куда движется искусственный интеллект, как он работает, и почему нам (возможно) не стоит паниковать. Мало формул, но много рассуждений, иронии и визионерства.

Для тех, кто хочет понимать технологии, а не просто удивляться им.

👉 А еще приглашаем внести свой вклад в развитие отечественного AI — испытать нашего нового AI-помощника Клаудию, который позволяет автоматизировать управление ресурсами и инфраструктурой в публичном облаке Cloud.ru Evolution.

Теги:
0
Комментарии2

🫧 Технологический пузырь лопнул: что случилось с ИИ-агентами?

Аналитики из Gartner предупредили, что к 2027 году более 40% проектов с ИИ-агентами будут закрыты. Спойлер: ИИ как ключевую технологию никто не отменяет, но если будете запускать своих ИИ-агентов, учтите риски, которые увидели эксперты и добавили мы от себя.

ИИ-агенты — это программы, которые автономно или полуавтономно могут принимать решение с использованием технологий ИИ. Когда вам не надо каждый раз запрашивать чат-бот, а он сам отследит ситуацию и будет выдавать вам самые оптимальные туристические маршруты.

Естественно, это даёт возможность упростить и ускорить бизнес-процессы, и компании активно используют её. Аналитики Gartner предсказывают, что к 2028 году как минимум 15% рабочих решений будет приниматься с участием ИИ-агентов (сейчас около нуля), а 33% корпоративного ПО будет включать ИИ-агентов (сейчас около 1%). Почему же эта же компания предупреждает об отмене почти половины проектов с ИИ-агентами?

Во-первых, из-за непредсказуемой стоимости. Сейчас внедрение ИИ-агентов находится на экспериментальной стадии и может дать первые результаты. Но при попытке полноценно интегрировать их в бизнес-процессы компании могут столкнуться с тем, что это дорого или невыгодно.

Во-вторых, из-за непредсказуемой ценности для бизнеса. Понятно, что ИИ может ускорить бизнес-процессы и повысить их эффективность. А может и не помочь. Только после «приземления» тех же больших языковых моделей будет ясно, могут ли они помочь (как в случае с поиском по техдокументации) или потребуют слишком больших затрат ресурсов на проверку результатов работы ИИ.

Наконец, третий пункт — это сложность риск-менеджмента. Как предотвратить утечку информации и взлом ИИ? Как убедиться в адекватности результатов работы ИИ-агента? Это ещё предстоит научиться узнавать, потому что стандартных методик пока нет.

Возможно, сразу во всех трёх пунктах лежит ещё один момент. Gartner предупреждает, что под модным названием компаниям пытаются «продать» и RPA, и чат-боты и другие процессы, которые работают без ИИ или автоматизации. Если они помогают бизнесу — это, конечно, хорошо, но цена старых решений под видом модных «ИИ-агентов» может оказаться выше, чем у исходного продукта, а значит, финальная окупаемость будет под вопросом.

В общем, совет можно дать такой: используйте новые инструменты, но не поддавайтесь на хайп — взвешивайте риски и потенциал внедрения ИИ-агентов.

Теги:
+26
Комментарии2