Обновить
704.44

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Microsoft обновила курс, который поможет сделать свою нейронку с полного нуля и узнать все тонкости ее работы. 18 уроков — все по делу, сжато, с кучей актуальной информации. Вся база о языковых моделях, ИИ-агентах и сопутствующих темах. Много практических кейсов, из которых можно взять идеи для своих проектов.

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии0

Открыли доступ к самой мощной модели Qwen3 — с её помощью компании смогут самостоятельно разрабатывать ИИ‑агентов

Yandex B2B Tech открыла доступ к семейству моделей Qwen3 в рамках Yandex Cloud AI Studio — платформы для разработки и внедрения решений на базе искусственного интеллекта. Разработчики смогут использовать новые модели для создания ИИ‑агентов — например, для автоматизации поддержки или помощи с подбором и возвратом товаров в интернет‑магазинах.

В Yandex Cloud AI Studio доступна последняя модель поколения, которая содержит 235 млрд параметров, — Qwen3-235B‑A22B‑Instruct-2507, вышедшая 21 июля. У неё широкая база знаний, она поддерживает 119 языков и диалектов и долго удерживает контекст беседы — до 256 тыс. токенов. В этой версии выключен режим рассуждений, при этом по качеству ответов модель опережает предыдущую версию и в целом работает быстрее. На платформе Yandex Cloud AI Studio использовать нейросеть можно по API. Стоимость модели составит 50 копеек за 1000 токенов.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Пытаясь выжать максимум из локально запущенной LLM, обнаружил, что модель Qwen2.5 14b неплохо справляется с задачей саммаризации текста. Решил таким образом немного автоматизировать ежедневный утренний процесс просмотра новостных материалов.

Что потребуется:

  • LM Studio - удобная GUI тулза для локального запуска моделей. В ней надо включить на вкладке Developer http сервер (ctrl+R)

  • ai chat - консольная утилита для работы с LLM

  • аналогичный этому конфиг для aichat

Пока никакие MCP инструменты я не прикрутил, часть работы придется сделать "руками", а именно - открыть страницы с новостями, скопировать из них текст, создать текстовые файлы и вставить в эти файлы скопированный текст. Например, хотим сделать саммари к 3 статьям: создаем 3 файла 1.txt 2.txt 3.txt и копируем в них текст соответственно из 1, 2, и 3 статей.

Все, теперь запускаем:

cat 1.txt |  aichat -m deepseek сделай саммари текста: > out1.txt && \
cat 2.txt |  aichat -m deepseek сделай саммари текста: > out2.txt && \
cat 3.txt |  aichat -m deepseek сделай саммари текста: > out3.txt

Ну все, теперь можем заниматься своими другими важными делами: завтркать, делать зарядку или еще что-то. Кстати, у меня этот процесс не ест все ресурсы системы, так что я спокойно могу писать код, серфить интернет или делать что-то другое на компьютере без тормозов.

После того, как команды завершит работу, ознакамливаемся с содержимым файлов саммаризации и дальше уже если самммари "зацепило" открываем статью в оригинале.

Вот тут еще пример с другим инструментом автоматизации работы с текстом при помощи LLM.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Пользователь сделал ролик про Ikea с помощью нейросети Veo 3. На видео из коробки с логотипом компании выпускаются наружу мебель и предметы домашнего интерьера, обставляя пустую комнату.

Автор поделился промптом. В нём, помимо прочего, указаны стиль, угол съёмки, освещение, объекты, которые должны появиться в кадре.

{
  "description": "Cinematic shot of a sunlit Scandinavian bedroom. A sealed IKEA box trembles, opens, and flat pack furniture assembles rapidly into a serene, styled room highlighted by a yellow IKEA throw on the bed. No text.",
  "style": cinematic",
  "camera": "fixed wide angle",
  "lighting": "natural warm with cool accents",
  "room": "Scandinavian bedroom",
  "elements": [
    "IKEA box (logo visible)",
    "bed with yellow throw",
    "bedside tables",
    "lamps",
    "wardrobe",
    "shelves",
    "mirror",
    "art",
    "rug",
    "curtains",
    "reading chair",
    "plants"
  ],
  "motion": "box opens, furniture assembles precisely and rapidly",
  "ending": "calm, modern space with yellow IKEA accent",
  "text": "none",
  "keywords": [
    "16:9",
    "IKEA",
    "Scandinavian",
    "fast assembly",
    "no text",
    "warm & cool tones"
  ]
}
Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии2

30 июня 2025 года Meta¹ объявила о создании Meta Superintelligence Labs — компактной элитной команды, которую возглавил бывший глава Scale AI Александр Ван. Задача команды — вывести исследования компании от семейства Llama к искусственному супер-интеллекту и «персональному супер-интеллекту» для каждого пользователя.

Для ускорения работы в MSL переманили десятки ведущих учёных OpenAI, Google DeepMind, Apple и Anthropic. Слухи утверждают, что Цукерберг в некоторых случаях предлагал сотруднику до $100 млн.

Состав команды оставался неизвестным. Какие-то фрагменты получалось восстановить по сообщениям в СМИ, когда проскакивала новость о смене работы того или иного известного специалиста. Однако вчера состав MSL слили полностью.

Индийско-американский компьютерный специалист и венчурный инвестор Диди Дас опубликовал в личном микроблоге полный список членов Superintelligence, ссылаясь на анонимного инсайдера внутри Meta¹. Диди не просто выложил имена, а провёл анализ, результат которого собрал в таблицу.

@deedydas

Superintelligence на три четверти состоит из эмигрантов. Заметно, что половина команды из Китая, хотя могут быть хоть южноафриканцы. Среди сотрудников нашлись даже двое россиян. Также нужно учитывать, что неподписанный столбец, который выглядит как национальность — это на самом деле место, где сотрудник получал степень бакалавра.

У ¾ есть учёная степень PhD, доктора философии (в России такое считают кандидатом наук). 40 % из сотрудников перешли из OpenAI, 20 % — из DeepMind, 15 % — из Scale. Пятая часть команды — это уровень грейда L8, что примерно соответствует крупному директору, но пониже вице-президента.

Кроме образования, предыдущего места работы и странным образом посчитанного стажа работы в документе Диди также указывается специализация каждого из сотрудников. Диапазон тем — от обучения с подкреплением и игровых агентов до диффузионных моделей, трансформеров и выравнивания больших языковых моделей.

Холдинговая компания Meta (1) — экстремистская организация, её деятельность запрещена.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

20 мая на конференции Google I/O холдинг Alphabet представил модель генерации видеороликов Veo 3. Этот продукт создаёт небольшие клипы. Казалось бы, подобные решения уже существовали до этого — взять тот же Sora от OpenAI. Важное отличие заключается в том, что Veo 3 выдаёт не просто какой-то видеоряд, а снабжает его нужной аудиодорожкой. Эпоха немого нейросетевого кино кончилась; наступила эра звука.

Что ещё более важно, модель Veo 3 быстро вышла практически в общий, пусть и платный доступ, сейчас есть даже API. Если сравнивать с Sora, то OpenAI своим продуктом изначально делилась лишь с неким узким кругом киноделов и лишь через почти 10 месяцев (объявление о продукте 15 февраля 2024 года, релиз 9 декабря) добавила модель в подписки ChatGPT Plus и Pro. API у Sora нет до сих пор.

Veo 3 немедленно захватила умы любителей вбивать в генеративные модели какой-нибудь глупый промпт, а потом делиться невозможным и несбыточным. В таких образцах сразу очевидно, что видеоролик сгенерировала нейросеть. Это мог быть личный видеоблог от говорящей гориллы, к примеру. На самом деле такое быстро наскучивает.

Известный исследователь искусственного интеллекта Итан Моллик пошёл от обратного и попытался изобразить обыденное. У себя в микроблоге Моллик показал несколько забавных клипов от Veo 3, где изображена постановка театра самодеятельности. Итан даже приводит полный промпт, который он вбивал в модель: [название игры] as a community theater production.

Во врезке ниже склеены несколько его примеров. Игры в порядке их следования: Grand Theft Auto, Pokemon, Mario Kart, «Ведьмак-3», Stardew Valley, «Тетрис», Mortal Kombat, The Sims и Death Stranding. Затем идёт клип от промпта pokemon as a community theater production, ash throws a pokeball and pikachu jumps out of it (Эш бросает покебол, из него выпрыгивает Пикачу). Видео заканчивается примерами генерации, где вместо [название игры] стояли Kirby, Portal, Mario, Pacman, Sonic и Minecraft.

Любопытно, что эти примеры поражают куда сильнее любых пасущихся в саванне вязаных слонов или разъезжающих на бегемоте пенсионерок. Хотя часты грубые ошибки генерации (пропадания объектов и их появление из ниоткуда) и мелкие огрехи (в костюме крипера женщина, а говорит она мужским голосом), часто невозможно отличить происходящее от съёмки реального кружка самодеятельности. Модель будто понимает физические ограничения самостоятельно пошитых костюмов и цветного картона, а на лицах актёров читается любительская игра.

В комментариях предложили другие игры: Doom, Rimworld, Silent Hill, Half-Life и Grim Fandango. Сам Моллик придумал показать закулисье этих драмкружков и записать речь о подобном театре.

Теги:
Всего голосов 4: ↑3 и ↓1+4
Комментарии1

Маркетолог и HR-специалист Эмили Фенек рассказала о неудачном опыте прохождения собеседования у ИИ-бота. Она объяснила, что такие инструменты пока не подходят для реальной оценки кандидатов. Фенек попробовала один из популярных сервисов для автоматизированных собеседований, прошла там тестовое интервью с ИИ и осталась разочарована.

По словам Фенек, общение с чат-ботом оказалось холодным и неестественным, так как безликий логотип и механический голос, который задавал стандартные вопросы, не давал человеку тёплого отношения. Например, на любую, даже шуточную или саркастическую реплику, ИИ реагировал одинаково и совершенно не улавливал нюансов или иронии. В ходе интервью Фенек чувствовала себя неуютно и быстро потеряла интерес к разговору.

Фенек считает, что ИИ отлично справляется с обработкой данных, автоматизацией рутинных процессов и даже составлением подсказок, но такие системы совершенно не способны заменить человека там, где важны эмпатия, гибкость, умение уловить настроение и контекст. «ИИ не распознает сарказм и не умеет считывать контекст», — пояснила Фенек.

Теги:
Рейтинг0
Комментарии0

Глава Valve Гейб Ньюэлл считает, что нейросети всё активнее используются в игровой индустрии, а разработчикам нужно приспосабливаться к новым условиям.

Он рассказал, что разбирающиеся в ИИ разработчики очень скоро станут более ценными специалистами, чем программисты, которые работают по старинке. Касается это не только игровой индустрии, но и IT‑сферы в целом. «Люди, которые не умеют программировать, станут более эффективными разработчиками, чем те, кто занимается программированием уже десять лет», — заявил Ньюэлл.

Слепо полагаться на ИИ не стоит, пояснил глава Valve. Чтобы использовать нейросети эффективно, необходимо выучить их техническую сторону, чтобы разобраться, почему они работают именно так.

Ньюэлл также утверждает, что искусственный интеллект станет неотъемлемой частью игровой индустрии и приведёт к росту игр с генеративным контентом.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии5

Шесть вопросов, которые не стоит задавать чат-ботам с ИИ, так как это может быть опасно или неэффективно:

  • не спрашивайте чат-боты про теории заговора. ИИ иногда выдает неверную или выдуманную информацию, чтобы удержать ваше внимание. Есть случаи, когда пользователи слишком «увлекались» такими разговорами.

  • нельзя спрашивать о том, как создавать опасные вещества или взрывчатку. Такие темы вызывают предупреждения, а разговоры сохраняются в системе. И чаты, между прочим, не являются полностью приватными.

  • не задавайте «аморальные» или незаконные вопросы. Некоторые ИИ могут даже сообщать о подозрительных запросах в правоохранительные органы.

  • не обсуждайте с ИИ личные данные клиентов или пациентов. Это может нарушить законы и правила конфиденциальности.

  • не стоит полностью полагаться на ИИ в медицинских вопросах. ИИ может ошибаться и не всегда дает точные рекомендации. Кроме того, возможен риск неправильного диагноза.

  • нужно быть очень осторожным, используя ИИ для психологической помощи. ИИ не всегда понимает сложные эмоции человека, поэтому помощь специалистов часто незаменима.

Теги:
Всего голосов 6: ↑3 и ↓3+3
Комментарии3

Apple выпустила рекламу своей ИИ‑опции Clean Up по стиранию с фото разных объектов. В ролике показано, как можно удалить кота с фото. Изменения можно отменить, что и пришлось сделать герою видео, который решил «стереть» кота со снимка с супругой.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии3

OpenAI начала тайно тестировать о3 Alpha на WebArena. Эниузиасты уже попробовали и заявили, что это лучшая тулза для программирования, которая на раз-два уничтожает конкурентов типа Cursor и предыдущую о3 Pro. Умеет генерить сайты и веб-приложения, клонирует игры типа Minecraft, Flappy Bird и даже GTA с первой попытки.

Теги:
Рейтинг0
Комментарии1

Как работают AI-агенты в мультиагентных системах? 🤖🤖

Представьте команду проекта. Каждый в ней решает конкретную задачу, у него есть специфические знания, цели и способы их достижения. Но вместе они действуют намного эффективнее, чем поодиночке. Отлаженная коммуникация — одна из основ успешного проекта.

Как взаимодействуют участники в проекте?

  1. Общаются в чатах 📨
    Отправляют друг другу вопросы, обмениваются запросами и информацией. Например, технический лидер просит у BI-аналитика свежие данные.

  2. Договариваются и иногда конкурируют ⚖️
    Бывает, что участники на время подменяют друг друга или вносят коррективы в изначальные процессы, а иногда — соперничают за ресурсы.

  3. Достигают синергии 🧠
    Если последовательно, по правилам и согласованно выполнять задачи, то совокупный вклад нередко может привести к значительным результатам. 

Вот и в мультиагентных системах всё устроено примерно так же. Агенты работают как команда: общаются, договариваются и достигают результатов, которые не под силу в одиночку.

В каких областях особенно полезен такой подход? Например:

  • Транспорт и логистика (оптимизация маршрутов).

  • CRM и обслуживание клиентов (виртуальные ассистенты, голосовые боты).

  • Финансы и трейдинг (алгоритмическая торговля, прогнозирование рынков).

  • Умные энергосистемы (балансировка нагрузки).

  • Разработка собственных AI-помощников (обучение моделей).

А чтобы снизить затраты ресурсов на интеграцию разрозненных компонентов и ускорить запуск своих решений, можно использовать новый сервис для создания автономных AI-агентов — Evolution AI Agents. Он подойдет для работы как профессиональным ML-разработчикам, так и пользователям без навыка работы с ML. 

Как думаете, смогут ли когда-нибудь мультиагентные системы заменить менеджеров проектов?

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Главный экономист OpenAI Ронни Чаттерджи назвал четыре умения, которые родителям нужно развивать у своих детей, чтобы они стали успешными в мире ИИ:

  • прежде всего нужно учиться критически мыслить и формулировать задачи.

  • нужно быть нейропластичным, гибким и уметь адаптироваться, потому что мир будет меняться очень быстро. Изменения происходят не только в ИИ, но и в других сферах от климата до геополитики, поэтому приспосабливаться придётся ко многому.

  • нужно учить своих детей эмоциональному интеллекту. Это особенно важно сейчас, когда ИИ всё чаще берёт на себя технические задачи вроде программирования.

  • счёт и письмо. У детей Чаттерджи есть калькуляторы и сервисы для транскрипции аудио, но он всё равно заставляет их учить таблицу умножения и учиться писать тексты.

Чаттерджи признал, что точно предсказать, как изменится мир и где будет работать следующее поколение людей. Но добавил, что не волнуется, кем будут работать его дети — его собственные родители едва ли могли предугадать, каким будет современный мир.

Теги:
Всего голосов 6: ↑2 и ↓40
Комментарии2

Ближайшие события

17 июля 2025 года OpenAI представила режим агента для ChatGPT (agent mode) с соединением исследований и действий.

В OpenAI пояснили, что агент — это микс из последних моделей компании и различных инструментов. Агент может выполнять сложные цепочки заданий, самостоятельно искать способы решений, писать для этого код и проводить исследовательский поиск в интернете. Агенту, например, можно дать доступ к почте и навсегда забыть о рутине.

В демонстрации новой опции ChatGPT в режиме agent mode попросили подготовить молодого человека к свадьбе друга. Нейросеть нашла ему трендовые образы, подобрала костюм нужного размера, подходящую обувь и написала поздравительную речь.

Агент умеет отправить письмо коллеге, забронировать столик в ресторане, найти наряд на мероприятие или распланировать тур на грядущую поездку. Режим агента использует огромное количество API и сам подключает их. Все зависит от задач, которые агенту поставлены.

Разработчики пояснили, что это первый инструмент, который работает во встроенном браузере. Он также умеет всё, что и ChatGPT: генерировать картинки, отвечать на вопросы и проводить исследования.

Теги:
Рейтинг0
Комментарии0

Марта Шкрета — одна из авторов научной статьи «Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts» (arXiv:2503.02819). В работе описывается применение корректоров Фейнмана — Каца, теоретически выверенной процедуры коррекции траекторий в уже обученных диффузионных моделях, позволяющей генерировать выборки точно из новой, заданной пользователем плотности, а не полагаться на эвристическое смешение скоров.

Статья получила приглашение на International Conference on Machine Learning этого, 2025 года. В рамках конференции ICML в числе прочих форматов проводятся постерные доклады в выставочном зале. В данном формате в отведённый слот времени авторы прикрепляют плакаты одного из типовых размеров (рекомендуется до 182 см в длину) и общаются с любым подошедшим участником. По сути, это сотни одновременных мини-презентаций для тех, кого не посчитали достаточно интересным для большого доклада.

При всей сложности научной работы Шкреты и её соавторов команда подошла к оформлению своего постера с юмором. Авторы воспользовались созвучием сокращения англоязычного написания «Feynman — Kac formula» и названия сети ресторанов быстрого питания KFC. У себя в микроблоге Марта выложила фотографию постера. Заметно, как дизайн постера повторяет шрифты и прочие элементы оформления ресторанов с курятиной, а текст обильно снабжён разнообразными отсылками к еде и её приготовлению.

@martoskreto
Теги:
Рейтинг0
Комментарии0

За создание аниме-аватаров для чат-бота Grok в xAI платят до $440 тыс. в год. Разработчику нужно создавать реалистичных ИИ-аватаров, вовсю тестировать геймплей во всех ситуациях и работать с голосовыми командами. Требования — Python, Rust, WebSocket, WebRTC и опыт работы iOS.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

По мнению специалиста по этике моделей в OpenAI Шона Гроува, в будущем наиболее ценными программистами станут те, кто умеет чётко формулировать мысли, а не просто писать код.

«Если вы умеете эффективно коммуницировать — вы уже умеете программировать», — утверждает он. Гроув считает, что программирование всегда было не столько про строки кода, сколько про структурированное выражение намерений: от понимания задачи и целей до их формализации в понятной форме как для людей, так и для машин.

Гроув называет код лишь «потерянной проекцией» (lossy projection) изначального замысла и ценностей. С развитием ИИ систем, по его мнению, главное умение программиста смещается от написания кода к созданию точных спецификаций и промптов, способных передать намерение максимально полно.

«Тот, кто пишет спецификацию — будь то менеджер, инженер, маркетолог или законодатель — и есть новый программист», — пояснил Гроув. По сути, будущее разработки смещается от технического исполнения к смысловому моделированию: важно не столько, как вы пишете код, сколько, что вы хотите выразить. ИИ берет на себя синтаксис, а человеку остаётся формулировать мысль — ясно, логично и недвусмысленно, полагает Гроув.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии1

Как улучшить режим ночной съемки с помощью нейросети на примере MEFNet

Смешивание экспозиций обычно применяют для улучшения изображений при дневной съемке, особенно в условиях яркого солнца. Но мы решили проверить: можно ли адаптировать этот способ для съемки в темноте? Он поможет осветлить изображение и заметно снизить уровень шумов.

MEFNet — это подход к слиянию изображений с разной экспозицией. Он создан для работы со статическими последовательностями кадров произвольного разрешения и в произвольном количестве. Название MEFNet происходит от термина Multi-Exposure Fusion, то есть «многоэкспозиционное смешивание». Отсюда и сокращение MEF.

Главная цель MEFNet — извлекать полезные детали как из темных, так и из пересвеченных областей, чтобы сформировать итоговое изображение с хорошим балансом яркости и контраста. При этом метод должен избегать артефактов, характерных для классических алгоритмов.

Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819
Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819

Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819

Алгоритм MEFNet работает следующим образом. На вход подается серия изображений с разной экспозицией — они сначала переводятся в YUV-формат. Далее основная обработка выполняется только по Y-каналу, который отвечает за яркость. Дело в том, что именно яркостный компонент в наибольшей степени определяет структуру и детализацию сцены.

Затем нужно уменьшить разрешение всех изображений — так сокращаются вычислительные затраты. Полученные кадры поступают в нейросеть, которая генерирует весовые карты для каждого изображения, также в пониженном разрешении. Она обрабатывает серии произвольного пространственного размера и числа экспозиций, а также генерирует карты соответствующего размера и количества. Сеть состоит из семи сверточных слоев с расширенными свертками, которые увеличивают поле восприятия (receptive field) без потери разрешения: 

  • Слои 1–6 используют ядра размером 3×3 с разными коэффициентами расширения (dilation rates): 1, 2, 4, 8, 16, 1. Это позволяет захватывать контекст на разных масштабах.

  • Слой 7 — финальный слой с ядром 1×1, который преобразует фичи в весовые карты.

  • Нормализация — после каждого сверточного слоя (кроме последнего) применяется адаптивная нормализация (AN), сочетающая нормализацию по экземпляру (instance normalization) с обучаемыми параметрами.

  • Активация — используется Leaky ReLU (LReLU) для сохранения структурной информации.

Подробнее о MEFNet и других алгоритмах улучшения режима ночной съемки в мобильных устройствах на примере планшета KVADRA_T читайте в статье Полины Лукичевой из команды AI ML Kit в YADRO.

Теги:
Рейтинг0
Комментарии0

В системах видеонаблюдения и видеоаналитики часто приходится иметь дело с кадрами низкого качества. Объект съемки далеко, плохое освещение, ограниченные возможности камеры – и вместо четкой картинки мы получаем лишь набор пикселей. Знакомая ситуация?

"Что тут происходит? 😑"
"Что тут происходит? 😑"



Почему это большая проблема?

Распознать что-либо по такому "размытому квадратику" – серьезный вызов для алгоритмов. Стандартные модели, обученные на четких изображениях, часто теряют эффективность, когда объект занимает по высоте всего 32 пикселя (а то и 10!). Это напрямую влияет на точность работы систем в реальных условиях – будь то поиск автомобиля, предмета или распознавание лиц.

В чем сложность?

Главная трудность – "пропасть" между миром четких картинок (на которых обычно учатся модели) и миром размытых кадров. Алгоритмы плохо переносят знания из одного "мира" в другой.

Как с этим бороться?

В нашей новой (и первой) статье мы подробно разобрали ключевые подходы к решению такой проблемы в контексте распознавания лиц:

1. "Дорисовка" деталей: специальные нейросети пытаются увеличить и улучшить размытое изображение перед анализом. Работает, но есть риск "придумать" несуществующие детали.

2. Адаптация модели: как "подружить" алгоритм с плохим качеством?

  • Трюки с данными: искусственно ухудшаем хорошие изображения при обучении (сжатие, шум), чтобы модель привыкла к помехам.

  • Дообучение: учим модель на реальных размытых данных. Важно делать это аккуратно, чтобы она не забыла, как работать с четкими изображениями. Помогают методы вроде LoRA (дообучение только маленькой части сети).

  • "Учитель" для "ученика": мощная модель, видящая четкие картинки, учит компактную модель работать с размытыми, передавая свои "знания".

3. PETALface: новый подход, который динамически комбинирует разные "настройки" (LoRA-адаптеры) в модели в зависимости от качества конкретного входящего кадра. Перспективно, но требует дальнейшего изучения.

Хотите разобраться глубже?

В статье мы подробно разбираем плюсы и минусы каждого подхода, рассматриваем специализированные датасеты (TinyFace, BRIAR) и анализируем нюансы свежего метода PETALface.

Сталкивались ли вы с проблемой низкого разрешения в своих проектах? Какие методы оказались эффективными? Делитесь опытом в комментариях!

Теги:
Всего голосов 4: ↑3 и ↓1+4
Комментарии0

Представлен открытый проект под названием GenCAD: Image‑conditioned Computer‑Aided Design Generation with Transformer‑based Contrastive Representation and Diffusion Priors. Этот сервис превращает любые чертежи сразу в 3D-модель с кодом CAD. На входе обычный чертёж, на выходе — готовая 3D CAD-модель и вся история её построения с параметрами и командами, как в SolidWorks или Fusion.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии1

Вклад авторов