Обновить
65.29

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Archivist: Как я учил нейросеть понимать физику плёнки, вместо того чтобы просто размывать шум

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели18K

В прошлых статьях я разбирал основы апскейлинга дома и сходил с ума, вырезая закадровый смех из «Скуби-Ду». Тот опыт привёл меня к выводу: существующие инструменты, будь то плагины вроде NeatVideo или комбайны типа Topaz Video AI — это «чёрные ящики». У них ограниченный набор настроек, и они часто пасуют перед специфическими задачами старой анимации.

В этот раз я пошёл от обратного. Сразу снижу градус ожиданий: это любительский эксперимент. Мы сильно ограничены в мощности GPU (в наличии только RTX 4060 Ti), из-за чего натренировать реально точную, тяжелую нейросеть-универсала возможности нет.

Поэтому вместо гонки за идеальными метриками я сосредоточился на «неудобных» проблемах. Я написал симулятор уничтожения плёнки, чтобы научить легкую модель понимать физику конкретных дефектов: от сдвига эмульсии до химических ожогов.

Спойлер: на это ушло 2 месяца и 2 миллиона итераций. Получилась не «волшебная кнопка», а набор узкоспециализированных инструментов.

Читать далее

Новости

Как я построил визуальную вселенную для онлайн-курса с помощью Nana Banana и почему это важно для студентов

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели2.2K

Меня зовут Иван Стародубцев, я автор курса для новичков «Лучший по Python» на Stepik. Он не просто так называется: за год его прошли почти 30 тысяч учеников, которые оставили 3,8 тысячи отзывов со средней оценкой 5 звёзд. Это курс, написанный максимально простым языком в формате диалога, без снобизма и математики. Вместо скучных формул там интересные задачи из жизни, а уже на второй неделе студенты пишут первые игры.

В какой-то момент я столкнулся с проблемой, знакомой многим авторам учебного контента: курсу нужны десятки и сотни иллюстраций. Случайные картинки из интернета не подходят — это должна быть настоящая визуальная вселенная с постоянными персонажами, узнаваемыми локациями и мини-историями, которые раскрываются на протяжении всего материала.

Работа иллюстратора на 100–150 картинок стоит 300–450 тысяч рублей. Это дорого, долго и негибко: захотел добавить новую сцену — снова договариваешься, ждёшь, платишь. Поэтому я решил выстроить собственную схему по производству иллюстраций на нейросетях. Сегодня расскажу, как это работает и, главное, как помогает студентам.

Читать далее

Основы оптического потока в ML: от первых принципов к уравнениям Лукаса-Канаде и Хорна-Шанка

Уровень сложностиСложный
Время на прочтение37 мин
Охват и читатели7.5K

Аннотация

Настоящая статья представляет собой развернутое исследование, посвященное систематическому изучению классических алгоритмов оценки оптического потока — фундаментальной задачи компьютерного зрения. Основной целью работы является последовательный и строгий вывод ключевых методов, начиная от базовых физических постулатов и заканчивая завершенными, готовыми к реализации математическими моделями. В центре внимания находится уравнение ограничения оптического потока, выводимое из краеугольного предположения о постоянстве яркости, и два основополагающих, принципиально различных подхода к решению этой недоопределенной задачи: локальный метод Лукаса-Канаде, основанный на предположении о пространственной согласованности потока в малой окрестности, и глобальный метод Хорна-Шанка, вводящий условие плавности (гладкости) потока в виде регуляризирующего функционала. Подробно анализируются теоретические основания каждого подхода, их математический аппарат, включая вывод и решение соответствующих систем уравнений, а также проводится сравнительный анализ их сильных сторон и присущих им фундаментальных ограничений, таких как проблема апертуры и чувствительность к нарушениям исходных предположений.

Практическая значимость и верификация теоретических положений исследования обеспечиваются детальной численной реализацией обоих алгоритмов в среде MATLAB. Экспериментальная часть включает генерацию и обработку синтетических последовательностей с заведомо известным вектором движения для объективной количественной оценки точности, а также тестирование на реальных видеоданных для анализа устойчивости в условиях шумов, изменений освещенности и текстуры. Проведенное сравнение визуализирует ключевые различия в характере получаемых полей потока (разреженное против плотного), оценивает вычислительную эффективность и робастность методов в различных сценариях.

Читать далее

Применение вариационного исчисления к задаче выделения границ: вывод уравнения Эйлера-Лагранжа

Уровень сложностиСложный
Время на прочтение25 мин
Охват и читатели9.4K

Представьте, что вам нужно обвести объект на картинке — не просто тыкая в пиксели, а проведя одну идеальную, плавную и уверенную линию. Та самая, которую набросал бы на бумаге художник. Как объяснить компьютеру, что значит «идеальная граница»? Как заставить его искать не среди груды точек, а в бесконечном море возможных кривых?

Оказывается, на этот вопрос уже давно ответила математика, а именно — вариационное исчисление. Это тот самый инструмент, который стоит за знаменитыми алгоритмами вроде «активных контуров» (snakes) или «уровневых множеств». Часто в статьях показывают готовые формулы и код, а саму красивую логику оставляют за кадром.

Давайте вместе разберем эту связь. Начнем с простого: как найти минимум у обычной функции. А потом — шаг за шагом — расширим эту идею до целых кривых. Ключевой момент на пути — уравнение Эйлера-Лагранжа. Мы не просто запишем его, а честно выведем: от замысла «энергии» контура до финального условия, используя лишь базовую лемму вариационного исчисления и интегрирование по частям.

Самое интересное — это уравнение не просто абстракция. Оно описывает баланс, равновесие сил. Оптимальная граница — результат «борьбы»: с одной стороны, она хочет оставаться гладкой и аккуратной, с другой — стремится лечь точно на резкий перепад цвета или яркости на изображении.

Как только вы это поймете, работа с алгоритмами сегментации перестает быть магией. Вы начинаете осмысленно настраивать параметры, предсказывать поведение и даже придумывать собственные критерии для «идеальной границы».

Читать далее

Генерируем новогодние картинки и видео с Kandinsky 5.0

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели11K

Всем привет! Месяц назад на конференции «AI Journey» мы представили линейку моделей нового поколения Kandinsky 5.0 Image & Video. Мы опубликовали код и веса моделей в открытом доступе для разработчиков, а также открыли доступ к новым моделям на всех площадках GigaChat: в Telegram, мессенджере Max, на сайте giga.chat, а также в приложении под Android. Для тех, кто хочет поглубже погрузиться в технические подробности, советуем прочитать техническую статью. А для тех, кому уже хватит архитектур, параметров и кода, а хочется салатов и Нового года — наш сегодняшний материал, в котором будет много ёлок, гирлянд и снега. В этой статье мы расскажем, как сделать отличные, новогодние и не только генерации, и надеемся, что вы получите от работы с моделью такое же удовольствие, как и мы. Спасибо, что интересуетесь и пользуетесь нашими моделями! С наступающим Новым годом!

Читать далее

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели7.6K

Мы в Контуре собрали собственный датасет и использовали его для обучения детектора, ориентированного на работу в сценариях видеосвязи. В статье расскажем, откуда брали материалы, как организовали сбор и тегирование, как генерировали фейки и почему важно заранее продумывать систему тегов. Датасет открыт для сообщества, ссылки оставили в конце статьи.

Читать далее

20 полезных промптов для Nano Banana Pro: как создать фотосессию и отредактировать изображение

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели31K

С Nano Banana Pro всё действительно изменилось. Модель заметно лучше понимает контекст и задачу пользователя. Она воспринимает сцену почти как человек (ну, по крайней мере, очень старается… и у неё получается!).

Эта нейросеть — на базе Gemini — без лишних танцев с бубном превращает обычные текстовые описания в реалистичные изображения с богатой детализацией. Более того, она позволяет редактировать уже готовые картинки буквально одним текстовым запросом. Да‑да, без многочасовых ковыряний в слоях.

Больше не нужно писать магические заклинания времён раннего Stable Diffusion — теперь с нейросетью можно разговаривать на понятном, человеческом языке: подробно, логично и по делу. Звучит заманчиво, не так ли?..

Перед вами подборка готовых промптов для нейросети Nano Banana Pro. В этом гайде мы разберём 20 крутых и практичных способов применения Nano Banana — от генерации изображений до полноценного редактирования.

Читать далее

Kandinsky 5.0 vs Stable Diffusion: практический тест на 6 сценариях для иллюстраций и ассетов

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели5.8K

В разработке мне регулярно нужны картинки «вокруг кода»: обложки к техпостам/README, иллюстрации в документацию, а иногда — быстрые ассеты/референсы для пет‑проектов.

В рамках сезона решил протестировать Kandinsky 5.0 на типовых сценах и сравнить ощущения с привычным пайплайном на Stable Diffusion: где быстрее получить годный результат без плясок с промптом, а где лучшеиметь «запасной аэродром».

Под «разработческими задачами» здесь я имею в виду не генерацию кода, а задачи вокруг продукта: обложки к постам/README, иллюстрации к документации и быстрые прототипы визуалов/ассетов для пет-проектов.

Смотреть сравнение

Бэкап и хранение видео в YouTube

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.7K

Когда‑то мне виделась отличная идея использовать YouTube как надёжное облачное хранилище для своих видеоархивов. Зачем тратить место на локальных дисках, если можно выгружать туда смонтированные ролики или склеенные клипы — всё удобно, всегда доступно с любого устройства в любой момент, без необходимости хранить копии локально. Доступ через браузер или приложение, бесконечное онлайн-хранилище, и видео якобы остаётся в первозданном виде. Но со временем выяснилось, что не всё так просто и безоблачно, как казалось на первый взгляд. Давайте разберёмся, что пошло не так.

Читать далее

Nano Banana Pro vs SeeDream 4.5 vs GPT-5: битва моделей для генерации изображений. Кто победит в 2025 году?

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели8.6K

Доброго времени суток, «Хабр»!
Не так давно у меня вышла статья о сравнении топовых моделей для генерации текста (к сожалению, на данный момент ее уже нельзя назвать самой актуальной). И вот у меня возникла идея - провести аналогичное сравнение для новых моделей в сфере генерации изображений, ведь и эта ниша развивается бешеными темпами.

Сегодня в битве участвуют: Nano Banana Pro, SeeDream 4.5 и GPT-5 Image. Делайте ставки, а я приступаю к сравнению этих впечатляющих моделей.

Читать далее

Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели4.3K

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике?

Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP.

В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

Читать далее

Российские физики научились восстанавливать скрытые детали на зашумленных интерферограммах с высокой точностью

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели22K

Коллектив российских ученых из МФТИ, Физического института им. П.Н. Лебедева РАН, Института искусственного интеллекта AIRI и других ведущих научных центров создал новый итерационный фреймворк WISP, позволяющий с высокой точностью восстанавливать фазовую информацию из одиночных и сильно зашумленных интерферограмм. Разработанный алгоритм демонстрирует значительно более высокую устойчивость к шумам и точность по сравнению с существующими методами, включая подходы на основе глубокого обучения, открывая новые горизонты для изучения сверхбыстрых и сложных физических процессов, таких как плазменные разряды. Результаты исследования опубликованы в журнале IEEE Access.

Лазерная интерферометрия позволяет «увидеть» невидимые неоднородности в прозрачных средах, например, распределение плотности в плазме или напряжение в стекле. Интерференционная картина, состоящая из чередующихся светлых и темных полос, несет в себе зашифрованную информацию о фазовом распределении, которое, в свою очередь, напрямую связано с физическими свойствами объекта. Расшифровать эту информацию — ключевая задача для многих областей науки и техники.

Читать далее

Kandinsky 5.0 — нейросеть от Сбера для генерации изображений и видео

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели8K

В ноябре 2025 года инженеры “Сбера” представили семейство мультимодальных моделей Kandinsky 5.0 - новое поколение нейросетей, способных создавать как статичные изображения, так и видеоконтент по текстовому описанию. 

Мы детально рассмотрим три ключевые модели, выпущенные в рамках Kandinsky 5.0: легковесную Kandinsky 5.0 Image Lite (6B параметров) для быстрой генерации изображений, мощную Kandinsky 5.0 Video Pro (19B параметров) для создания качественного видео и экономичную Kandinsky 5.0 Video Lite (2B параметров) для ускоренной обработки и экспериментов. 

Читать далее

Ближайшие события

«Квантовая фотография: как аналоговая эмульсия вычисляет волновую функцию»

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6.9K

В настоящей статье предлагается рассмотрение классического процесса аналоговой фотографии не как художественной или технической дисциплины, а как физической реализации квантового измерения и вычисления. Мы устанавливаем структурный изоморфизм между этапами формирования серебряно-желатинового отпечатка и фундаментальными постулатами квантовой механики.

Сценарное освещение трактуется как начальное квантовое состояние, оптико-механическая система камеры — как оператор наблюдения, а фотохимическая эмульсия — как среда, осуществляющая необратимую декогеренцию и усиление. Ключевые квантовые концепции — волновая функция, коммутационные соотношения, матрица плотности, вероятность перехода — получают прямые операциональные аналоги в фотографических параметрах: выдержке, диафрагме, статистике зерна, характеристической кривой и химических константах проявления.

Статья даёт строгое математическое описание этих процессов, вводя и детально разбирая ряд физических формул — от правила Ферми для поглощения фотона до соотношения неопределённостей «время–энергия» для объяснения дробового шума. Цель — предложить инженерам, специалистам по обработке сигналов и материаловедам новую, интуитивно-физическую модель для понимания квантовых принципов через детерминированные технологические процедуры. Мы показываем, что фотографическая система является законченным аналоговым компьютером, материально вычисляющим квадрат модуля волновой функции падающего излучения.

Читать далее

От чертежей к реальности: как 3D-машинное зрение на ToF-камере научило робота брать двери с паллеты

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8.6K

На производстве мебели рутинная операция — разгрузка паллет с дверными полотнами перед ламинацией. Люди устают, допускают ошибки, а неаккуратная работа ведёт к сколам и убыткам. Мы решили автоматизировать процесс с помощью робота‑манипулятора. Главная сложность: научить машину точно находить и захватывать верхнюю дверь в стопке — даже если полотна разные по форме и размеру. В статье расскажем, как справились с задачей, используя всего одну ToF‑камеру и гибридный подход: сочетание 2D‑нейросети и 3D‑обработки данных. Узнаете, почему выбрали именно ToF, как преобразуем пиксели в миллиметры и как робот достигает точности в 1–2 мм при захвате.

Читать далее

Зрительно-языковые модели читают хуже (или лучше), чем вам кажется

Время на прочтение8 мин
Охват и читатели8K

Знакомство с бенчмарком ReadBench, позволяющим без труда оценить, насколько хорошо ваши любимые зрительно-языковые модели читают изображения с большими объёмами текста.

В этой статье будет рассказано о ReadBench. ReadBench — это очень простой бенчмарк, который мы разработали для оценки важного, но недооценённого аспекта мультимодального ИИ: насколько хорошо моделям удаётся, собственно, читать текст на картинках, рассуждать о нём и извлекать информацию из таких изображений, на которых много текста.

Читать далее

Nano Banana 2 vs ChatGPT: сравниваем эволюцию в генерации AI изображений за полгода

Время на прочтение7 мин
Охват и читатели13K

Сравниваю, что изменилось в генерации изображений с выходом Nano Banana 2

Полгода назад OpenAI выкатил прорывную генеративную модель. Но она страдала от 5 больших проблем: консистентность, кириллица, сложные сцены, мелкие доработки и кадрирование.

С тех пор вышли два релиза, которые наконец-то решают эти проблемы: Nano Banana в августе и Nano Banana 2 в ноябре.

Сравниваю на реальных примерах — что изменилось и что теперь можно пускать в продакшен ⤵️

Читать 🤖 vs 🍌

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.8K

Привет, Хабр! Мы – Вадим Чернышев и Михаил Никитин из команды Tevian. Сегодня, в рамках задачи Face Antispoofing, мы разберем, как один «хороший и легкий», но бездумно добавленный домен может убить обобщающую способность вашей нейросети, и что с этим можно сделать.

Читать далее

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели12K

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

Читать далее

Сравнение графических нейросетей: Nano Banana, Seedream v4 и Reve

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.3K

Рынок графических нейросетей расширяется, причём их возможности растут в геометрической прогрессии. Совсем недавно появилась новая версия Nano Banana, чуть раньше - Seedream v4 и Reve.

Я подумал: почему бы не сравнить эти три модели? Уровни генерации у них примерно одинаковы, возможно, получится что-нибудь любопытное.

Итак, сегодня мы рассмотрим: Nano Banana (берём первую версию, вторая была бы слегка не равноценна по отношению к конкурентам), Seedream v4 и Reve. Постараемся осветить некоторые интересные возможности, если они имеются, а также попробуем определить, какая из моделей справляется лучше с поставленными задачами.

Устраивайтесь поудобнее - мой рассказ начинается.

Читать далее
1
23 ...

Вклад авторов