Обновить
76.05

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Применение вариационного исчисления к задаче выделения границ: вывод уравнения Эйлера-Лагранжа

Уровень сложностиСложный
Время на прочтение25 мин
Охват и читатели6.8K

Представьте, что вам нужно обвести объект на картинке — не просто тыкая в пиксели, а проведя одну идеальную, плавную и уверенную линию. Та самая, которую набросал бы на бумаге художник. Как объяснить компьютеру, что значит «идеальная граница»? Как заставить его искать не среди груды точек, а в бесконечном море возможных кривых?

Оказывается, на этот вопрос уже давно ответила математика, а именно — вариационное исчисление. Это тот самый инструмент, который стоит за знаменитыми алгоритмами вроде «активных контуров» (snakes) или «уровневых множеств». Часто в статьях показывают готовые формулы и код, а саму красивую логику оставляют за кадром.

Давайте вместе разберем эту связь. Начнем с простого: как найти минимум у обычной функции. А потом — шаг за шагом — расширим эту идею до целых кривых. Ключевой момент на пути — уравнение Эйлера-Лагранжа. Мы не просто запишем его, а честно выведем: от замысла «энергии» контура до финального условия, используя лишь базовую лемму вариационного исчисления и интегрирование по частям.

Самое интересное — это уравнение не просто абстракция. Оно описывает баланс, равновесие сил. Оптимальная граница — результат «борьбы»: с одной стороны, она хочет оставаться гладкой и аккуратной, с другой — стремится лечь точно на резкий перепад цвета или яркости на изображении.

Как только вы это поймете, работа с алгоритмами сегментации перестает быть магией. Вы начинаете осмысленно настраивать параметры, предсказывать поведение и даже придумывать собственные критерии для «идеальной границы».

Читать далее

Новости

Генерируем новогодние картинки и видео с Kandinsky 5.0

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели6.1K

Всем привет! Месяц назад на конференции «AI Journey» мы представили линейку моделей нового поколения Kandinsky 5.0 Image & Video. Мы опубликовали код и веса моделей в открытом доступе для разработчиков, а также открыли доступ к новым моделям на всех площадках GigaChat: в Telegram, мессенджере Max, на сайте giga.chat, а также в приложении под Android. Для тех, кто хочет поглубже погрузиться в технические подробности, советуем прочитать техническую статью. А для тех, кому уже хватит архитектур, параметров и кода, а хочется салатов и Нового года — наш сегодняшний материал, в котором будет много ёлок, гирлянд и снега. В этой статье мы расскажем, как сделать отличные, новогодние и не только генерации, и надеемся, что вы получите от работы с моделью такое же удовольствие, как и мы. Спасибо, что интересуетесь и пользуетесь нашими моделями! С наступающим Новым годом!

Читать далее

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели7.3K

Мы в Контуре собрали собственный датасет и использовали его для обучения детектора, ориентированного на работу в сценариях видеосвязи. В статье расскажем, откуда брали материалы, как организовали сбор и тегирование, как генерировали фейки и почему важно заранее продумывать систему тегов. Датасет открыт для сообщества, ссылки оставили в конце статьи.

Читать далее

20 полезных промптов для Nano Banana Pro: как создать фотосессию и отредактировать изображение

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели25K

С Nano Banana Pro всё действительно изменилось. Модель заметно лучше понимает контекст и задачу пользователя. Она воспринимает сцену почти как человек (ну, по крайней мере, очень старается… и у неё получается!).

Эта нейросеть — на базе Gemini — без лишних танцев с бубном превращает обычные текстовые описания в реалистичные изображения с богатой детализацией. Более того, она позволяет редактировать уже готовые картинки буквально одним текстовым запросом. Да‑да, без многочасовых ковыряний в слоях.

Больше не нужно писать магические заклинания времён раннего Stable Diffusion — теперь с нейросетью можно разговаривать на понятном, человеческом языке: подробно, логично и по делу. Звучит заманчиво, не так ли?..

Перед вами подборка готовых промптов для нейросети Nano Banana Pro. В этом гайде мы разберём 20 крутых и практичных способов применения Nano Banana — от генерации изображений до полноценного редактирования.

Читать далее

Kandinsky 5.0 vs Stable Diffusion: практический тест на 6 сценариях для иллюстраций и ассетов

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели5.7K

В разработке мне регулярно нужны картинки «вокруг кода»: обложки к техпостам/README, иллюстрации в документацию, а иногда — быстрые ассеты/референсы для пет‑проектов.

В рамках сезона решил протестировать Kandinsky 5.0 на типовых сценах и сравнить ощущения с привычным пайплайном на Stable Diffusion: где быстрее получить годный результат без плясок с промптом, а где лучшеиметь «запасной аэродром».

Под «разработческими задачами» здесь я имею в виду не генерацию кода, а задачи вокруг продукта: обложки к постам/README, иллюстрации к документации и быстрые прототипы визуалов/ассетов для пет-проектов.

Смотреть сравнение

Бэкап и хранение видео в YouTube

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.6K

Когда‑то мне виделась отличная идея использовать YouTube как надёжное облачное хранилище для своих видеоархивов. Зачем тратить место на локальных дисках, если можно выгружать туда смонтированные ролики или склеенные клипы — всё удобно, всегда доступно с любого устройства в любой момент, без необходимости хранить копии локально. Доступ через браузер или приложение, бесконечное онлайн-хранилище, и видео якобы остаётся в первозданном виде. Но со временем выяснилось, что не всё так просто и безоблачно, как казалось на первый взгляд. Давайте разберёмся, что пошло не так.

Читать далее

Nano Banana Pro vs SeeDream 4.5 vs GPT-5: битва моделей для генерации изображений. Кто победит в 2025 году?

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели8.5K

Доброго времени суток, «Хабр»!
Не так давно у меня вышла статья о сравнении топовых моделей для генерации текста (к сожалению, на данный момент ее уже нельзя назвать самой актуальной). И вот у меня возникла идея - провести аналогичное сравнение для новых моделей в сфере генерации изображений, ведь и эта ниша развивается бешеными темпами.

Сегодня в битве участвуют: Nano Banana Pro, SeeDream 4.5 и GPT-5 Image. Делайте ставки, а я приступаю к сравнению этих впечатляющих моделей.

Читать далее

Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели4.2K

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике?

Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP.

В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

Читать далее

Российские физики научились восстанавливать скрытые детали на зашумленных интерферограммах с высокой точностью

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели22K

Коллектив российских ученых из МФТИ, Физического института им. П.Н. Лебедева РАН, Института искусственного интеллекта AIRI и других ведущих научных центров создал новый итерационный фреймворк WISP, позволяющий с высокой точностью восстанавливать фазовую информацию из одиночных и сильно зашумленных интерферограмм. Разработанный алгоритм демонстрирует значительно более высокую устойчивость к шумам и точность по сравнению с существующими методами, включая подходы на основе глубокого обучения, открывая новые горизонты для изучения сверхбыстрых и сложных физических процессов, таких как плазменные разряды. Результаты исследования опубликованы в журнале IEEE Access.

Лазерная интерферометрия позволяет «увидеть» невидимые неоднородности в прозрачных средах, например, распределение плотности в плазме или напряжение в стекле. Интерференционная картина, состоящая из чередующихся светлых и темных полос, несет в себе зашифрованную информацию о фазовом распределении, которое, в свою очередь, напрямую связано с физическими свойствами объекта. Расшифровать эту информацию — ключевая задача для многих областей науки и техники.

Читать далее

Kandinsky 5.0 — нейросеть от Сбера для генерации изображений и видео

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7.8K

В ноябре 2025 года инженеры “Сбера” представили семейство мультимодальных моделей Kandinsky 5.0 - новое поколение нейросетей, способных создавать как статичные изображения, так и видеоконтент по текстовому описанию. 

Мы детально рассмотрим три ключевые модели, выпущенные в рамках Kandinsky 5.0: легковесную Kandinsky 5.0 Image Lite (6B параметров) для быстрой генерации изображений, мощную Kandinsky 5.0 Video Pro (19B параметров) для создания качественного видео и экономичную Kandinsky 5.0 Video Lite (2B параметров) для ускоренной обработки и экспериментов. 

Читать далее

«Квантовая фотография: как аналоговая эмульсия вычисляет волновую функцию»

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6.8K

В настоящей статье предлагается рассмотрение классического процесса аналоговой фотографии не как художественной или технической дисциплины, а как физической реализации квантового измерения и вычисления. Мы устанавливаем структурный изоморфизм между этапами формирования серебряно-желатинового отпечатка и фундаментальными постулатами квантовой механики.

Сценарное освещение трактуется как начальное квантовое состояние, оптико-механическая система камеры — как оператор наблюдения, а фотохимическая эмульсия — как среда, осуществляющая необратимую декогеренцию и усиление. Ключевые квантовые концепции — волновая функция, коммутационные соотношения, матрица плотности, вероятность перехода — получают прямые операциональные аналоги в фотографических параметрах: выдержке, диафрагме, статистике зерна, характеристической кривой и химических константах проявления.

Статья даёт строгое математическое описание этих процессов, вводя и детально разбирая ряд физических формул — от правила Ферми для поглощения фотона до соотношения неопределённостей «время–энергия» для объяснения дробового шума. Цель — предложить инженерам, специалистам по обработке сигналов и материаловедам новую, интуитивно-физическую модель для понимания квантовых принципов через детерминированные технологические процедуры. Мы показываем, что фотографическая система является законченным аналоговым компьютером, материально вычисляющим квадрат модуля волновой функции падающего излучения.

Читать далее

От чертежей к реальности: как 3D-машинное зрение на ToF-камере научило робота брать двери с паллеты

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8.6K

На производстве мебели рутинная операция — разгрузка паллет с дверными полотнами перед ламинацией. Люди устают, допускают ошибки, а неаккуратная работа ведёт к сколам и убыткам. Мы решили автоматизировать процесс с помощью робота‑манипулятора. Главная сложность: научить машину точно находить и захватывать верхнюю дверь в стопке — даже если полотна разные по форме и размеру. В статье расскажем, как справились с задачей, используя всего одну ToF‑камеру и гибридный подход: сочетание 2D‑нейросети и 3D‑обработки данных. Узнаете, почему выбрали именно ToF, как преобразуем пиксели в миллиметры и как робот достигает точности в 1–2 мм при захвате.

Читать далее

Зрительно-языковые модели читают хуже (или лучше), чем вам кажется

Время на прочтение8 мин
Охват и читатели8K

Знакомство с бенчмарком ReadBench, позволяющим без труда оценить, насколько хорошо ваши любимые зрительно-языковые модели читают изображения с большими объёмами текста.

В этой статье будет рассказано о ReadBench. ReadBench — это очень простой бенчмарк, который мы разработали для оценки важного, но недооценённого аспекта мультимодального ИИ: насколько хорошо моделям удаётся, собственно, читать текст на картинках, рассуждать о нём и извлекать информацию из таких изображений, на которых много текста.

Читать далее

Ближайшие события

Nano Banana 2 vs ChatGPT: сравниваем эволюцию в генерации AI изображений за полгода

Время на прочтение7 мин
Охват и читатели13K

Сравниваю, что изменилось в генерации изображений с выходом Nano Banana 2

Полгода назад OpenAI выкатил прорывную генеративную модель. Но она страдала от 5 больших проблем: консистентность, кириллица, сложные сцены, мелкие доработки и кадрирование.

С тех пор вышли два релиза, которые наконец-то решают эти проблемы: Nano Banana в августе и Nano Banana 2 в ноябре.

Сравниваю на реальных примерах — что изменилось и что теперь можно пускать в продакшен ⤵️

Читать 🤖 vs 🍌

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.8K

Привет, Хабр! Мы – Вадим Чернышев и Михаил Никитин из команды Tevian. Сегодня, в рамках задачи Face Antispoofing, мы разберем, как один «хороший и легкий», но бездумно добавленный домен может убить обобщающую способность вашей нейросети, и что с этим можно сделать.

Читать далее

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели12K

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

Читать далее

Сравнение графических нейросетей: Nano Banana, Seedream v4 и Reve

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.2K

Рынок графических нейросетей расширяется, причём их возможности растут в геометрической прогрессии. Совсем недавно появилась новая версия Nano Banana, чуть раньше - Seedream v4 и Reve.

Я подумал: почему бы не сравнить эти три модели? Уровни генерации у них примерно одинаковы, возможно, получится что-нибудь любопытное.

Итак, сегодня мы рассмотрим: Nano Banana (берём первую версию, вторая была бы слегка не равноценна по отношению к конкурентам), Seedream v4 и Reve. Постараемся осветить некоторые интересные возможности, если они имеются, а также попробуем определить, какая из моделей справляется лучше с поставленными задачами.

Устраивайтесь поудобнее - мой рассказ начинается.

Читать далее

Почему ComfyUI — это просто: развеиваем миф о недоступности нодового интерфейса

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели7.4K

Привет! Меня зовут Андрей, я фронтенд-разработчик в Cloud.ru, веду блог о фронтенде и AI в Telegram. За время работы с ComfyUI убедился: страх перед его сложностью — миф, который мешает раскрыть настоящую силу этого инструмента.

ComfyUI кажется сложным только на первый взгляд. Если потратить несколько дней своего времени и углубиться, окажется, что это один из лучших способов для генерации изображений с нейросетями. В этой статье я покажу, почему освоить ComfyUI проще, чем кажется, и как он облегчает, а не усложняет жизнь.

Статья будет полезна всем, кто интересуется генерацией изображений с помощью AI: от новичков до опытных пользователей, которые не решаются переходить на новый интерфейс, где вместо одной кнопки приходится работать с нодами, словно собирая Лего.

Читать статью

Снимаю на советские фотообъективы и радуюсь

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели21K

Я постараюсь рассказать вам о своём опыте фотосъёмки на некоторые советские объективы. Без излишнего технического душнильства и не уходя в субъективные описания изображений, основанные на эмоциях. Будет много фотографий с примерами, но при этом дам ссылки на подробную техническую информацию про каждый объектив. И поделюсь некоторыми советами.

Читать далее

Как мы учили кассу самообслуживания в столовой отличать борщ от свекольника

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели8.7K

Хочу рассказать о том, как мы разрабатывали и внедряли кассы самообслуживания для столовых и фудкортов. Под катом:

Почему распознавать еду сложно (но можно). Где мы ожидали получить проблемы, и где они были на самом деле. Почему не нужно помогать кассиру делать свою работу. Сколько котлет нужно сфоткать для уверенного распознавания. Бунт кассиров, бессмысленный и беспощадный. Какие проблемы создает товароведу касса самообслуживания.

Читать далее
1
23 ...

Вклад авторов