Все потоки

Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

PatientZero 30 дек 2025 в 07:03

Как на самом деле выглядит необработанное фото

Простой

3 мин

22K

Обработка изображений * ФототехникаАлгоритмы * Математика *

Перевод

Вот фотография новогодней ёлки в том виде, в котором видит матрица камеры.

Она даже не чёрно-белая, а серо-серая.

Причина этого в том, что хотя аналогово-цифровой преобразователь (АЦП) камеры теоретически способен выдавать значения от 0 до 16382, данные не покрывают весь этот диапазон.

Читать далее

+152

Realife 27 дек 2025 в 13:01

Archivist: Как я учил нейросеть понимать физику плёнки, вместо того чтобы просто размывать шум

Средний

10 мин

30K

Блог компании RUVDS.comИскусственный интеллектОбработка изображений * Машинное обучение * Работа с видео *

Кейс

В прошлых статьях я разбирал основы апскейлинга дома и сходил с ума, вырезая закадровый смех из «Скуби-Ду». Тот опыт привёл меня к выводу: существующие инструменты, будь то плагины вроде NeatVideo или комбайны типа Topaz Video AI — это «чёрные ящики». У них ограниченный набор настроек, и они часто пасуют перед специфическими задачами старой анимации.

В этот раз я пошёл от обратного. Сразу снижу градус ожиданий: это любительский эксперимент. Мы сильно ограничены в мощности GPU (в наличии только RTX 4060 Ti), из-за чего натренировать реально точную, тяжелую нейросеть-универсала возможности нет.

Поэтому вместо гонки за идеальными метриками я сосредоточился на «неудобных» проблемах. Я написал симулятор уничтожения плёнки, чтобы научить легкую модель понимать физику конкретных дефектов: от сдвига эмульсии до химических ожогов.

Спойлер: на это ушло 2 месяца и 2 миллиона итераций. Получилась не «волшебная кнопка», а набор узкоспециализированных инструментов.

Читать далее

+135

some_vanya 25 дек 2025 в 13:33

Как я построил визуальную вселенную для онлайн-курса с помощью Nana Banana и почему это важно для студентов

Простой

6 мин

2.7K

Искусственный интеллектОбработка изображений * Компьютерная анимация *

Обзор

Меня зовут Иван Стародубцев, я автор курса для новичков «Лучший по Python» на Stepik. Он не просто так называется: за год его прошли почти 30 тысяч учеников, которые оставили 3,8 тысячи отзывов со средней оценкой 5 звёзд. Это курс, написанный максимально простым языком в формате диалога, без снобизма и математики. Вместо скучных формул там интересные задачи из жизни, а уже на второй неделе студенты пишут первые игры.

В какой-то момент я столкнулся с проблемой, знакомой многим авторам учебного контента: курсу нужны десятки и сотни иллюстраций. Случайные картинки из интернета не подходят — это должна быть настоящая визуальная вселенная с постоянными персонажами, узнаваемыми локациями и мини-историями, которые раскрываются на протяжении всего материала.

Работа иллюстратора на 100–150 картинок стоит 300–450 тысяч рублей. Это дорого, долго и негибко: захотел добавить новую сцену — снова договариваешься, ждёшь, платишь. Поэтому я решил выстроить собственную схему по производству иллюстраций на нейросетях. Сегодня расскажу, как это работает и, главное, как помогает студентам.

Читать далее

+9

DigitalPsychiatry 24 дек 2025 в 14:50

Основы оптического потока в ML: от первых принципов к уравнениям Лукаса-Канаде и Хорна-Шанка

Сложный

37 мин

7.8K

Обработка изображений * Машинное обучение * Алгоритмы * Программирование * Математика *

Аналитика

Аннотация

Настоящая статья представляет собой развернутое исследование, посвященное систематическому изучению классических алгоритмов оценки оптического потока — фундаментальной задачи компьютерного зрения. Основной целью работы является последовательный и строгий вывод ключевых методов, начиная от базовых физических постулатов и заканчивая завершенными, готовыми к реализации математическими моделями. В центре внимания находится уравнение ограничения оптического потока, выводимое из краеугольного предположения о постоянстве яркости, и два основополагающих, принципиально различных подхода к решению этой недоопределенной задачи: локальный метод Лукаса-Канаде, основанный на предположении о пространственной согласованности потока в малой окрестности, и глобальный метод Хорна-Шанка, вводящий условие плавности (гладкости) потока в виде регуляризирующего функционала. Подробно анализируются теоретические основания каждого подхода, их математический аппарат, включая вывод и решение соответствующих систем уравнений, а также проводится сравнительный анализ их сильных сторон и присущих им фундаментальных ограничений, таких как проблема апертуры и чувствительность к нарушениям исходных предположений.

Практическая значимость и верификация теоретических положений исследования обеспечиваются детальной численной реализацией обоих алгоритмов в среде MATLAB. Экспериментальная часть включает генерацию и обработку синтетических последовательностей с заведомо известным вектором движения для объективной количественной оценки точности, а также тестирование на реальных видеоданных для анализа устойчивости в условиях шумов, изменений освещенности и текстуры. Проведенное сравнение визуализирует ключевые различия в характере получаемых полей потока (разреженное против плотного), оценивает вычислительную эффективность и робастность методов в различных сценариях.

Читать далее

+5

DigitalPsychiatry 23 дек 2025 в 17:51

Применение вариационного исчисления к задаче выделения границ: вывод уравнения Эйлера-Лагранжа

Сложный

25 мин

9.8K

Машинное обучение * Искусственный интеллектАлгоритмы * Matlab * Обработка изображений *

Аналитика

Представьте, что вам нужно обвести объект на картинке — не просто тыкая в пиксели, а проведя одну идеальную, плавную и уверенную линию. Та самая, которую набросал бы на бумаге художник. Как объяснить компьютеру, что значит «идеальная граница»? Как заставить его искать не среди груды точек, а в бесконечном море возможных кривых?

Оказывается, на этот вопрос уже давно ответила математика, а именно — вариационное исчисление. Это тот самый инструмент, который стоит за знаменитыми алгоритмами вроде «активных контуров» (snakes) или «уровневых множеств». Часто в статьях показывают готовые формулы и код, а саму красивую логику оставляют за кадром.

Давайте вместе разберем эту связь. Начнем с простого: как найти минимум у обычной функции. А потом — шаг за шагом — расширим эту идею до целых кривых. Ключевой момент на пути — уравнение Эйлера-Лагранжа. Мы не просто запишем его, а честно выведем: от замысла «энергии» контура до финального условия, используя лишь базовую лемму вариационного исчисления и интегрирование по частям.

Самое интересное — это уравнение не просто абстракция. Оно описывает баланс, равновесие сил. Оптимальная граница — результат «борьбы»: с одной стороны, она хочет оставаться гладкой и аккуратной, с другой — стремится лечь точно на резкий перепад цвета или яркости на изображении.

Как только вы это поймете, работа с алгоритмами сегментации перестает быть магией. Вы начинаете осмысленно настраивать параметры, предсказывать поведение и даже придумывать собственные критерии для «идеальной границы».

Читать далее

+9

nikgerasimenko 23 дек 2025 в 08:17

Генерируем новогодние картинки и видео с Kandinsky 5.0

Простой

6 мин

13K

Блог компании СберМашинное обучение * Искусственный интеллектРабота с видео * Обработка изображений *

Кейс

Всем привет! Месяц назад на конференции «AI Journey» мы представили линейку моделей нового поколения Kandinsky 5.0 Image & Video. Мы опубликовали код и веса моделей в открытом доступе для разработчиков, а также открыли доступ к новым моделям на всех площадках GigaChat: в Telegram, мессенджере Max, на сайте giga.chat, а также в приложении под Android. Для тех, кто хочет поглубже погрузиться в технические подробности, советуем прочитать техническую статью. А для тех, кому уже хватит архитектур, параметров и кода, а хочется салатов и Нового года — наш сегодняшний материал, в котором будет много ёлок, гирлянд и снега. В этой статье мы расскажем, как сделать отличные, новогодние и не только генерации, и надеемся, что вы получите от работы с моделью такое же удовольствие, как и мы. Спасибо, что интересуетесь и пользуетесь нашими моделями! С наступающим Новым годом!

Читать далее

+15

starikovplusplus 22 дек 2025 в 12:13

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Средний

6 мин

7.7K

Блог компании КонтурИскусственный интеллектIT-компанииМашинное обучение * Обработка изображений *

Сезон ИИ в разработке

Мы в Контуре собрали собственный датасет и использовали его для обучения детектора, ориентированного на работу в сценариях видеосвязи. В статье расскажем, откуда брали материалы, как организовали сбор и тегирование, как генерировали фейки и почему важно заранее продумывать систему тегов. Датасет открыт для сообщества, ссылки оставили в конце статьи.

Читать далее

+9

dmitrifriend 21 дек 2025 в 20:53

20 полезных промптов для Nano Banana Pro: как создать фотосессию и отредактировать изображение

Простой

15 мин

36K

Блог компании BotHubИскусственный интеллектОбработка изображений * Будущее здесьСофт

Туториал

С Nano Banana Pro всё действительно изменилось. Модель заметно лучше понимает контекст и задачу пользователя. Она воспринимает сцену почти как человек (ну, по крайней мере, очень старается… и у неё получается!).

Эта нейросеть — на базе Gemini — без лишних танцев с бубном превращает обычные текстовые описания в реалистичные изображения с богатой детализацией. Более того, она позволяет редактировать уже готовые картинки буквально одним текстовым запросом. Да‑да, без многочасовых ковыряний в слоях.

Больше не нужно писать магические заклинания времён раннего Stable Diffusion — теперь с нейросетью можно разговаривать на понятном, человеческом языке: подробно, логично и по делу. Звучит заманчиво, не так ли?..

Перед вами подборка готовых промптов для нейросети Nano Banana Pro. В этом гайде мы разберём 20 крутых и практичных способов применения Nano Banana — от генерации изображений до полноценного редактирования.

Читать далее

+18

Efrosim123 19 дек 2025 в 13:50

Kandinsky 5.0 vs Stable Diffusion: практический тест на 6 сценариях для иллюстраций и ассетов

Простой

11 мин

5.9K

Искусственный интеллектМашинное обучение * Обработка изображений *

Обзор

Сезон ИИ в разработке

В разработке мне регулярно нужны картинки «вокруг кода»: обложки к техпостам/README, иллюстрации в документацию, а иногда — быстрые ассеты/референсы для пет‑проектов.

В рамках сезона решил протестировать Kandinsky 5.0 на типовых сценах и сравнить ощущения с привычным пайплайном на Stable Diffusion: где быстрее получить годный результат без плясок с промптом, а где лучшеиметь «запасной аэродром».

Под «разработческими задачами» здесь я имею в виду не генерацию кода, а задачи вокруг продукта: обложки к постам/README, иллюстрации к документации и быстрые прототипы визуалов/ассетов для пет-проектов.

Смотреть сравнение

0

Renatk 18 дек 2025 в 11:10

Бэкап и хранение видео в YouTube

Простой

5 мин

7.9K

Информационная безопасность * Резервное копирование * Работа с видео * Обработка изображений *

Туториал

Когда‑то мне виделась отличная идея использовать YouTube как надёжное облачное хранилище для своих видеоархивов. Зачем тратить место на локальных дисках, если можно выгружать туда смонтированные ролики или склеенные клипы — всё удобно, всегда доступно с любого устройства в любой момент, без необходимости хранить копии локально. Доступ через браузер или приложение, бесконечное онлайн-хранилище, и видео якобы остаётся в первозданном виде. Но со временем выяснилось, что не всё так просто и безоблачно, как казалось на первый взгляд. Давайте разберёмся, что пошло не так.

Читать далее

-3

MrRjxrby 16 дек 2025 в 08:46

Nano Banana Pro vs SeeDream 4.5 vs GPT-5: битва моделей для генерации изображений. Кто победит в 2025 году?

Простой

8 мин

8.7K

Блог компании BotHubИскусственный интеллектБудущее здесьНаучно-популярноеОбработка изображений *

Обзор

Доброго времени суток, «Хабр»!
Не так давно у меня вышла статья о сравнении топовых моделей для генерации текста (к сожалению, на данный момент ее уже нельзя назвать самой актуальной). И вот у меня возникла идея - провести аналогичное сравнение для новых моделей в сфере генерации изображений, ведь и эта ниша развивается бешеными темпами.

Сегодня в битве участвуют: Nano Banana Pro, SeeDream 4.5 и GPT-5 Image. Делайте ставки, а я приступаю к сравнению этих впечатляющих моделей.

Читать далее

+4

Snezhana_It 16 дек 2025 в 08:20

Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

Простой

9 мин

4.3K

Блог компании SL SoftМашинное обучение * Big Data * Искусственный интеллектОбработка изображений *

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике?

Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP.

В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

Читать далее

+3

master_program 12 дек 2025 в 05:01

Российские физики научились восстанавливать скрытые детали на зашумленных интерферограммах с высокой точностью

Средний

6 мин

22K

Обработка изображений * ФизикаМатематика * Научно-популярное

Коллектив российских ученых из МФТИ, Физического института им. П.Н. Лебедева РАН, Института искусственного интеллекта AIRI и других ведущих научных центров создал новый итерационный фреймворк WISP, позволяющий с высокой точностью восстанавливать фазовую информацию из одиночных и сильно зашумленных интерферограмм. Разработанный алгоритм демонстрирует значительно более высокую устойчивость к шумам и точность по сравнению с существующими методами, включая подходы на основе глубокого обучения, открывая новые горизонты для изучения сверхбыстрых и сложных физических процессов, таких как плазменные разряды. Результаты исследования опубликованы в журнале IEEE Access.

Лазерная интерферометрия позволяет «увидеть» невидимые неоднородности в прозрачных средах, например, распределение плотности в плазме или напряжение в стекле. Интерференционная картина, состоящая из чередующихся светлых и темных полос, несет в себе зашифрованную информацию о фазовом распределении, которое, в свою очередь, напрямую связано с физическими свойствами объекта. Расшифровать эту информацию — ключевая задача для многих областей науки и техники.

Читать далее

+3

mefdayy 11 дек 2025 в 13:29

Kandinsky 5.0 — нейросеть от Сбера для генерации изображений и видео

Простой

8 мин

8.2K

Блог компании BotHubИскусственный интеллектОбработка изображений * Работа с видео *

Обзор

В ноябре 2025 года инженеры “Сбера” представили семейство мультимодальных моделей Kandinsky 5.0 - новое поколение нейросетей, способных создавать как статичные изображения, так и видеоконтент по текстовому описанию.

Мы детально рассмотрим три ключевые модели, выпущенные в рамках Kandinsky 5.0: легковесную Kandinsky 5.0 Image Lite (6B параметров) для быстрой генерации изображений, мощную Kandinsky 5.0 Video Pro (19B параметров) для создания качественного видео и экономичную Kandinsky 5.0 Video Lite (2B параметров) для ускоренной обработки и экспериментов.

Читать далее

+5

DigitalPsychiatry 9 дек 2025 в 13:16

«Квантовая фотография: как аналоговая эмульсия вычисляет волновую функцию»

Средний

16 мин

7K

Машинное обучение * Искусственный интеллектОбработка изображений * ФизикаАлгоритмы *

Из песочницы

В настоящей статье предлагается рассмотрение классического процесса аналоговой фотографии не как художественной или технической дисциплины, а как физической реализации квантового измерения и вычисления. Мы устанавливаем структурный изоморфизм между этапами формирования серебряно-желатинового отпечатка и фундаментальными постулатами квантовой механики.

Сценарное освещение трактуется как начальное квантовое состояние, оптико-механическая система камеры — как оператор наблюдения, а фотохимическая эмульсия — как среда, осуществляющая необратимую декогеренцию и усиление. Ключевые квантовые концепции — волновая функция, коммутационные соотношения, матрица плотности, вероятность перехода — получают прямые операциональные аналоги в фотографических параметрах: выдержке, диафрагме, статистике зерна, характеристической кривой и химических константах проявления.

Статья даёт строгое математическое описание этих процессов, вводя и детально разбирая ряд физических формул — от правила Ферми для поглощения фотона до соотношения неопределённостей «время–энергия» для объяснения дробового шума. Цель — предложить инженерам, специалистам по обработке сигналов и материаловедам новую, интуитивно-физическую модель для понимания квантовых принципов через детерминированные технологические процедуры. Мы показываем, что фотографическая система является законченным аналоговым компьютером, материально вычисляющим квадрат модуля волновой функции падающего излучения.

Читать далее

+3

avsolovyev 6 дек 2025 в 03:21

От чертежей к реальности: как 3D-машинное зрение на ToF-камере научило робота брать двери с паллеты

Простой

7 мин

8.6K

Промышленное программирование * Обработка изображений * РобототехникаИскусственный интеллект

Кейс

На производстве мебели рутинная операция — разгрузка паллет с дверными полотнами перед ламинацией. Люди устают, допускают ошибки, а неаккуратная работа ведёт к сколам и убыткам. Мы решили автоматизировать процесс с помощью робота‑манипулятора. Главная сложность: научить машину точно находить и захватывать верхнюю дверь в стопке — даже если полотна разные по форме и размеру. В статье расскажем, как справились с задачей, используя всего одну ToF‑камеру и гибридный подход: сочетание 2D‑нейросети и 3D‑обработки данных. Узнаете, почему выбрали именно ToF, как преобразуем пиксели в миллиметры и как робот достигает точности в 1–2 мм при захвате.

Читать далее

+13

ph_piter 5 дек 2025 в 10:56

Зрительно-языковые модели читают хуже (или лучше), чем вам кажется

8 мин

8.1K

Блог компании Издательский дом «Питер»Машинное обучение * Обработка изображений * Искусственный интеллект

Перевод

Знакомство с бенчмарком ReadBench, позволяющим без труда оценить, насколько хорошо ваши любимые зрительно-языковые модели читают изображения с большими объёмами текста.

В этой статье будет рассказано о ReadBench. ReadBench — это очень простой бенчмарк, который мы разработали для оценки важного, но недооценённого аспекта мультимодального ИИ: насколько хорошо моделям удаётся, собственно, читать текст на картинках, рассуждать о нём и извлекать информацию из таких изображений, на которых много текста.

Читать далее

+7

Raicon 3 дек 2025 в 15:12

Nano Banana 2 vs ChatGPT: сравниваем эволюцию в генерации AI изображений за полгода

7 мин

13K

Искусственный интеллектОбработка изображений * Будущее здесьЛайфхаки для гиковДизайн

Сравниваю, что изменилось в генерации изображений с выходом Nano Banana 2

Полгода назад OpenAI выкатил прорывную генеративную модель. Но она страдала от 5 больших проблем: консистентность, кириллица, сложные сцены, мелкие доработки и кадрирование.

С тех пор вышли два релиза, которые наконец-то решают эти проблемы: Nano Banana в августе и Nano Banana 2 в ноябре.

Сравниваю на реальных примерах — что изменилось и что теперь можно пускать в продакшен ⤵️

Читать 🤖 vs 🍌

+18

vadim-chern 1 дек 2025 в 13:51

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

Средний

10 мин

6.9K

Блог компании TevianИскусственный интеллектОбработка изображений * Машинное обучение *

Привет, Хабр! Мы – Вадим Чернышев и Михаил Никитин из команды Tevian. Сегодня, в рамках задачи Face Antispoofing, мы разберем, как один «хороший и легкий», но бездумно добавленный домен может убить обобщающую способность вашей нейросети, и что с этим можно сделать.

Читать далее

+6

void0null 28 ноя 2025 в 12:23

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

Сложный

9 мин

12K

Блог компании SberDevicesБлог компании СберNatural Language Processing * Машинное обучение * Обработка изображений *

Обзор

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

Читать далее

+31

1

2 3 ...