Обновить
73.42

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Kandinsky 5.0 vs Stable Diffusion: практический тест на 6 сценариях для иллюстраций и ассетов

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели5.1K

В разработке мне регулярно нужны картинки «вокруг кода»: обложки к техпостам/README, иллюстрации в документацию, а иногда — быстрые ассеты/референсы для пет‑проектов.

В рамках сезона решил протестировать Kandinsky 5.0 на типовых сценах и сравнить ощущения с привычным пайплайном на Stable Diffusion: где быстрее получить годный результат без плясок с промптом, а где лучшеиметь «запасной аэродром».

Под «разработческими задачами» здесь я имею в виду не генерацию кода, а задачи вокруг продукта: обложки к постам/README, иллюстрации к документации и быстрые прототипы визуалов/ассетов для пет-проектов.

Смотреть сравнение

Новости

Бэкап и хранение видео в YouTube

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.2K

Когда‑то мне виделась отличная идея использовать YouTube как надёжное облачное хранилище для своих видеоархивов. Зачем тратить место на локальных дисках, если можно выгружать туда смонтированные ролики или склеенные клипы — всё удобно, всегда доступно с любого устройства в любой момент, без необходимости хранить копии локально. Доступ через браузер или приложение, бесконечное онлайн-хранилище, и видео якобы остаётся в первозданном виде. Но со временем выяснилось, что не всё так просто и безоблачно, как казалось на первый взгляд. Давайте разберёмся, что пошло не так.

Читать далее

Nano Banana Pro vs SeeDream 4.5 vs GPT-5: битва моделей для генерации изображений. Кто победит в 2025 году?

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7.9K

Доброго времени суток, «Хабр»!
Не так давно у меня вышла статья о сравнении топовых моделей для генерации текста (к сожалению, на данный момент ее уже нельзя назвать самой актуальной). И вот у меня возникла идея - провести аналогичное сравнение для новых моделей в сфере генерации изображений, ведь и эта ниша развивается бешеными темпами.

Сегодня в битве участвуют: Nano Banana Pro, SeeDream 4.5 и GPT-5 Image. Делайте ставки, а я приступаю к сравнению этих впечатляющих моделей.

Читать далее

Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели4.2K

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике?

Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP.

В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

Читать далее

Российские физики научились восстанавливать скрытые детали на зашумленных интерферограммах с высокой точностью

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели22K

Коллектив российских ученых из МФТИ, Физического института им. П.Н. Лебедева РАН, Института искусственного интеллекта AIRI и других ведущих научных центров создал новый итерационный фреймворк WISP, позволяющий с высокой точностью восстанавливать фазовую информацию из одиночных и сильно зашумленных интерферограмм. Разработанный алгоритм демонстрирует значительно более высокую устойчивость к шумам и точность по сравнению с существующими методами, включая подходы на основе глубокого обучения, открывая новые горизонты для изучения сверхбыстрых и сложных физических процессов, таких как плазменные разряды. Результаты исследования опубликованы в журнале IEEE Access.

Лазерная интерферометрия позволяет «увидеть» невидимые неоднородности в прозрачных средах, например, распределение плотности в плазме или напряжение в стекле. Интерференционная картина, состоящая из чередующихся светлых и темных полос, несет в себе зашифрованную информацию о фазовом распределении, которое, в свою очередь, напрямую связано с физическими свойствами объекта. Расшифровать эту информацию — ключевая задача для многих областей науки и техники.

Читать далее

Kandinsky 5.0 — нейросеть от Сбера для генерации изображений и видео

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7.7K

В ноябре 2025 года инженеры “Сбера” представили семейство мультимодальных моделей Kandinsky 5.0 - новое поколение нейросетей, способных создавать как статичные изображения, так и видеоконтент по текстовому описанию. 

Мы детально рассмотрим три ключевые модели, выпущенные в рамках Kandinsky 5.0: легковесную Kandinsky 5.0 Image Lite (6B параметров) для быстрой генерации изображений, мощную Kandinsky 5.0 Video Pro (19B параметров) для создания качественного видео и экономичную Kandinsky 5.0 Video Lite (2B параметров) для ускоренной обработки и экспериментов. 

Читать далее

«Квантовая фотография: как аналоговая эмульсия вычисляет волновую функцию»

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6.8K

В настоящей статье предлагается рассмотрение классического процесса аналоговой фотографии не как художественной или технической дисциплины, а как физической реализации квантового измерения и вычисления. Мы устанавливаем структурный изоморфизм между этапами формирования серебряно-желатинового отпечатка и фундаментальными постулатами квантовой механики.

Сценарное освещение трактуется как начальное квантовое состояние, оптико-механическая система камеры — как оператор наблюдения, а фотохимическая эмульсия — как среда, осуществляющая необратимую декогеренцию и усиление. Ключевые квантовые концепции — волновая функция, коммутационные соотношения, матрица плотности, вероятность перехода — получают прямые операциональные аналоги в фотографических параметрах: выдержке, диафрагме, статистике зерна, характеристической кривой и химических константах проявления.

Статья даёт строгое математическое описание этих процессов, вводя и детально разбирая ряд физических формул — от правила Ферми для поглощения фотона до соотношения неопределённостей «время–энергия» для объяснения дробового шума. Цель — предложить инженерам, специалистам по обработке сигналов и материаловедам новую, интуитивно-физическую модель для понимания квантовых принципов через детерминированные технологические процедуры. Мы показываем, что фотографическая система является законченным аналоговым компьютером, материально вычисляющим квадрат модуля волновой функции падающего излучения.

Читать далее

От чертежей к реальности: как 3D-машинное зрение на ToF-камере научило робота брать двери с паллеты

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8.5K

На производстве мебели рутинная операция — разгрузка паллет с дверными полотнами перед ламинацией. Люди устают, допускают ошибки, а неаккуратная работа ведёт к сколам и убыткам. Мы решили автоматизировать процесс с помощью робота‑манипулятора. Главная сложность: научить машину точно находить и захватывать верхнюю дверь в стопке — даже если полотна разные по форме и размеру. В статье расскажем, как справились с задачей, используя всего одну ToF‑камеру и гибридный подход: сочетание 2D‑нейросети и 3D‑обработки данных. Узнаете, почему выбрали именно ToF, как преобразуем пиксели в миллиметры и как робот достигает точности в 1–2 мм при захвате.

Читать далее

Зрительно-языковые модели читают хуже (или лучше), чем вам кажется

Время на прочтение8 мин
Охват и читатели7.9K

Знакомство с бенчмарком ReadBench, позволяющим без труда оценить, насколько хорошо ваши любимые зрительно-языковые модели читают изображения с большими объёмами текста.

В этой статье будет рассказано о ReadBench. ReadBench — это очень простой бенчмарк, который мы разработали для оценки важного, но недооценённого аспекта мультимодального ИИ: насколько хорошо моделям удаётся, собственно, читать текст на картинках, рассуждать о нём и извлекать информацию из таких изображений, на которых много текста.

Читать далее

Nano Banana 2 vs ChatGPT: сравниваем эволюцию в генерации AI изображений за полгода

Время на прочтение7 мин
Охват и читатели13K

Сравниваю, что изменилось в генерации изображений с выходом Nano Banana 2

Полгода назад OpenAI выкатил прорывную генеративную модель. Но она страдала от 5 больших проблем: консистентность, кириллица, сложные сцены, мелкие доработки и кадрирование.

С тех пор вышли два релиза, которые наконец-то решают эти проблемы: Nano Banana в августе и Nano Banana 2 в ноябре.

Сравниваю на реальных примерах — что изменилось и что теперь можно пускать в продакшен ⤵️

Читать 🤖 vs 🍌

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.8K

Привет, Хабр! Мы – Вадим Чернышев и Михаил Никитин из команды Tevian. Сегодня, в рамках задачи Face Antispoofing, мы разберем, как один «хороший и легкий», но бездумно добавленный домен может убить обобщающую способность вашей нейросети, и что с этим можно сделать.

Читать далее

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели12K

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

Читать далее

Сравнение графических нейросетей: Nano Banana, Seedream v4 и Reve

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.2K

Рынок графических нейросетей расширяется, причём их возможности растут в геометрической прогрессии. Совсем недавно появилась новая версия Nano Banana, чуть раньше - Seedream v4 и Reve.

Я подумал: почему бы не сравнить эти три модели? Уровни генерации у них примерно одинаковы, возможно, получится что-нибудь любопытное.

Итак, сегодня мы рассмотрим: Nano Banana (берём первую версию, вторая была бы слегка не равноценна по отношению к конкурентам), Seedream v4 и Reve. Постараемся осветить некоторые интересные возможности, если они имеются, а также попробуем определить, какая из моделей справляется лучше с поставленными задачами.

Устраивайтесь поудобнее - мой рассказ начинается.

Читать далее

Ближайшие события

Почему ComfyUI — это просто: развеиваем миф о недоступности нодового интерфейса

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели7.3K

Привет! Меня зовут Андрей, я фронтенд-разработчик в Cloud.ru, веду блог о фронтенде и AI в Telegram. За время работы с ComfyUI убедился: страх перед его сложностью — миф, который мешает раскрыть настоящую силу этого инструмента.

ComfyUI кажется сложным только на первый взгляд. Если потратить несколько дней своего времени и углубиться, окажется, что это один из лучших способов для генерации изображений с нейросетями. В этой статье я покажу, почему освоить ComfyUI проще, чем кажется, и как он облегчает, а не усложняет жизнь.

Статья будет полезна всем, кто интересуется генерацией изображений с помощью AI: от новичков до опытных пользователей, которые не решаются переходить на новый интерфейс, где вместо одной кнопки приходится работать с нодами, словно собирая Лего.

Читать статью

Снимаю на советские фотообъективы и радуюсь

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели21K

Я постараюсь рассказать вам о своём опыте фотосъёмки на некоторые советские объективы. Без излишнего технического душнильства и не уходя в субъективные описания изображений, основанные на эмоциях. Будет много фотографий с примерами, но при этом дам ссылки на подробную техническую информацию про каждый объектив. И поделюсь некоторыми советами.

Читать далее

Как мы учили кассу самообслуживания в столовой отличать борщ от свекольника

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели8.7K

Хочу рассказать о том, как мы разрабатывали и внедряли кассы самообслуживания для столовых и фудкортов. Под катом:

Почему распознавать еду сложно (но можно). Где мы ожидали получить проблемы, и где они были на самом деле. Почему не нужно помогать кассиру делать свою работу. Сколько котлет нужно сфоткать для уверенного распознавания. Бунт кассиров, бессмысленный и беспощадный. Какие проблемы создает товароведу касса самообслуживания.

Читать далее

Гайд по нейро-рекламе: Как ИИ спасает даже самые безнадежные объявления на Авито

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.9K

Авито — это не просто доска объявлений. Это настоящий музей народного творчества, странных ракурсов и загадочных предметов. Мы все видели эти фото: размытый диван в темноте, «селфи» чайника в зеркале или ковер, который видел еще Брежнева.

Но что, если бы эти продавцы имели доступ к технологиям будущего? 🤔

😏 Мы решили провести эксперимент. Взяли самые колоритные (и случайные!) объявления и попросили Искусственный Интеллект переосмыслить их визуал. Никакого сложного фотошопа, только магия нейросетей.

⚠️ Дисклеймер: Всё сделано исключительно ради юмора и науки. Любые совпадения случайны. Ни одно объявление не пострадало.

#вайбмаркетинг

Читать далее

Дискретные дифференциальные операторы

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели9K

Дискретные дифференциальные операторы лежат в основе математического моделирования и обработки данных. В частности, они используются при обработке временных рядов и изображений, в компьютерной графике и симуляциях физических процессов и т.д. В статье последовательно разворачивается дискретизация дифференциальных операторов: производные, градиент, дивергенция и лапласиан. В каждом случае приводится ядро для вычисления при помощи кросс-корреляции. В статье также кратко раскрывается суть кросс-корреляции. Данная операция, помимо всего прочего, лежит в основе свёрточных нейронных сетей. Для демонстрации практического применения приводится моделирование диффузии клеточным автоматом на основе классического уравнения диффузии.

Читать далее

Чистая правда: как компьютерное зрение помогает делать мир чище

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.5K

Компьютерное зрение развивается стремительно: задачи, которые ещё недавно требовали собственных датасетов и долгого обучения моделей, теперь решаются готовыми инструментами.

Всем привет! Меня зовут Алина, я инженер‑исследователь в Центре искусственного интеллекта СФУ. В этой статье расскажу, как мы применяем методы компьютерного зрения для анализа фотографий уборок в проекте «Чистые игры», как подошли к задаче автоматической оценки качества уборок и какие технические решения легли в основу MVP. В конце поделюсь выводами и тем, что удалось сделать, а что ещё предстоит улучшить.

Читать далее

Nano Banana Pro — почему это прорывная модель генерации и редактирования изображений? Проверяем на реальных примерах

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели24K

20 ноября состоялся официальный запуск Nano Banana Pro (Gemini-3-Pro-Image-Preview) с мощной базой Gemini 3 Pro. Это уже более взрослый инструмент для дизайна, инфографики и контента. Мы с вами не только рассмотрим нововведения, почему именно модель стала прорывной, но и на реальных примерах наглядно в этом убедимся.

Читать далее
1
23 ...

Вклад авторов