Как стать автором
Обновить
40

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров1.4K

Что делать, если хочешь отредактировать картинку?

На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще уж фотошопу научиться. Как было бы здорово показать картинку нейросети и написать: «Пожалуйста, смени юбку на джинсы. И сзади ещё одну клумбу добавь… И погода пусть солнечной будет!»

Увы, как бы ни ломали голову исследователи, задача произвольного нейросетевого редактирования изображений на сегодняшний день в целом не решена. Но пройден нелёгкий путь, и есть заметные достижения, о которых нельзя не рассказать.

Мастера фотошопа, оцените!

Новости

Цветовая вычислительная фотография. Часть 1: Теория цвета

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.6K

Приветствую! Меня зовут Егор Ершов, я руковожу группой «Цветовая вычислительная фотография» в AIRI, а также заведую сектором репродукции и синтеза цвета ИППИ РАН. Область моих научных интересов касается способов регистрации и обработки изображений, что в той или иной степени касается любого человека, кто хоть раз пользовался камерой, монитором или проектором.

Вычислительная фотография лежит на стыке сразу нескольких дисциплин: физики, физиологии, компьютерных наук. Из‑за этого в ней ещё много сложного, но вместе с тем интересного и неизвестного. Я подготовил полноценный курс по алгоритмам вычислительной фотографии для МФТИ и ВШЭ, но мне также хотелось бы поделиться со всеми желающими его материалами в текстовом формате.

Этот курс посвящен как феномену цвета, механизмам его восприятия, исследованию зрительной системы человека, так и непосредственно алгоритмам цветовой вычислительной фотографии. Но в этой статье я бы хотел в общих чертах обрисовать проблему регистрации изображений, а также дать введение в теорию цвета, которая потребуется в дальнейших частях.

Читать далее

Прототип для металлографа: анализ включений на Python с OpenCV и PyQt

Время на прочтение3 мин
Количество просмотров1.1K

В профессии инженера-металловеда мне ежедневно приходится анализировать микроструктуру материалов и неметаллические включения. До недавнего времени я, как и многие, делал это вручную: окуляр микроскопа, шкалы, подсчёты, Excel. Утомительно и долго. На фоне постоянного потока образцов нагрузка на глаза и внимание становится ощутимой.

Коммерческие программы для металловедов решают эту проблему... почти. Они избыточны, дороги, и процентов на 90 включают функции, которыми обычный инженер не пользуется. Хотелось чего-то проще, точнее и, желательно, бесплатного. Так родился мой проект SenseOptics KANV.

Читать далее

Почему в индустрии фотокамер такой беспорядок с форматами RAW, и что говорят производители?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров11K

Когда вы настраиваете новую камеру или даже делаете фото с некоторых смартфонов, перед вами возникает выбор: JPG или RAW?

Фото в JPG изначально готово к публикации практически везде, в то время как RAW — это сырой файл с дополнительными данными, дающими широкие возможности для пост-обработки. Такая опция сохранения в RAW (и даже само обобщённое название RAW) в индустрии вроде как стандартизирована, но несмотря на это, в мире фотосъёмки единый формат RAW так и не утвердился.
Читать дальше →

Истории

Путь видео в онлайн-кинотеатрах от «стекла до стекла». Middleware — ядро, подписки, сервисы, витрина

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров685

Привет, Хабр! Снова с вами Дмитрий Новожилов — техлид онлайн-кинотеатра KION. В прошлый раз я рассказал, откуда берется контент на киносервисах и как он обрабатывается. Для этого разобрал источники данных и элемент Headend, включающий пункт приема сигнала, кодер и пакетайзер.

На предварительных этапах контент нормализуется, делится на чанки, обрабатывается DRM и попадает в «сердце видеосервиса» — Middleware. Это тот самый элемент, который управляет контентом, когда вы открываете приложение на умном телевизоре или смартфоне. Он обеспечивает логику работы витрины: когда вы заходите в сервис, показывает доступный на площадке контент. Затем вы выбираете нужный фильм и получаете его через ближайший узел CDN.

В этом посте я расскажу, какие компоненты и сервисы объединяются термином Middleware и что конкретно делает этот комплекс.

Читать далее

Всё про инференс на Sophon NPU (TPU)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.3K

В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. 

Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).

Читать далее

Прорывы в генерации изображений. Что поменялось с появлением мультимодальных моделей?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.6K

Подробно рассказываю с примерами создания инфографики, редактирования интерьеров, прототипирования сайтов и рекламных концепций, все это с помощью простых текстовых запросов

Читать далее

Топ-15 нейросетей для генерации изображений: лучшие бесплатные ИИ-инструменты в 2025 году

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров53K

ИИ стал настоящим окном возможностей как для маркетинга, так и для творчества и креатива. Нейросети для генерации изображений – новый мир для тех, кто никогда не умел рисовать, позволяя творить новые миры и персонажей без каких-либо ограничений. Именно так нам декламируют, когда представляют новые нейросети, но в реальности мы сталкиваемся с кривыми пальцами, отсутствием понимания со стороны ИИ и абсурдностью в деталях.

Читать далее

Современные форматы изображений в Discord: поддержка WebP и AVIF

Время на прочтение12 мин
Количество просмотров1.4K

В течение последнего полугода команда Discord по обслуживанию медиа-инфраструктуры модернизировала конвейер обработки изображений, добавив поддержку анимированных форматов WebP и AVIF. Теперь на платформе можно делиться анимированными картинками WebP и AVIF как в виде прикреплённых файлов, так и в виде вставок. При этом все эмодзи выдаются в виде анимированных WebP — и бесшовно отображаются на любой платформе Discord. Эти изменения были реализованы для того, чтобы повысить качество анимации и воспроизведения роликов на всех платформах. При этом одновременно резко уменьшается размер файлов, и поэтому их загрузка ускоряется!

Читать далее

Как мы оживили DPED: ИИ-проект для улучшения мобильных фото до снимков с «зеркалок»

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2K

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева.

Сегодня практически у каждого крупного производителя смартфонов есть собственные системы улучшения качества фотографий, основанные на искусственном интеллекте. Помимо этого, существует множество аналогичных открытых моделей нейросетей. Возникает вопрос: зачем тогда мы решили оживить DPED (Deep Photo Enhancement Dataset) — созданный для тех же целей проект 2017 года? В статье мы ответим на этот вопрос, займемся оживлением и протестируем нашу модель DPED на фотографиях с планшета KVADRA_T.

Читать далее

Старый конь борозды не испортит: классические методы обработки изображений все ещё актуальны

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров2K

Что такое цифровая обработка изображений? Зачем нам вообще знать про алгоритмы обработки, когда есть фотошоп и фильтры в телефоне? Или всё можно отдать нейросети и получить крутой результат? И при чём тут Julia, наконец? Будем разбираться!

Мы запускаем серию статей про обработку изображений с использованием языка Julia и вычислительной среды Engee. Задача – ответить на часто встречающиеся вопросы вроде актуальности этого направления компьютерной науки, задач, решаемых методами обработки изображений, применения и реализации стандартных и «умных» алгоритмов. 

В первой части ознакомимся с основами на примере сегментации спутникового снимка.

Читать далее

Распознавание рукописного текста некоторыми бесплатными LLM

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.8K

Пришло время добавить в телеграм-бота для распознавания текста на фото Argus распознавание рукописного текста. Бот бесплатный, значит и LLM должна быть бесплатной. Из требований доступности были выбраны представленные на OpenRouter модели, всего image -> text нашлось 18 штук.

Ниже эксперименты со всеми.

Читать далее

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.9K

Иногда надо что-то быстро оцифровать - время работы магазина с его таблички, визитную карточку, квитанцию почтового отправления. Приходится делать фотографию, которая потом теряется в куче других фотографий, и не может быть найдена по контексту.

Идея — сделать фото, перевести в текст, сразу отформатировать/обработать/перевести как надо и сохранить уже куда хочешь — в Telegram избранное, Google Keep, Google Контакты, Obsidian и т. д. И чтоб всё было быстро и удобно.

Так появился Argus — телеграм бот, в котором можно сделать фото (или кинуть ему изображение), он распознает и выведет текст, который повторно можно пропустить через обычную chat completion LLM.

Читать далее

Ближайшие события

19 марта – 28 апреля
Экспедиция «Рэйдикс»
Нижний НовгородЕкатеринбургНовосибирскВладивостокИжевскКазаньТюменьУфаИркутскЧелябинскСамараХабаровскКрасноярскОмск
24 апреля
VK Go Meetup 2025
Санкт-ПетербургОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
14 мая
LinkMeetup
Москва
5 июня
Конференция TechRec AI&HR 2025
МоскваОнлайн
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область

Метрики оценки моделей нейронных сетей для чайников

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров934

Оценка моделей нейронных сетей играет ключевую роль в выборе наилучшего алгоритма для конкретной задачи. Выбор метрики должен соответствовать целям, поскольку очевидного показателя «Точность» (accuracy) обычно недостаточно. Критерии помогают определить эффективность и корректно сравнить различные подходы.

Меня зовут Александр Агеев, я ML‑разработчик в SL Soft AI. В этой статье я расскажу про методы оценки трех задач: классификации, обнаружения объектов (детекции), сегментации.

Внимание: материал предназначен для первого погружения в тему и не учитывает многовариативность подходов в узкоспециализированных задачах, где метрики могут изменяться и усложняться.

Читать далее

Мультимодальные языковые модели: как нейросети учатся видеть и слышать

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров2.5K

Мультимодальные языковые модели представляют собой самый прогрессивный класс нейросетевых архитектур, объединяющих способность воспринимать и обрабатывать различные типы данных одновременно - текст, изображения, аудио и видео. Это похоже на то, как наш мозг интегрирует информацию из разных органов чувств, чтобы создать полную картину мира. Как сказал философ Марсель Пруст, “Настоящее открытие не в том, чтобы увидеть новые земли, а в том, чтобы иметь новые глаза”.

Читать далее

5 причин, почему лучше не использовать ИИ-арт для своей статьи

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.1K

Плох тот хабраюзер, который не мечтает написать пост. По крайней мере, так было до появления режима read&comment. Однако даже сейчас самые уважаемые люди на этом сайте — авторы, создатели контента (в идеале — качественного, но попытка тоже засчитывается).

Сегодня поговорим о том, как сделать свои посты лучше. Или, по крайней мере, как не сделать хуже.

Для тех, кто читает эту статью в далеком будущем: сейчас на дворе 2025 год, ИИ-революция проникла уже в каждый уголок интернета, однако в инфосфере уже нарастает некая усталость от этого. И даже у самых крутых достижений ML по мере эксплуатации обнаруживаются какие-нибудь неприглядные стороны. Под катом обсудим, почему ИИ-генерация изображений для статьи может быть не самой лучшей идеей.

Читать далее

Мир будущего: управление устройствами с помощью жестов

Время на прочтение13 мин
Количество просмотров1.4K

Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.

Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов.

Читать далее

Камеры трясутся, шум зашкаливает, а сравнивать нужно: как справляются алгоритмы?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров10K

Каждый день миллионы изображений, видео и аудиофайлов загружаются в интернет. Мы смотрим фильмы, слушаем музыку, листаем соцсети, даже не задумываясь о том, какие алгоритмы стоят за тем, чтобы контент отображался корректно и не повторялся. Но что, если вам нужно сравнивать медиаконтент автоматически? Как понять, одинаковые ли две фотографии, если одна немного темнее? Как сравнить два видео, если они сняты под разными углами? А что делать, если вам нужно найти дубликат аудиофайла, но на одной записи есть шум?

Если эти вопросы вам интересны – добро пожаловать в мир сравнения медиаконтента! Сегодня мы разберем, какие бывают методы, их плюсы и минусы, а главное – расскажем о наших экспериментах, где мы проверили, какие алгоритмы лучше справляются с реальными проблемами.

Читать далее

Биометрическая хиромантия: гиперспектральная визуализация сосудов ладони для идентификации личности

Время на прочтение14 мин
Количество просмотров586


Отпечатки пальцев в качестве инструмента идентификации человека начали использоваться еще в середине 19 века. С тех времен многое изменилось, и спектр биометрических параметров, используемых для защиты данных и устройств от несанкционированного доступа, расширился. Однако и отпечатки, и сетчатка глаза, и лицо являются видимыми физическими характеристиками, что делает их менее надежными и более уязвимыми к подделыванию. Ученые из Университета Осаки (Япония) разработали систему биометрической защиты, использующую гиперспектральную съемку. В чем суть такой съемки, какую роль в этом играют вены, и насколько данный метод идентификации надежен? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →

Интерактивные метки на изображении JS

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.8K

Всем привет, хочу поделиться с вами скриптом для создания интерактивных изображений с метками для сайтов.

Данный скрипт позволяет создавать адаптивные изображения с интерактивными метками. Скрипт по умолчанию поддерживает до 50 меток на изображении.

Читать далее
1
23 ...