Все потоки

Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

@avsolovyev 6 дек в 03:21

От чертежей к реальности: как 3D-машинное зрение на ToF-камере научило робота брать двери с паллеты

Простой

7 мин

7.8K

Промышленное программирование * Обработка изображений * РобототехникаИскусственный интеллект

Кейс

На производстве мебели рутинная операция — разгрузка паллет с дверными полотнами перед ламинацией. Люди устают, допускают ошибки, а неаккуратная работа ведёт к сколам и убыткам. Мы решили автоматизировать процесс с помощью робота‑манипулятора. Главная сложность: научить машину точно находить и захватывать верхнюю дверь в стопке — даже если полотна разные по форме и размеру. В статье расскажем, как справились с задачей, используя всего одну ToF‑камеру и гибридный подход: сочетание 2D‑нейросети и 3D‑обработки данных. Узнаете, почему выбрали именно ToF, как преобразуем пиксели в миллиметры и как робот достигает точности в 1–2 мм при захвате.

Читать далее

+10

@ph_piter 5 дек в 10:56

Зрительно-языковые модели читают хуже (или лучше), чем вам кажется

8 мин

6.3K

Блог компании Издательский дом «Питер»Машинное обучение * Обработка изображений * Искусственный интеллект

Перевод

Знакомство с бенчмарком ReadBench, позволяющим без труда оценить, насколько хорошо ваши любимые зрительно-языковые модели читают изображения с большими объёмами текста.

В этой статье будет рассказано о ReadBench. ReadBench — это очень простой бенчмарк, который мы разработали для оценки важного, но недооценённого аспекта мультимодального ИИ: насколько хорошо моделям удаётся, собственно, читать текст на картинках, рассуждать о нём и извлекать информацию из таких изображений, на которых много текста.

Читать далее

+7

@Raicon 3 дек в 15:12

Nano Banana 2 vs ChatGPT: сравниваем эволюцию в генерации AI изображений за полгода

7 мин

12K

Искусственный интеллектОбработка изображений * Будущее здесьЛайфхаки для гиковДизайн

Сравниваю, что изменилось в генерации изображений с выходом Nano Banana 2

Полгода назад OpenAI выкатил прорывную генеративную модель. Но она страдала от 5 больших проблем: консистентность, кириллица, сложные сцены, мелкие доработки и кадрирование.

С тех пор вышли два релиза, которые наконец-то решают эти проблемы: Nano Banana в августе и Nano Banana 2 в ноябре.

Сравниваю на реальных примерах — что изменилось и что теперь можно пускать в продакшен ⤵️

Читать 🤖 vs 🍌

+17

@vadim-chern 1 дек в 13:51

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

Средний

10 мин

6.7K

Блог компании TevianИскусственный интеллектОбработка изображений * Машинное обучение *

Привет, Хабр! Мы – Вадим Чернышев и Михаил Никитин из команды Tevian. Сегодня, в рамках задачи Face Antispoofing, мы разберем, как один «хороший и легкий», но бездумно добавленный домен может убить обобщающую способность вашей нейросети, и что с этим можно сделать.

Читать далее

+4

@void0null 28 ноя в 12:23

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

Сложный

9 мин

11K

Блог компании СберБлог компании SberDevicesМашинное обучение * Natural Language Processing * Обработка изображений *

Обзор

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

Читать далее

+28

@MrRjxrby 28 ноя в 08:06

Сравнение графических нейросетей: Nano Banana, Seedream v4 и Reve

Простой

6 мин

8K

Блог компании BotHubИскусственный интеллектБудущее здесьОбработка изображений * Контент и копирайтинг *

Обзор

Рынок графических нейросетей расширяется, причём их возможности растут в геометрической прогрессии. Совсем недавно появилась новая версия Nano Banana, чуть раньше - Seedream v4 и Reve.

Я подумал: почему бы не сравнить эти три модели? Уровни генерации у них примерно одинаковы, возможно, получится что-нибудь любопытное.

Итак, сегодня мы рассмотрим: Nano Banana (берём первую версию, вторая была бы слегка не равноценна по отношению к конкурентам), Seedream v4 и Reve. Постараемся осветить некоторые интересные возможности, если они имеются, а также попробуем определить, какая из моделей справляется лучше с поставленными задачами.

Устраивайтесь поудобнее - мой рассказ начинается.

Читать далее

+4

@whoisfedos 26 ноя в 11:48

Почему ComfyUI — это просто: развеиваем миф о недоступности нодового интерфейса

Простой

4 мин

6.8K

Блог компании Cloud.ruИскусственный интеллектОбработка изображений * Дизайн

Обзор

Привет! Меня зовут Андрей, я фронтенд-разработчик в Cloud.ru, веду блог о фронтенде и AI в Telegram. За время работы с ComfyUI убедился: страх перед его сложностью — миф, который мешает раскрыть настоящую силу этого инструмента.

ComfyUI кажется сложным только на первый взгляд. Если потратить несколько дней своего времени и углубиться, окажется, что это один из лучших способов для генерации изображений с нейросетями. В этой статье я покажу, почему освоить ComfyUI проще, чем кажется, и как он облегчает, а не усложняет жизнь.

Статья будет полезна всем, кто интересуется генерацией изображений с помощью AI: от новичков до опытных пользователей, которые не решаются переходить на новый интерфейс, где вместо одной кнопки приходится работать с нодами, словно собирая Лего.

Читать статью

+1

@engine9 25 ноя в 07:01

Снимаю на советские фотообъективы и радуюсь

Простой

7 мин

20K

Блог компании RUVDS.comФототехникаОбработка изображений *

Мнение

Я постараюсь рассказать вам о своём опыте фотосъёмки на некоторые советские объективы. Без излишнего технического душнильства и не уходя в субъективные описания изображений, основанные на эмоциях. Будет много фотографий с примерами, но при этом дам ссылки на подробную техническую информацию про каждый объектив. И поделюсь некоторыми советами.

Читать далее

+104

@deniselykov 24 ноя в 10:15

Как мы учили кассу самообслуживания в столовой отличать борщ от свекольника

Простой

9 мин

8.6K

Искусственный интеллектИнтернет вещейМашинное обучение * Обработка изображений *

Из песочницы

Хочу рассказать о том, как мы разрабатывали и внедряли кассы самообслуживания для столовых и фудкортов. Под катом:

Почему распознавать еду сложно (но можно). Где мы ожидали получить проблемы, и где они были на самом деле. Почему не нужно помогать кассиру делать свою работу. Сколько котлет нужно сфоткать для уверенного распознавания. Бунт кассиров, бессмысленный и беспощадный. Какие проблемы создает товароведу касса самообслуживания.

Читать далее

+15

@ilya_mk 24 ноя в 03:50

Гайд по нейро-рекламе: Как ИИ спасает даже самые безнадежные объявления на Авито

Простой

3 мин

6.7K

Искусственный интеллектКонтент и копирайтинг * Медийная реклама * Обработка изображений *

Туториал

Авито — это не просто доска объявлений. Это настоящий музей народного творчества, странных ракурсов и загадочных предметов. Мы все видели эти фото: размытый диван в темноте, «селфи» чайника в зеркале или ковер, который видел еще Брежнева.

Но что, если бы эти продавцы имели доступ к технологиям будущего? 🤔

😏 Мы решили провести эксперимент. Взяли самые колоритные (и случайные!) объявления и попросили Искусственный Интеллект переосмыслить их визуал. Никакого сложного фотошопа, только магия нейросетей.

⚠️ Дисклеймер: Всё сделано исключительно ради юмора и науки. Любые совпадения случайны. Ни одно объявление не пострадало.

#вайбмаркетинг

Читать далее

-2

@Ordevoir 23 ноя в 07:16

Дискретные дифференциальные операторы

Средний

4 мин

8.9K

Алгоритмы * Математика * Обработка изображений * ФизикаМашинное обучение *

Из песочницы

Дискретные дифференциальные операторы лежат в основе математического моделирования и обработки данных. В частности, они используются при обработке временных рядов и изображений, в компьютерной графике и симуляциях физических процессов и т.д. В статье последовательно разворачивается дискретизация дифференциальных операторов: производные, градиент, дивергенция и лапласиан. В каждом случае приводится ядро для вычисления при помощи кросс-корреляции. В статье также кратко раскрывается суть кросс-корреляции. Данная операция, помимо всего прочего, лежит в основе свёрточных нейронных сетей. Для демонстрации практического применения приводится моделирование диффузии клеточным автоматом на основе классического уравнения диффузии.

Читать далее

+6

@alina_nurimanova 21 ноя в 15:16

Чистая правда: как компьютерное зрение помогает делать мир чище

Простой

6 мин

8.4K

Python * Обработка изображений * ЭкологияМашинное обучение * Искусственный интеллект

Из песочницы

Компьютерное зрение развивается стремительно: задачи, которые ещё недавно требовали собственных датасетов и долгого обучения моделей, теперь решаются готовыми инструментами.

Всем привет! Меня зовут Алина, я инженер‑исследователь в Центре искусственного интеллекта СФУ. В этой статье расскажу, как мы применяем методы компьютерного зрения для анализа фотографий уборок в проекте «Чистые игры», как подошли к задаче автоматической оценки качества уборок и какие технические решения легли в основу MVP. В конце поделюсь выводами и тем, что удалось сделать, а что ещё предстоит улучшить.

Читать далее

+7

@Neurosonya 21 ноя в 13:55

Nano Banana Pro — почему это прорывная модель генерации и редактирования изображений? Проверяем на реальных примерах

Простой

5 мин

22K

Машинное обучение * Обработка изображений * Графический дизайн * Визуализация данных * Google Cloud Platform *

Обзор

20 ноября состоялся официальный запуск Nano Banana Pro (Gemini-3-Pro-Image-Preview) с мощной базой Gemini 3 Pro. Это уже более взрослый инструмент для дизайна, инфографики и контента. Мы с вами не только рассмотрим нововведения, почему именно модель стала прорывной, но и на реальных примерах наглядно в этом убедимся.

Читать далее

+21

@createcolor 20 ноя в 13:54

Конвейеры формирования изображений. Часть 1: Регистрация света и дебайеринг

Средний

12 мин

6.5K

Блог компании AIRIФизикаФототехникаОбработка изображений * Алгоритмы *

FAQ

Приветствую! Я, Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН, продолжаю выкладывать статьи по мотивам своих лекций по вычислительной фотографии. Наша глобальная задача, напомню, разобраться, как сделать так, чтобы камера сотового телефона достаточно хорошо смогла уловить цвета, а монитор или принтер — их передать.

Прошлые три текста были посвящены общей теории цвета, описанию зрительной системы, а также стандартам и цветовым пространствам (их можно прочесть тут, тут и тут). Теперь же я расскажу непосредственно о конвейерах (или пайплайнах) формирования изображения — какая именно магия происходит внутри сенсоров, начиная с момента нажатия на кнопку затвора и заканчивая сохранением изображения в галерее.

Приятного чтения!

Читать далее

+9

@aak204 16 ноя в 06:31

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Средний

6 мин

16K

Искусственный интеллектМашинное обучение * Обработка изображений *

Из песочницы

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.

Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

Читать далее

+35

@Tehnologika 13 ноя в 09:18

LLM vs. почерк: практическое сравнение GPT-5, Gemini и Claude в задачах OCR

Простой

8 мин

8K

Обработка изображений * Машинное обучение * Искусственный интеллектNatural Language Processing * Исследования и прогнозы в IT *

Аналитика

Распознавание рукописного текста — задача, которая остаётся болезненной даже в 2025 году. Именно это не позволяет оцифровать многие архивы и документы, а также является камнем преткновения в разной бизнес деятельности.

Производители заявляют, что модели вроде GPT-5, Gemini 2.5 Pro и Claude Sonnet 4.5 способны не просто распознать почерк, но и догадаться, что автор имел в виду: исправить пунктуацию, восстановить сокращения, даже понять, что стоит за пометками на полях.

Звучит красиво. Но работает ли это на реальных документах? Чтобы ответить, мы провели исследование и сравнили, как три топ-LLM обрабатывают рукописные и смешанные документы — с точки зрения точности, структурной консистентности и понимания контекста.

Читать далее

+8

@PatientZero 13 ноя в 08:27

Сила оттенков серого: компьютерное зрение с нуля

Простой

16 мин

16K

Обработка изображений * Машинное обучение * Программирование * C * Искусственный интеллект

Перевод

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO. Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды.

Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли?

Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

Читать далее

+61

@hukenovs 13 ноя в 07:40

EMNLP-2025: обзор исследований жестовых языков

Средний

9 мин

5.1K

Блог компании СберИскусственный интеллектКонференцииОбработка изображений * Машинное обучение *

Всем привет! В этом году в китайском городе Суджоу прошла юбилейная тридцатая конференция EMNLP (Empirical Methods in Natural Language Processing). Это одна из ведущих международных конференций по обработке естественного языка (NLP), проводимая под эгидой ассоциации компьютерной лингвистики ACL (Association for Computational Linguistics).

Впервые конференция EMNLP прошла в 1996 году. Сегодня она посвящена эмпирическим методам, то есть моделям, основанным на данных, статистике и машинном обучении. А тогда конференция называлась Workshop on Very Large Corpora и представляла собой небольшое мероприятие ACL, посвящённое использованию корпусов текстов для обучения моделей. Тогда еще не было никаких трансформеров и уже привычных нам больших языковых моделей (LLM) и уж тем более мультимодальности, агентов и прочих хайповых ИИ-направлений. Это была эпоха статистического NLP, когда всё строилось вокруг частот, вероятностей и корпусов текстов, а в ходу были N-граммные языковые модели и скрытые Марковские модели.

Читать далее

+14

@matshel 6 ноя в 15:26

Забудьте про точность. Почему для трекинга нужны десятки метрик

Средний

11 мин

8.1K

Блог компании TevianМашинное обучение * Обработка изображений *

Обзор

Привет, Хабр! С вами Матвей Шелухан и Тимур Мамедов из команды распознавания силуэтов в Tevian. Сегодня поговорим про метрики в задаче трекинга объектов, которая по праву считается одной из самых сложных в компьютерном зрении. Когда мы только приступали к её изучению, то принялись разбирать, какие есть датасеты, бейзлайны и метрики для оценки качества построенных траекторий. Будем честны: последнее было одним из самых сложных. Во-первых, метрик в рассматриваемой задаче довольно много, и ни одну из них не встретишь в стандартном курсе по машинному обучению. Во-вторых, в каждую из них порой сложно въехать, пока не придумаешь конкретные примеры (да, поэтому в этой статье будет много примеров). И, наконец, практически каждой посвящена отдельная научная статья, поэтому всю информацию приходилось собирать по крупицам. Кроме того, в процессе изучения литературы мы поняли, что универсальной метрики в данной задаче нет, поэтому для оценки качества алгоритмов необходимо смотреть на целый комплекс показателей. Данная статья будет полезна тем, кто занимается (либо просто интересуется) задачей трекинга и хочет понять, как устроены метрики оценки качества алгоритмов её решения. Как вы уже могли догадаться, мы за вас собрали всю нужную информацию в одну статью. Поехали!

Читать далее

+11

@Madjica 6 ноя в 08:09

Для чего дизайнерам нейросети: сравниваем инструменты и создаём дизайн карт

6 мин

6.4K

Блог компании ЮMoneyДизайнИскусственный интеллектОбработка изображений *

Кейс

Привет! Мы Наташа и Ксюша, работаем коммуникационными дизайнерами в ЮMoney. С прошлого года начали активно использовать для рабочих задач нейросети. В статье мы расскажем, почему предпочитаем сгенерированные изображения стоковым и сколько нейронок нужно для создания одной иллюстрации. А ещё поделимся реальными кейсами использования AI-инструментов.

Читать далее

+4

1

2 3 ...