Обновить
80.19

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Почему файлы стали меньше: форматы фото и видео (JPEG, HEIC, AV1)

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров6.9K

Форматы изображений и видео вроде JPEG, HEIC и AV1 давно стали частью нашей повседневности. Мы снимаем на смартфон, пересылаем фото в мессенджерах, заливаем видео в облако — и редко задумываемся, почему одинаковый кадр может весить в три раза меньше, но выглядеть так же.

Рассмотрим, как современные кодеки экономят место, почему файлы стали компактнее и зачем это вообще понадобилось. Детали под катом.

Читать далее

Новости

Фильтры и эффекты для цифровой фотографии

Время на прочтение3 мин
Количество просмотров1.2K

Цифровая фотография уже стала привычным явлением в нашей жизни. Цифровые камеры прочно заняли сове место на рынке, потеснив плёночные фотоаппараты практически повсеместно. Преимущества цифровой фотографии хорошо известны: это оперативность, удобство, возможность сразу же оценить результат и при необходимости сделать новый снимок. Не надо тратиться на покупку плёнок, проявку, а также на печать неудавшихся снимков. Но одно из главных преимуществ цифровой фотографии — возможность самостоятельной обработки и редактирования фотографии на компьютере. Здесь можно исправить очень многие недостатки кадра, добавить художественные эффекты, сделать коллаж из фотографий — вариантов огромное множество.

Читать далее

Цветовая вычислительная фотография. Часть 3: За границами стандарта CIE 1931

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров785

Всем привет! Представляю вашему вниманию третью часть цикла статей по мотивам лекций курса по алгоритмам вычислительной фотографии, которые я, Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН, читаю для студентов МФТИ и ВШЭ.

Мы начали с того, что попытались ответить на вопрос о том, как сделать так, чтобы снимок нашей камеры в точности уловил всю красоту пейзажа, а также как воспроизвести эту красоту на экране, проекторе или фотобумаге. На этом пути мы уже обсудили первую математическую модель формирования изображения и стандарты CIE 1931 года

Сегодня мы поговорим о явлениях и эффектах, важных для цветовосприятия, но не учитываемых описанными моделями. Мы посмотрим на попытки инженеров хоть как‑то их унифицировать, и в целом окинем взором всё многообразие современных цветовых стандартов, уделив особое внимание sRGB.

Приятного чтения!

Читать далее

Морфологические преобразования и гамма коррекция на FPGA. Публикую проект Arduino стереокамеры на github

Время на прочтение5 мин
Количество просмотров3.7K

Продолжаю дорабатывать прошивку своей Arduino стерео-камеры. Следующий этап разработки — аппаратная реализация морфологических преобразований и блока гамма-коррекции. Исходники проекта теперь доступны на github

Читать далее

Seedream v4 — платный конкурент Nano Banana. Зачем он тогда нужен? И как использовать бесплатно + Гайды

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров4.3K

Да, Seedream v4 от ByteDance - доступен только платно. Тогда зачем он нужен, если есть Nano Banana? Разбираемся!

Читать далее

Kandinsky Image научился генерировать изображения с надписями на русском

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров7.4K

Мир никогда не станет прежним! Теперь можно генерировать котов с добавлением смешных надписей на русском, а разве не ради этого мы создавали искусственный интеллект?

Сегодня мы выпустили обновление модели генерации изображений Kandinsky. Модель научилась генерировать надписи на кириллице. Не просто текст поверх изображения, а органично вписанный: начерченный на стене, выпиленный из дерева, отлитый из металла, вышитый, связанный или выложенный лепестками роз.

Читать далее

Пайплайн цифрового фотографа на LINUX

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров11K

Хочу поделиться своим опытом выстраивания конвейера (pipeline) обработки и каталогизации фотографий. Постарался сделать повествование как можно увлекательнее, заостряя внимание на принципиальной сути, вместо пошагового руководства.

Читать далее

Видеоаналитика в реальном времени: что делать, если нет GPU

Время на прочтение16 мин
Количество просмотров2.1K

Когда у вас несколько десятков моделей компьютерного зрения, тысячи камер на заводах по всей стране и только несколько секунд, чтобы успеть оповестить оператора — важна каждая миллисекунда.

Но что делать, если вы работаете не в IT-гиганте с дата-центрами и парком GPU, а в промышленной компании с изолированными сетями, ограниченными ресурсами и жёсткими требованиями к отказоустойчивости?
Рассказываю:

— почему разработка видеоаналитики в промышленности отличается от БигТеха;

— какие ограничения приходится учитывать: отсутствие GPU, изолированные сети и жёсткие требования к отказоустойчивости;

— как удалось оптимизировать пайплайн и сохранить стабильность его работы;

— какие локальные оптимизации реально работают (а какие дают минимальный прирост);

— как архитектурные изменения увеличили производительность в 28 раз;

— с какими вызовами команда сталкивается сегодня и что предстоит решать дальше.

Идеи из этой статьи будут полезны при разработке как продуктов видеоаналитики, так и других систем со множеством источников данных и обработчиков.

Подробный кейс с деталями

Неужели нам правда нужно знать, как всё работает под капотом?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3K

Привет! На связи снова я — Иван Башарин, Руководитель лаборатории ИИ, VESNA.

В прошлом тексте я обмолвился о том, что стараюсь выполнять задачи руками даже тогда, когда легко могу это сделать через ИИ.

И решил развить эту тему и написать еще один текст. А именно найти ответ на вопрос: почему нам хочется во всем разобраться самостоятельно. Будь то химическая реакция или сложный низкоуровневый язык.

Но раз я специалист по ИИ и по написанию кода, а не по мозгу, буду говорить только о своих гипотезах и ощущениях. А еще иногда подкреплять их мнением моих знакомых.

Читать далее

Интеграция компьютерного зрения и многопараметрического анализа в оценку симптоматики шизофрении

Уровень сложностиСложный
Время на прочтение27 мин
Количество просмотров771

Богданов Я.В.

ГБУЗ Кузбасская клиническая психиатрическая больница, Кемерово, Россия

Резюме

Данное исследование посвящено применению методов компьютерного зрения и многопараметрического анализа для оценки симптоматики шизофрении. В ходе работы был проведен количественный анализ графической и текстовой продукции пациентов с шизофренией и здоровых испытуемых. Исследование включало сравнение результатов с оценками по шкале PANSS и сопоставление данных пациентов со здоровым контролем. Результаты показали значимые различия между группами в выполнении графических и текстовых заданий, а также выявили корреляции между характеристиками выполнения заданий и выраженностью симптомов шизофрении. Особенно информативными оказались задания на рисование лиц, демонстрирующие наиболее сильные корреляции с негативными симптомами. Полученные данные могут быть использованы для разработки новых методов оценки и мониторинга состояния пациентов с шизофренией.

Ключевые слова:   Шизофрения, Компьютерное зрение, Многопараметрический анализ,  PANSS (Шкала позитивных и негативных синдромов), Количественный анализ, Корреляционный анализ, Рисунок лица, Несуществующее животное.

Информация об авторе:

Богданов Ярослав Вячеславович – e-mail: yarik@yabogdanov.ru; https://orcid.org/0009-0002-3880-7152

Как цитировать: Богданов Я.В., Интеграция компьютерного зрения и многопараметрического анализа в оценку симптоматики шизофрении: количественный анализ графической и текстовой продукции, корреляции с шкалой PANSS и сравнение со здоровым контролем

Читать далее

Пять ошибок при тестировании времени распознавания документов, которые отравляют жизнь нашим QA-инженерам

Время на прочтение5 мин
Количество просмотров964

Продукты класса ContentCapture работают с большими объемами документов, и для бизнеса критична скорость их обработки. Но как убедиться, что система не замедлится после выхода очередного релиза? Здесь на помощь приходит тестирование: QA-инженеры регулярно проводят замеры скорости распознавания — например, при обновлении технологии или запуском нового проекта.

Казалось бы, все просто: автоматизируешь тесты, замеряешь время — и получаешь объективные метрики для оптимизации. Но на практике даже идеальная автоматизация не спасает от неожиданных сценариев.

В этой статье — пять коварных ошибок, которые чаще всего искажают результаты тестов. Некоторые настолько распространены, что мы научились распознавать их еще до того, как клиент закончит жаловаться.

Читать далее

Kandinsky 5.0 Video Lite — лучший open-source генератор видео высокого качества в классе лёгких моделей

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров10K

Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky 5. Модель работает в разрешении 768×512 и, при небольшом размере всего в 2 млрд параметров, демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых state-of-the-art решений.

Ключевой акцент сделан на эффективности: модель компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до предобучения и тонкой настройки. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости.

В этом посте мы подробно разберём устройство Kandinsky 5.0 Video Lite и её возможности.

Читать далее

Как JPEG стал стандартом изображений в интернете

Время на прочтение11 мин
Количество просмотров5.4K

JPEG — формат-динозавр. Ему уже за тридцать, но он по-прежнему живее всех живых: даже в 2025 году изображения в JPEG встречаются повсюду.

В конце 80-х инженерам нужно было как-то справляться с растущими размерами файлов. Интернет был медленным, а фотографии — всё тяжелее. Тогда и придумали решение: сжатие с потерями, основанное на дискретном косинусном преобразовании (DCT). Если по-простому, DCT — это способ выкинуть из картинки то, чего наш глаз почти не заметит, и оставить главное. В итоге получаем файл в разы меньше, а картинка всё ещё выглядит прилично.

Почему именно этот подход победил конкурентов, кто его протолкнул и как JPEG стал «языком» интернета для изображений — обо всём этом дальше.

Читать далее

Ближайшие события

Использование моделирования решает проблемы формирования изображений космических объектов

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров790

Коллектив ученых из МФТИ разработал компьютерную программу, которая позволяет получать изображения космических объектов на основе данных телескопов с высокой точностью. Для этого им потребовалось решить ряд задач компьютерного моделирования. Работа опубликована в Journal of Physics: Conference Series.

Космический мониторинг представляет собой систематический подход к наблюдению и отслеживанию объектов, находящихся в космосе. Сюда относятся как естественные тела — планеты, звезды, галактики, так и созданные человеком — спутники, ракеты и даже мусор, оставшийся после запуска космических аппаратов.

Авторы исследования решили сосредоточиться на процессах формирования изображений на фотодетекторах, исследуя, как именно эта информация может быть собрана в различных условиях наблюдений. Эти процессы включают в себя захват и интерпретацию визуальной информации о небесных телах. Чтобы воспроизвести эти наблюдения и создать изображения, учёные разработали математическую модель, учитывающую характеристики оптических устройств и специфические условия окружающей среды. 

Читать далее

Как генерировать изображения на Rust в 100 строчек кода с Yandex ART?

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.4K

Если в вашем Rust-проекте возникает необходимость генерировать изображения, то расскажите зачем) А о том, как это сделать — в этой статье. В качестве источника самих картинок я выбрал Yandex ART из-за того, что с ним не нужно возиться со всякими трехбуквенными сервисами, реклама которых в России запрещена.

Читать далее

Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

Время на прочтение5 мин
Количество просмотров6.1K

Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи.

Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала.

В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.

Читать далее

Как убрать жёлтый оттенок у картинок, сгенерированных в ChatGPT

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров6K

Открытый в конце ноября 2022 года ChatGPT вскоре перестал быть сервисом только для создания текстов. Ещё 19 октября 2023 в платные тарифы добавили DALL·E 3. 8 августа 2024 года OpenAI расщедрилась: отныне можно было создавать до двух картинок в сутки на бесплатном тарифе ChatGPT. Важно, что это был просто союз с большой языковой моделью: БЯМ переводит нестройную человеческую просьбу в детальный бриф промпта для графического бэкэнда — генеративной нейросети на диффузионных декодерах.

25 марта компания OpenAI объявила, что отныне модель GPT-4o может генерировать картинки. БЯМ способна не только создать новое изображение с нуля по текстовому описанию, но и принять на входе другую картинку с текстовым промптом и сгенерировать что-то на этой основе. Теперь картинки рисовала не чистая диффузия, а авторегрессионный трансформер в связке с мощным декодером, качество поднялось, практическая польза резко выросла.

Почти сразу обнаружился огромный недостаток картинок от GPT-4o — лёгкий коричневый оттенок любых результатов, которому в разной степени были подвержены все результаты. Хотя проблема решается тривиально, сегодня существует целая экосистема платного софта для устранения этого эффекта.

Читать далее

К чему нас приведет ИИ: закат цивилизации или новый рассвет

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.9K

Привет! Я — Иван Башарин, Руководитель лаборатории ИИ и архитектор решений в VESNA.

Честно признаюсь, мне немного страшно из-за ИИ. Но не переживайте, это не очередная пугалка без самокритики, дочитайте до конца.

Читать далее

Революция в генерации изображений открывает новые подходы к созданию реалистичных картинок с помощью нейронных сетей

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров7.2K

Команда российских ученых, работающих в МФТИ, Иннополисе и Сколково, совершила научный прорыв в области генеративного моделирования — создании новых изображений, похожих на настоящие фотографии или рисунки. Они разработали новый метод, который значительно ускоряет и упрощает процесс генерации в теории и на практике. Их результаты опубликованы в материалах конференции NeurIPS 2024.

 В ранних моделях, основанных на сопоставлении потоков, «река» часто имела извилистые русла, а «путешествие» частиц было долгим и сложным. Это приводило к замедлению процесса генерации новых данных. Поэтому ученые искали способы сделать траектории потока максимально прямыми.

Существующие подходы к выпрямлению траекторий имели свои недостатки. Некоторые методы были итеративными, то есть многократно повторяли процесс улучшения «прямоты», накапливая при этом ошибки. Другие методы основывались на упрощенных приближениях, которые не гарантировали нужного результата.

Новый метод оптимального сопоставления потоков, представленный на конференции NeurIPS 2024, решает эти проблемы. 

Читать далее

Nano Banana: редактирование изображений через нейросеть

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров15K

Доброго времени суток, «Хабр»!

Не так давно компания Google представила обновлённую модель для работы с визуальным контентом. Nano Banana уже получила в сети громкий титул убийцы Photoshop, поскольку не только создает картинки с нуля, но и редактирует: меняет стиль одежды, перекрашивает стены, удаляет лишние объекты и не только.

В сегодняшней статье мы подробно рассмотрим Nano Banana, протестируем эту модель, а также я со своей, далеко не авторитетной точки зрения, отвечу на вопрос: фарс или годнота предстала перед нами?

Принимайте устойчивое сидячее или лежачее положение — как вам удобнее, а я приступаю к своему рассказу.

Читать далее
1
23 ...

Вклад авторов