Обработка изображений *

Работаем с фото и видео

117,73

Рейтинг

СтатьиПостыНовостиАвторыКомпании

sokolovps 2 ноя 2025 в 07:48

Как началась патентная гонка за технологиями дипфейков

Простой

6 мин

10K

Блог компании Online patentИнформационная безопасность * Патентование * Обработка изображений * Искусственный интеллект

Обзор

Само слово «дипфейк» (deepfake) впервые появилось в 2017 году на платформе Reddit. Однако технологическая основа была заложена еще в 2014 году с изобретением генеративно-состязательных сетей (GANs) Яном Гудфеллоу.

Сначала дипфейки использовались для создания юмористического контента, но их потенциал для мошенничества, дезинформации и кибератак запустил ответную волну инноваций. Началась настоящая гонка по разработке технологий распознавания дипфейков. Об этом и не только — в нашем материале.

Coppermine 29 окт 2025 в 16:45

Pimp my RAM или превращаем оперативную память в фотографическую

Простой

12 мин

25K

Схемотехника * ФототехникаDIY или Сделай самОбработка изображений * Arduino *

Кейс

По итогам 2023 года ролики о старых цифровых камерах набрали суммарно более 1 миллиарда просмотров в TikTok. В свою очередь на YouTube блогеры актино обозревают цифромыльницы с призывом приобщиться к тренду. На фоне становления Y2K эстетики и смещения интересов в области фотографии в прошлое я предлагаю заглянуть немного подальше и посмотреть, как всё начиналось.

Если вам интересно, как связаны между собой зарождение цифровой эпохи в фотографии, странная самоделка, и причём здесь вынесенная в название оперативная память – добро пожаловать под кат!

+60

konstantin_kozhin 29 окт 2025 в 09:05

SmileFace. Когда нейросеть улыбается тебе в ответ

Средний

3 мин

7.5K

Python * Обработка изображений * Веб-разработка * Open source * Машинное обучение *

Кейс

SmileFace — игра, в которой нейросеть угадывает эмоции

Мы сделали интерактивный стенд: камера, смайлики и нейросеть, которая пытается распознать, что вы чувствуете. В статье — как это работает, с какими трудностями столкнулись и как запустить игру у себя.

Улыбнуться ИИ

konstantin_kozhin 28 окт 2025 в 20:08

«Манускрипт. Распознать нельзя забыть: как мы научили нейросети читать рукописи XIX века»

Средний

6 мин

22K

Python * Обработка изображений * Машинное обучение * Natural Language Processing * Open source *

Из песочницы

Manuscript OCR — открытая нейросеть для чтения рукописей XIX века

Мы обучили свою OCR-модель распознавать дореформенную кириллицу, нестандартные почерки и сложные сканы. Всё — на собственных данных, с нуля. В статье — как мы это сделали и ссылки на репозиторий с кодом.

Открыть рукопись

+27

kiselevd 27 окт 2025 в 12:54

Краткая история машинного зрения: как инженеры научили компьютер переводить изображения из 2D в 3D

Простой

8 мин

10K

Блог компании Online patent3D-графика * История ITОбработка изображений * Машинное обучение *

Ретроспектива

Еще на заре создания машинного зрения возникло желание превратить изображение на фотографии из плоского двумерного в объемное трехмерное, тем более что для классической фотографии на пленке, пластике или бумаге уже давно были изобретены стереоскопы и демонстрировались стереофильмы.

Пионером в этой области стал инженер-электронщик Лоуренс (Ларри) Робертс из Лаборатории Линкольна Массачусетского технологического института. Потом он перешел на работу в Агентство перспективных оборонных исследовательских проектов МО США, где стал руководителем программы ARPANET и ныне входит в почетный список «пионеров Интернета». Но в его альма-матер, MIT, Ларри Робертса упрямо называют «отцом компьютерного зрения», потому что именно у них он в июне 1963 года защитил диссертацию на степень PhD по теме «Машинное восприятие трёхмерных тел».

ContentAI_Team 22 окт 2025 в 12:42

VLM vs IDP (хайп vs конвейер): кто выигрывает в гонке за точностью и эффективностью

7 мин

7.4K

Блог компании Content AIИскусственный интеллектОбработка изображений *

Еще десять лет назад автоматизация обработки документов опиралась на OCR и жесткие шаблоны. Сегодня в этой сфере все активнее заявляют о себе VLM — технологии, способные понимать контекст и быстро адаптироваться к новым задачам. Но меняют ли они правила игры полностью или лишь дополняют существующие?

Мы провели исследование и выяснили, что правила изменились, но говорить о полном забвении классических IDP-решений рано. Более того, будущее будет за гибридом, который сочетает эффективность IDP с новыми возможностями VLM.

verasobol 21 окт 2025 в 10:53

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Сложный

10 мин

7.5K

Блог компании AIRIМашинное обучение * Алгоритмы * Обработка изображений * Искусственный интеллект

Кейс

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала!

Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting. Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке.

Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим).

Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

+10

tac 21 окт 2025 в 03:40

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов. Часть 2

Средний

6 мин

4.1K

Машинное обучение * Алгоритмы * Обработка изображений *

Аналитика

Recovery Mode

Предисловие. Опубликовав первую часть понял, что само обучение перцептрона мало кого интересует, пока не будет экспериментальных результатов. И это разрешило мою дилемму о том, как сократить изложение для хабра. Мы пропустим разделы с объяснением архитектуры перцептрона TL&NL и начнем сразу с 4 раздела моей статьи.

4. Точность прогнозирования

В предыдущих разделах, мы стремились уменьшить число признаков (А - элементов), требуемых для решения задачи. И это понятно, т.к. обработка меньшего числа признаков требует меньше вычислительных затрат. Но выделяя только минимальное число признаков (и соответствующих A-элементов), и обучаясь только на части всех возможных примеров, мы рискуем построить слишком грубую модель. Её будет достаточно для решения задачи на обучающем множестве, но она будет плохо предсказывать. Представьте, что мы аппроксимируем окружность, и примеры нам показывают, что это многоугольник и во время прогнозирования мы исходим из того, на сколько углов мы обучили свою сеть. Поэтому, задача исследования в этом разделе состоит не в минимизации А-элементов, а в нахождении такого их количества, которое стабилизирует модель обобщения, которую строит перцептрон. Что означает стабилизация станет ясно из последующего изложения.

Для анализа точности прогнозирования будем использовать классические тесты MNIST по распознаванию рукописных цифр и MNIST Fashion по распознаванию пиктографических изображений одежды.

4.1. О методологии экспериментов

Отсутствие пред- и постобработки. Это не всегда очевидно, и различные исследователи часто явно или не явно используют некоторую предобработку обучающей и тестовой выборки. Мы должны строго разграничить обучающую выборку от тестовой, так, как например в результате некой нормализации происходит “подсказки от экспериментатора”, что не допустимо. Например, используя некие статистические характеристики и одинаково нормализуя обучающую и тестовую выборки происходит утечка информации, передача признаков тестовой выборки из обучающей выборки, или наоборот. По сути, это сводится к тому, что экспериментатор, зная тестовую выборку, косвенно подсказывает алгоритму, как ему обучаться. Поэтому важно, чтобы тестовая выборка была строго отделена от обучающей. Кроме того, мы хотим исследовать как именно работает алгоритм, а не то, как дополнительные манипуляции помогают решить задачу. Еще более важным, это становится при сравнении алгоритмов, в нашем случае перцептрона TL&NL с MLP+backprop. Поэтому в рамках наших экспериментов мы намеренно не допускаем никакой пред- и постобработки, за единственным исключением. В MNIST точки изображения даны в градации серого от 0 до 255. А нейросети удобнее работать с величинами на отрезке [0;1]. Поэтому единственную нормализацию, которую мы допускаем является разделение значения цвета на 255, как для обучающей, так и тестовой выборки.

nikgerasimenko 20 окт 2025 в 10:26

Мы открыли для всех доступ к Kandinsky Video

Простой

3 мин

10K

Блог компании СберБлог компании SberDevicesМашинное обучение * Обработка изображений * Искусственный интеллект

Обзор

Ура! Состоялся публичный релиз разработанной Сбером модели Kandinsky Video в Telegram-боте GigaChat и Kandinsky. Модель умеет создавать видео по тексту и оживлять изображения.

Узнать, как генерировать

+16

Viktorbull 20 окт 2025 в 03:01

ТОП-12 бесплатных сайтов и онлайн инструментов для генерации изображений в 2025 году

Простой

10 мин

35K

Машинное обучение * Искусственный интеллектОбработка изображений *

Обзор

Генерация изображений нейросетями стала «обычной кнопкой» рядом с привычными инструментами дизайна. Сегодня можно создать картинку по описанию на русском языке, прямо в браузере, часто без регистрации и, что важно, — бесплатно. Такой «free image generator» полезен не только дизайнерам: предприниматели собирают карточки товара и hero-баннеры, SMM-специалисты — креативы и сторис, журналисты и блогеры — иллюстрации к материалам, разработчики — прототипы интерфейсов и игровые мокапы.

Почему эта тема так «зашла»?

DenisOmg 19 окт 2025 в 11:05

Завайбкодил за 4 часа AI дневник питания и перестал пользоваться OURA

Простой

4 мин

9.5K

Искусственный интеллектМессенджеры * Обработка изображений * Здоровье

Кейс

Иногда хочешь просто записать, что поел — а заканчиваешь тем, что делаешь новый AI-продукт. Так я за вечер завайбкодил бота, который анализирует еду по фото, даёт советы и чувствует себя умнее, чем мой OURA Ring за $450.

About_it 18 окт 2025 в 13:01

Почему файлы стали меньше: форматы фото и видео (JPEG, HEIC, AV1)

Простой

11 мин

21K

Блог компании RUVDS.comАлгоритмы * Графический дизайн * Обработка изображений * Сжатие данных *

Обзор

Форматы изображений и видео вроде JPEG, HEIC и AV1 давно стали частью нашей повседневности. Мы снимаем на смартфон, пересылаем фото в мессенджерах, заливаем видео в облако — и редко задумываемся, почему одинаковый кадр может весить в три раза меньше, но выглядеть так же.

Рассмотрим, как современные кодеки экономят место, почему файлы стали компактнее и зачем это вообще понадобилось. Детали под катом.

+88

114

createcolor 13 окт 2025 в 11:50

Цветовая вычислительная фотография. Часть 3: За границами стандарта CIE 1931

Средний

11 мин

5.5K

Блог компании AIRIОбработка изображений * ФототехникаФизика

FAQ

Всем привет! Представляю вашему вниманию третью часть цикла статей по мотивам лекций курса по алгоритмам вычислительной фотографии, которые я, Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН, читаю для студентов МФТИ и ВШЭ.

Мы начали с того, что попытались ответить на вопрос о том, как сделать так, чтобы снимок нашей камеры в точности уловил всю красоту пейзажа, а также как воспроизвести эту красоту на экране, проекторе или фотобумаге. На этом пути мы уже обсудили первую математическую модель формирования изображения и стандарты CIE 1931 года.

Сегодня мы поговорим о явлениях и эффектах, важных для цветовосприятия, но не учитываемых описанными моделями. Мы посмотрим на попытки инженеров хоть как‑то их унифицировать, и в целом окинем взором всё многообразие современных цветовых стандартов, уделив особое внимание sRGB.

Приятного чтения!

burenkov 10 окт 2025 в 08:03

Морфологические преобразования и гамма коррекция на FPGA. Публикую проект Arduino стереокамеры на github

5 мин

9.9K

FPGA * Обработка изображений * DIY или Сделай самРобототехникаПроизводство и разработка электроники *

Продолжаю дорабатывать прошивку своей Arduino стерео-камеры. Следующий этап разработки — аппаратная реализация морфологических преобразований и блока гамма-коррекции. Исходники проекта теперь доступны на github

+21

Neurosonya 8 окт 2025 в 13:32

Seedream v4 — платный конкурент Nano Banana. Зачем он тогда нужен? И как использовать бесплатно + Гайды

Простой

3 мин

15K

Алгоритмы * ДизайнИскусственный интеллектОбработка изображений * Интернет-маркетинг *

Обзор

Да, Seedream v4 от ByteDance - доступен только платно. Тогда зачем он нужен, если есть Nano Banana? Разбираемся!

nikgerasimenko 6 окт 2025 в 08:34

Kandinsky Image научился генерировать изображения с надписями на русском

Простой

3 мин

12K

Блог компании СберБлог компании SberDevicesМашинное обучение * Обработка изображений * Искусственный интеллект

Обзор

Мир никогда не станет прежним! Теперь можно генерировать котов с добавлением смешных надписей на русском, а разве не ради этого мы создавали искусственный интеллект?

Сегодня мы выпустили обновление модели генерации изображений Kandinsky. Модель научилась генерировать надписи на кириллице. Не просто текст поверх изображения, а органично вписанный: начерченный на стене, выпиленный из дерева, отлитый из металла, вышитый, связанный или выложенный лепестками роз.

+33

engine9 5 окт 2025 в 13:01

Пайплайн цифрового фотографа на LINUX

Простой

5 мин

19K

Блог компании RUVDS.comОбработка изображений * ФототехникаLinux *

Обзор

Хочу поделиться своим опытом выстраивания конвейера (pipeline) обработки и каталогизации фотографий. Постарался сделать повествование как можно увлекательнее, заостряя внимание на принципиальной сути, вместо пошагового руководства.

+93

126

Oladiy 3 окт 2025 в 13:01

Видеоаналитика в реальном времени: что делать, если нет GPU

16 мин

Блог компании Цифровой СИБУРБлог компании Конференции Олега Бунина (Онтико)Искусственный интеллектОбработка изображений * Промышленное программирование *

Кейс

Когда у вас несколько десятков моделей компьютерного зрения, тысячи камер на заводах по всей стране и только несколько секунд, чтобы успеть оповестить оператора — важна каждая миллисекунда.

Но что делать, если вы работаете не в IT-гиганте с дата-центрами и парком GPU, а в промышленной компании с изолированными сетями, ограниченными ресурсами и жёсткими требованиями к отказоустойчивости?
Рассказываю:

— почему разработка видеоаналитики в промышленности отличается от БигТеха;

— какие ограничения приходится учитывать: отсутствие GPU, изолированные сети и жёсткие требования к отказоустойчивости;

— как удалось оптимизировать пайплайн и сохранить стабильность его работы;

— какие локальные оптимизации реально работают (а какие дают минимальный прирост);

— как архитектурные изменения увеличили производительность в 28 раз;

— с какими вызовами команда сталкивается сегодня и что предстоит решать дальше.

Идеи из этой статьи будут полезны при разработке как продуктов видеоаналитики, так и других систем со множеством источников данных и обработчиков.

Подробный кейс с деталями

+16

basharinIv 3 окт 2025 в 09:00

Неужели нам правда нужно знать, как всё работает под капотом?

Простой

5 мин

5.4K

Блог компании ЭТП ГПБ / VESNAИскусственный интеллектИсследования и прогнозы в IT * Обработка изображений *

Интервью

Привет! На связи снова я — Иван Башарин, Руководитель лаборатории ИИ, VESNA.

В прошлом тексте я обмолвился о том, что стараюсь выполнять задачи руками даже тогда, когда легко могу это сделать через ИИ.

И решил развить эту тему и написать еще один текст. А именно найти ответ на вопрос: почему нам хочется во всем разобраться самостоятельно. Будь то химическая реакция или сложный низкоуровневый язык.

Но раз я специалист по ИИ и по написанию кода, а не по мозгу, буду говорить только о своих гипотезах и ощущениях. А еще иногда подкреплять их мнением моих знакомых.

YAROSLAVBOGDANOV 3 окт 2025 в 02:49

Интеграция компьютерного зрения и многопараметрического анализа в оценку симптоматики шизофрении

Сложный

27 мин

5.5K

Обработка изображений * Научно-популярноеМозгЗдоровьеВизуализация данных *

Аналитика

Богданов Я.В.

ГБУЗ Кузбасская клиническая психиатрическая больница, Кемерово, Россия

Резюме

Данное исследование посвящено применению методов компьютерного зрения и многопараметрического анализа для оценки симптоматики шизофрении. В ходе работы был проведен количественный анализ графической и текстовой продукции пациентов с шизофренией и здоровых испытуемых. Исследование включало сравнение результатов с оценками по шкале PANSS и сопоставление данных пациентов со здоровым контролем. Результаты показали значимые различия между группами в выполнении графических и текстовых заданий, а также выявили корреляции между характеристиками выполнения заданий и выраженностью симптомов шизофрении. Особенно информативными оказались задания на рисование лиц, демонстрирующие наиболее сильные корреляции с негативными симптомами. Полученные данные могут быть использованы для разработки новых методов оценки и мониторинга состояния пациентов с шизофренией.

Ключевые слова: Шизофрения, Компьютерное зрение, Многопараметрический анализ, PANSS (Шкала позитивных и негативных синдромов), Количественный анализ, Корреляционный анализ, Рисунок лица, Несуществующее животное.

Информация об авторе:

Богданов Ярослав Вячеславович – e-mail: yarik@yabogdanov.ru; https://orcid.org/0009-0002-3880-7152

Как цитировать: Богданов Я.В., Интеграция компьютерного зрения и многопараметрического анализа в оценку симптоматики шизофрении: количественный анализ графической и текстовой продукции, корреляции с шкалой PANSS и сравнение со здоровым контролем

1 2 3 4

6 7 ...

125 126