Обновить
92.72

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Как началась патентная гонка за технологиями дипфейков

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели9.9K

Само слово «дипфейк» (deepfake) впервые появилось в 2017 году на платформе Reddit. Однако технологическая основа была заложена еще в 2014 году с изобретением генеративно-состязательных сетей (GANs) Яном Гудфеллоу. 

Сначала дипфейки использовались для создания юмористического контента, но их потенциал для мошенничества, дезинформации и кибератак запустил ответную волну инноваций. Началась настоящая гонка по разработке технологий распознавания дипфейков. Об этом и не только — в нашем материале.

Читать далее

Pimp my RAM или превращаем оперативную память в фотографическую

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели25K

По итогам 2023 года ролики о старых цифровых камерах набрали суммарно более 1 миллиарда просмотров в TikTok. В свою очередь на YouTube блогеры актино обозревают цифромыльницы с призывом приобщиться к тренду. На фоне становления Y2K эстетики и смещения интересов в области фотографии в прошлое я предлагаю заглянуть немного подальше и посмотреть, как всё начиналось.

Если вам интересно, как связаны между собой зарождение цифровой эпохи в фотографии, странная самоделка, и причём здесь вынесенная в название оперативная память – добро пожаловать под кат!

Читать далее

SmileFace. Когда нейросеть улыбается тебе в ответ

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели7.3K

SmileFace — игра, в которой нейросеть угадывает эмоции

Мы сделали интерактивный стенд: камера, смайлики и нейросеть, которая пытается распознать, что вы чувствуете. В статье — как это работает, с какими трудностями столкнулись и как запустить игру у себя.

Улыбнуться ИИ

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели14K

Manuscript OCR — открытая нейросеть для чтения рукописей XIX века

Мы обучили свою OCR-модель распознавать дореформенную кириллицу, нестандартные почерки и сложные сканы. Всё — на собственных данных, с нуля. В статье — как мы это сделали и ссылки на репозиторий с кодом.

Открыть рукопись

Краткая история машинного зрения: как инженеры научили компьютер переводить изображения из 2D в 3D

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели10K

Еще на заре создания машинного зрения возникло желание превратить изображение на фотографии из плоского двумерного в объемное трехмерное, тем более что для классической фотографии на пленке, пластике или бумаге уже давно были изобретены стереоскопы и демонстрировались стереофильмы.

Пионером в этой области стал инженер-электронщик Лоуренс (Ларри) Робертс из Лаборатории Линкольна Массачусетского технологического института. Потом он перешел на работу в Агентство перспективных оборонных исследовательских проектов МО США, где стал руководителем программы ARPANET и ныне входит в почетный список «пионеров Интернета». Но в его альма-матер, MIT, Ларри Робертса упрямо называют «отцом компьютерного зрения», потому что именно у них он в июне 1963 года защитил диссертацию на степень PhD по теме «Машинное восприятие трёхмерных тел».

Читать далее

VLM vs IDP (хайп vs конвейер): кто выигрывает в гонке за точностью и эффективностью

Время на прочтение7 мин
Охват и читатели7K

Еще десять лет назад автоматизация обработки документов опиралась на OCR и жесткие шаблоны. Сегодня в этой сфере все активнее заявляют о себе VLM — технологии, способные понимать контекст и быстро адаптироваться к новым задачам. Но меняют ли они правила игры полностью или лишь дополняют существующие? 

Мы провели исследование и выяснили, что правила изменились, но говорить о полном забвении классических IDP-решений рано. Более того, будущее будет за гибридом, который сочетает эффективность IDP с новыми возможностями VLM.

Читать далее

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Уровень сложностиСложный
Время на прочтение10 мин
Охват и читатели7.3K

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала!

Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting. Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке

Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим).

Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

Читать далее

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов. Часть 2

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4K

Предисловие. Опубликовав первую часть понял, что само обучение перцептрона мало кого интересует, пока не будет экспериментальных результатов. И это разрешило мою дилемму о том, как сократить изложение для хабра. Мы пропустим разделы с объяснением архитектуры перцептрона TL&NL и начнем сразу с 4 раздела моей статьи.

4. Точность прогнозирования

В предыдущих разделах, мы стремились уменьшить число признаков (А - элементов), требуемых для решения задачи. И это понятно, т.к. обработка меньшего числа признаков требует меньше вычислительных затрат. Но выделяя только минимальное число признаков (и соответствующих A-элементов), и обучаясь только на части всех возможных примеров, мы рискуем построить слишком грубую модель. Её будет достаточно для решения задачи на обучающем множестве, но она будет плохо предсказывать. Представьте, что мы аппроксимируем окружность, и примеры нам показывают, что это многоугольник и во время прогнозирования мы исходим из того, на сколько углов мы обучили свою сеть. Поэтому, задача исследования в этом разделе состоит не в минимизации А-элементов, а в нахождении такого их количества, которое стабилизирует модель обобщения, которую строит перцептрон. Что означает стабилизация станет ясно из последующего изложения.

Для анализа точности прогнозирования будем использовать классические тесты MNIST по распознаванию рукописных цифр и MNIST Fashion по распознаванию пиктографических изображений одежды.

4.1. О методологии экспериментов

Отсутствие пред- и постобработки. Это не всегда очевидно, и различные исследователи часто явно или не явно используют некоторую предобработку обучающей и тестовой выборки. Мы должны строго разграничить обучающую выборку от тестовой, так, как например в результате некой нормализации происходит “подсказки от экспериментатора”, что не допустимо. Например, используя некие статистические характеристики и одинаково нормализуя обучающую и тестовую выборки происходит утечка информации, передача признаков тестовой выборки из обучающей выборки, или наоборот. По сути, это сводится к тому, что экспериментатор, зная тестовую выборку, косвенно подсказывает алгоритму, как ему обучаться. Поэтому важно, чтобы тестовая выборка была строго отделена от обучающей. Кроме того, мы хотим исследовать как именно работает алгоритм, а не то, как дополнительные манипуляции помогают решить задачу. Еще более важным, это становится при сравнении алгоритмов, в нашем случае перцептрона TL&NL с MLP+backprop. Поэтому в рамках наших экспериментов мы намеренно не допускаем никакой пред- и постобработки, за единственным исключением. В MNIST точки изображения даны в градации серого от 0 до 255. А нейросети удобнее работать с величинами на отрезке [0;1]. Поэтому единственную нормализацию, которую мы допускаем является разделение значения цвета на 255, как для обучающей, так и тестовой выборки.

Читать далее

Мы открыли для всех доступ к Kandinsky Video

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели7.4K

Ура! Состоялся публичный релиз разработанной Сбером модели Kandinsky Video в Telegram-боте GigaChat и Kandinsky. Модель умеет создавать видео по тексту и оживлять изображения.

Узнать, как генерировать

ТОП-12 бесплатных сайтов и онлайн инструментов для генерации изображений в 2025 году

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели24K

Генерация изображений нейросетями стала «обычной кнопкой» рядом с привычными инструментами дизайна. Сегодня можно создать картинку по описанию на русском языке, прямо в браузере, часто без регистрации и, что важно, — бесплатно. Такой «free image generator» полезен не только дизайнерам: предприниматели собирают карточки товара и hero-баннеры, SMM-специалисты — креативы и сторис, журналисты и блогеры — иллюстрации к материалам, разработчики — прототипы интерфейсов и игровые мокапы.

Почему эта тема так «зашла»?

Читать далее

Завайбкодил за 4 часа AI дневник питания и перестал пользоваться OURA

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели9.2K

Иногда хочешь просто записать, что поел — а заканчиваешь тем, что делаешь новый AI-продукт. Так я за вечер завайбкодил бота, который анализирует еду по фото, даёт советы и чувствует себя умнее, чем мой OURA Ring за $450.

Читать далее

Почему файлы стали меньше: форматы фото и видео (JPEG, HEIC, AV1)

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели20K

Форматы изображений и видео вроде JPEG, HEIC и AV1 давно стали частью нашей повседневности. Мы снимаем на смартфон, пересылаем фото в мессенджерах, заливаем видео в облако — и редко задумываемся, почему одинаковый кадр может весить в три раза меньше, но выглядеть так же.

Рассмотрим, как современные кодеки экономят место, почему файлы стали компактнее и зачем это вообще понадобилось. Детали под катом.

Читать далее

Цветовая вычислительная фотография. Часть 3: За границами стандарта CIE 1931

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели5.3K

Всем привет! Представляю вашему вниманию третью часть цикла статей по мотивам лекций курса по алгоритмам вычислительной фотографии, которые я, Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН, читаю для студентов МФТИ и ВШЭ.

Мы начали с того, что попытались ответить на вопрос о том, как сделать так, чтобы снимок нашей камеры в точности уловил всю красоту пейзажа, а также как воспроизвести эту красоту на экране, проекторе или фотобумаге. На этом пути мы уже обсудили первую математическую модель формирования изображения и стандарты CIE 1931 года

Сегодня мы поговорим о явлениях и эффектах, важных для цветовосприятия, но не учитываемых описанными моделями. Мы посмотрим на попытки инженеров хоть как‑то их унифицировать, и в целом окинем взором всё многообразие современных цветовых стандартов, уделив особое внимание sRGB.

Приятного чтения!

Читать далее

Ближайшие события

Морфологические преобразования и гамма коррекция на FPGA. Публикую проект Arduino стереокамеры на github

Время на прочтение5 мин
Охват и читатели9.5K

Продолжаю дорабатывать прошивку своей Arduino стерео-камеры. Следующий этап разработки — аппаратная реализация морфологических преобразований и блока гамма-коррекции. Исходники проекта теперь доступны на github

Читать далее

Seedream v4 — платный конкурент Nano Banana. Зачем он тогда нужен? И как использовать бесплатно + Гайды

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели12K

Да, Seedream v4 от ByteDance - доступен только платно. Тогда зачем он нужен, если есть Nano Banana? Разбираемся!

Читать далее

Kandinsky Image научился генерировать изображения с надписями на русском

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели12K

Мир никогда не станет прежним! Теперь можно генерировать котов с добавлением смешных надписей на русском, а разве не ради этого мы создавали искусственный интеллект?

Сегодня мы выпустили обновление модели генерации изображений Kandinsky. Модель научилась генерировать надписи на кириллице. Не просто текст поверх изображения, а органично вписанный: начерченный на стене, выпиленный из дерева, отлитый из металла, вышитый, связанный или выложенный лепестками роз.

Читать далее

Пайплайн цифрового фотографа на LINUX

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели18K

Хочу поделиться своим опытом выстраивания конвейера (pipeline) обработки и каталогизации фотографий. Постарался сделать повествование как можно увлекательнее, заостряя внимание на принципиальной сути, вместо пошагового руководства.

Читать далее

Видеоаналитика в реальном времени: что делать, если нет GPU

Время на прочтение16 мин
Охват и читатели6.2K

Когда у вас несколько десятков моделей компьютерного зрения, тысячи камер на заводах по всей стране и только несколько секунд, чтобы успеть оповестить оператора — важна каждая миллисекунда.

Но что делать, если вы работаете не в IT-гиганте с дата-центрами и парком GPU, а в промышленной компании с изолированными сетями, ограниченными ресурсами и жёсткими требованиями к отказоустойчивости?
Рассказываю:

— почему разработка видеоаналитики в промышленности отличается от БигТеха;

— какие ограничения приходится учитывать: отсутствие GPU, изолированные сети и жёсткие требования к отказоустойчивости;

— как удалось оптимизировать пайплайн и сохранить стабильность его работы;

— какие локальные оптимизации реально работают (а какие дают минимальный прирост);

— как архитектурные изменения увеличили производительность в 28 раз;

— с какими вызовами команда сталкивается сегодня и что предстоит решать дальше.

Идеи из этой статьи будут полезны при разработке как продуктов видеоаналитики, так и других систем со множеством источников данных и обработчиков.

Подробный кейс с деталями

Неужели нам правда нужно знать, как всё работает под капотом?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели5.3K

Привет! На связи снова я — Иван Башарин, Руководитель лаборатории ИИ, VESNA.

В прошлом тексте я обмолвился о том, что стараюсь выполнять задачи руками даже тогда, когда легко могу это сделать через ИИ.

И решил развить эту тему и написать еще один текст. А именно найти ответ на вопрос: почему нам хочется во всем разобраться самостоятельно. Будь то химическая реакция или сложный низкоуровневый язык.

Но раз я специалист по ИИ и по написанию кода, а не по мозгу, буду говорить только о своих гипотезах и ощущениях. А еще иногда подкреплять их мнением моих знакомых.

Читать далее

Интеграция компьютерного зрения и многопараметрического анализа в оценку симптоматики шизофрении

Уровень сложностиСложный
Время на прочтение27 мин
Охват и читатели5.4K

Богданов Я.В.

ГБУЗ Кузбасская клиническая психиатрическая больница, Кемерово, Россия

Резюме

Данное исследование посвящено применению методов компьютерного зрения и многопараметрического анализа для оценки симптоматики шизофрении. В ходе работы был проведен количественный анализ графической и текстовой продукции пациентов с шизофренией и здоровых испытуемых. Исследование включало сравнение результатов с оценками по шкале PANSS и сопоставление данных пациентов со здоровым контролем. Результаты показали значимые различия между группами в выполнении графических и текстовых заданий, а также выявили корреляции между характеристиками выполнения заданий и выраженностью симптомов шизофрении. Особенно информативными оказались задания на рисование лиц, демонстрирующие наиболее сильные корреляции с негативными симптомами. Полученные данные могут быть использованы для разработки новых методов оценки и мониторинга состояния пациентов с шизофренией.

Ключевые слова:   Шизофрения, Компьютерное зрение, Многопараметрический анализ,  PANSS (Шкала позитивных и негативных синдромов), Количественный анализ, Корреляционный анализ, Рисунок лица, Несуществующее животное.

Информация об авторе:

Богданов Ярослав Вячеславович – e-mail: yarik@yabogdanov.ru; https://orcid.org/0009-0002-3880-7152

Как цитировать: Богданов Я.В., Интеграция компьютерного зрения и многопараметрического анализа в оценку симптоматики шизофрении: количественный анализ графической и текстовой продукции, корреляции с шкалой PANSS и сравнение со здоровым контролем

Читать далее

Вклад авторов