Обновить
62.42

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

LLM vs. почерк: практическое сравнение GPT-5, Gemini и Claude в задачах OCR

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.5K

Распознавание рукописного текста — задача, которая остаётся болезненной даже в 2025 году. Именно это не позволяет оцифровать многие архивы и документы, а также является камнем преткновения в разной бизнес деятельности.

Производители заявляют, что модели вроде GPT-5, Gemini 2.5 Pro и Claude Sonnet 4.5 способны не просто распознать почерк, но и догадаться, что автор имел в виду: исправить пунктуацию, восстановить сокращения, даже понять, что стоит за пометками на полях.

Звучит красиво. Но работает ли это на реальных документах?  Чтобы ответить, мы провели исследование и сравнили, как три топ-LLM обрабатывают рукописные и смешанные документы — с точки зрения точности, структурной консистентности и понимания контекста.

Читать далее

Новости

Сила оттенков серого: компьютерное зрение с нуля

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров6.9K

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO. Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды.

Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли?

Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

Читать далее

EMNLP-2025: обзор исследований жестовых языков

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров229

Всем привет! В этом году в китайском городе Суджоу прошла юбилейная тридцатая конференция EMNLP (Empirical Methods in Natural Language Processing). Это одна из ведущих международных конференций по обработке естественного языка (NLP), проводимая под эгидой ассоциации компьютерной лингвистики ACL (Association for Computational Linguistics). 

Впервые конференция EMNLP прошла в 1996 году. Сегодня она посвящена эмпирическим методам, то есть моделям, основанным на данных, статистике и машинном обучении. А тогда конференция называлась Workshop on Very Large Corpora и представляла собой небольшое мероприятие ACL, посвящённое использованию корпусов текстов для обучения моделей. Тогда еще не было никаких трансформеров и уже привычных нам больших языковых моделей (LLM) и уж тем более мультимодальности, агентов и прочих хайповых ИИ-направлений. Это была эпоха статистического NLP, когда всё строилось вокруг частот, вероятностей и корпусов текстов, а в ходу были N-граммные языковые модели и скрытые Марковские модели. 

Читать далее

Забудьте про точность. Почему для трекинга нужны десятки метрик

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.7K

Привет, Хабр! С вами Матвей Шелухан и Тимур Мамедов из команды распознавания силуэтов в Tevian. Сегодня поговорим про метрики в задаче трекинга объектов, которая по праву считается одной из самых сложных в компьютерном зрении. Когда мы только приступали к её изучению, то принялись разбирать, какие есть датасеты, бейзлайны и метрики для оценки качества построенных траекторий. Будем честны: последнее было одним из самых сложных. Во-первых, метрик в рассматриваемой задаче довольно много, и ни одну из них не встретишь в стандартном курсе по машинному обучению. Во-вторых, в каждую из них порой сложно въехать, пока не придумаешь конкретные примеры (да, поэтому в этой статье будет много примеров). И, наконец, практически каждой посвящена отдельная научная статья, поэтому всю информацию приходилось собирать по крупицам. Кроме того, в процессе изучения литературы мы поняли, что универсальной метрики в данной задаче нет, поэтому для оценки качества алгоритмов необходимо смотреть на целый комплекс показателей. Данная статья будет полезна тем, кто занимается (либо просто интересуется) задачей трекинга и хочет понять, как устроены метрики оценки качества алгоритмов её решения. Как вы уже могли догадаться, мы за вас собрали всю нужную информацию в одну статью. Поехали!

Читать далее

Для чего дизайнерам нейросети: сравниваем инструменты и создаём дизайн карт

Время на прочтение6 мин
Количество просмотров901

Привет! Мы Наташа и Ксюша, работаем коммуникационными дизайнерами в ЮMoney. С прошлого года начали активно использовать для рабочих задач нейросети. В статье мы расскажем, почему предпочитаем сгенерированные изображения стоковым и сколько нейронок нужно для создания одной иллюстрации. А ещё поделимся реальными кейсами использования AI-инструментов.

Читать далее

Как началась патентная гонка за технологиями дипфейков

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.2K

Само слово «дипфейк» (deepfake) впервые появилось в 2017 году на платформе Reddit. Однако технологическая основа была заложена еще в 2014 году с изобретением генеративно-состязательных сетей (GANs) Яном Гудфеллоу. 

Сначала дипфейки использовались для создания юмористического контента, но их потенциал для мошенничества, дезинформации и кибератак запустил ответную волну инноваций. Началась настоящая гонка по разработке технологий распознавания дипфейков. Об этом и не только — в нашем материале.

Читать далее

Pimp my RAM или превращаем оперативную память в фотографическую

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров14K

По итогам 2023 года ролики о старых цифровых камерах набрали суммарно более 1 миллиарда просмотров в TikTok. В свою очередь на YouTube блогеры актино обозревают цифромыльницы с призывом приобщиться к тренду. На фоне становления Y2K эстетики и смещения интересов в области фотографии в прошлое я предлагаю заглянуть немного подальше и посмотреть, как всё начиналось.

Если вам интересно, как связаны между собой зарождение цифровой эпохи в фотографии, странная самоделка, и причём здесь вынесенная в название оперативная память – добро пожаловать под кат!

Читать далее

SmileFace. Когда нейросеть улыбается тебе в ответ

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров566

SmileFace — игра, в которой нейросеть угадывает эмоции

Мы сделали интерактивный стенд: камера, смайлики и нейросеть, которая пытается распознать, что вы чувствуете. В статье — как это работает, с какими трудностями столкнулись и как запустить игру у себя.

Улыбнуться ИИ

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров5.1K

Manuscript OCR — открытая нейросеть для чтения рукописей XIX века

Мы обучили свою OCR-модель распознавать дореформенную кириллицу, нестандартные почерки и сложные сканы. Всё — на собственных данных, с нуля. В статье — как мы это сделали и ссылки на репозиторий с кодом.

Открыть рукопись

Краткая история машинного зрения: как инженеры научили компьютер переводить изображения из 2D в 3D

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.3K

Еще на заре создания машинного зрения возникло желание превратить изображение на фотографии из плоского двумерного в объемное трехмерное, тем более что для классической фотографии на пленке, пластике или бумаге уже давно были изобретены стереоскопы и демонстрировались стереофильмы.

Пионером в этой области стал инженер-электронщик Лоуренс (Ларри) Робертс из Лаборатории Линкольна Массачусетского технологического института. Потом он перешел на работу в Агентство перспективных оборонных исследовательских проектов МО США, где стал руководителем программы ARPANET и ныне входит в почетный список «пионеров Интернета». Но в его альма-матер, MIT, Ларри Робертса упрямо называют «отцом компьютерного зрения», потому что именно у них он в июне 1963 года защитил диссертацию на степень PhD по теме «Машинное восприятие трёхмерных тел».

Читать далее

VLM vs IDP (хайп vs конвейер): кто выигрывает в гонке за точностью и эффективностью

Время на прочтение7 мин
Количество просмотров660

Еще десять лет назад автоматизация обработки документов опиралась на OCR и жесткие шаблоны. Сегодня в этой сфере все активнее заявляют о себе VLM — технологии, способные понимать контекст и быстро адаптироваться к новым задачам. Но меняют ли они правила игры полностью или лишь дополняют существующие? 

Мы провели исследование и выяснили, что правила изменились, но говорить о полном забвении классических IDP-решений рано. Более того, будущее будет за гибридом, который сочетает эффективность IDP с новыми возможностями VLM.

Читать далее

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Уровень сложностиСложный
Время на прочтение10 мин
Количество просмотров2.5K

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала!

Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting. Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке

Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим).

Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

Читать далее

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов. Часть 2

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.2K

Предисловие. Опубликовав первую часть понял, что само обучение перцептрона мало кого интересует, пока не будет экспериментальных результатов. И это разрешило мою дилемму о том, как сократить изложение для хабра. Мы пропустим разделы с объяснением архитектуры перцептрона TL&NL и начнем сразу с 4 раздела моей статьи.

4. Точность прогнозирования

В предыдущих разделах, мы стремились уменьшить число признаков (А - элементов), требуемых для решения задачи. И это понятно, т.к. обработка меньшего числа признаков требует меньше вычислительных затрат. Но выделяя только минимальное число признаков (и соответствующих A-элементов), и обучаясь только на части всех возможных примеров, мы рискуем построить слишком грубую модель. Её будет достаточно для решения задачи на обучающем множестве, но она будет плохо предсказывать. Представьте, что мы аппроксимируем окружность, и примеры нам показывают, что это многоугольник и во время прогнозирования мы исходим из того, на сколько углов мы обучили свою сеть. Поэтому, задача исследования в этом разделе состоит не в минимизации А-элементов, а в нахождении такого их количества, которое стабилизирует модель обобщения, которую строит перцептрон. Что означает стабилизация станет ясно из последующего изложения.

Для анализа точности прогнозирования будем использовать классические тесты MNIST по распознаванию рукописных цифр и MNIST Fashion по распознаванию пиктографических изображений одежды.

4.1. О методологии экспериментов

Отсутствие пред- и постобработки. Это не всегда очевидно, и различные исследователи часто явно или не явно используют некоторую предобработку обучающей и тестовой выборки. Мы должны строго разграничить обучающую выборку от тестовой, так, как например в результате некой нормализации происходит “подсказки от экспериментатора”, что не допустимо. Например, используя некие статистические характеристики и одинаково нормализуя обучающую и тестовую выборки происходит утечка информации, передача признаков тестовой выборки из обучающей выборки, или наоборот. По сути, это сводится к тому, что экспериментатор, зная тестовую выборку, косвенно подсказывает алгоритму, как ему обучаться. Поэтому важно, чтобы тестовая выборка была строго отделена от обучающей. Кроме того, мы хотим исследовать как именно работает алгоритм, а не то, как дополнительные манипуляции помогают решить задачу. Еще более важным, это становится при сравнении алгоритмов, в нашем случае перцептрона TL&NL с MLP+backprop. Поэтому в рамках наших экспериментов мы намеренно не допускаем никакой пред- и постобработки, за единственным исключением. В MNIST точки изображения даны в градации серого от 0 до 255. А нейросети удобнее работать с величинами на отрезке [0;1]. Поэтому единственную нормализацию, которую мы допускаем является разделение значения цвета на 255, как для обучающей, так и тестовой выборки.

Читать далее

Ближайшие события

Мы открыли для всех доступ к Kandinsky Video

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.8K

Ура! Состоялся публичный релиз разработанной Сбером модели Kandinsky Video в Telegram-боте GigaChat и Kandinsky. Модель умеет создавать видео по тексту и оживлять изображения.

Узнать, как генерировать

ТОП-12 бесплатных сайтов и онлайн инструментов для генерации изображений в 2025 году

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров22K

Генерация изображений нейросетями стала «обычной кнопкой» рядом с привычными инструментами дизайна. Сегодня можно создать картинку по описанию на русском языке, прямо в браузере, часто без регистрации и, что важно, — бесплатно. Такой «free image generator» полезен не только дизайнерам: предприниматели собирают карточки товара и hero-баннеры, SMM-специалисты — креативы и сторис, журналисты и блогеры — иллюстрации к материалам, разработчики — прототипы интерфейсов и игровые мокапы.

Почему эта тема так «зашла»?

Читать далее

Завайбкодил за 4 часа AI дневник питания и перестал пользоваться OURA

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров4.6K

Иногда хочешь просто записать, что поел — а заканчиваешь тем, что делаешь новый AI-продукт. Так я за вечер завайбкодил бота, который анализирует еду по фото, даёт советы и чувствует себя умнее, чем мой OURA Ring за $450.

Читать далее

Почему файлы стали меньше: форматы фото и видео (JPEG, HEIC, AV1)

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров18K

Форматы изображений и видео вроде JPEG, HEIC и AV1 давно стали частью нашей повседневности. Мы снимаем на смартфон, пересылаем фото в мессенджерах, заливаем видео в облако — и редко задумываемся, почему одинаковый кадр может весить в три раза меньше, но выглядеть так же.

Рассмотрим, как современные кодеки экономят место, почему файлы стали компактнее и зачем это вообще понадобилось. Детали под катом.

Читать далее

Цветовая вычислительная фотография. Часть 3: За границами стандарта CIE 1931

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1K

Всем привет! Представляю вашему вниманию третью часть цикла статей по мотивам лекций курса по алгоритмам вычислительной фотографии, которые я, Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН, читаю для студентов МФТИ и ВШЭ.

Мы начали с того, что попытались ответить на вопрос о том, как сделать так, чтобы снимок нашей камеры в точности уловил всю красоту пейзажа, а также как воспроизвести эту красоту на экране, проекторе или фотобумаге. На этом пути мы уже обсудили первую математическую модель формирования изображения и стандарты CIE 1931 года

Сегодня мы поговорим о явлениях и эффектах, важных для цветовосприятия, но не учитываемых описанными моделями. Мы посмотрим на попытки инженеров хоть как‑то их унифицировать, и в целом окинем взором всё многообразие современных цветовых стандартов, уделив особое внимание sRGB.

Приятного чтения!

Читать далее

Морфологические преобразования и гамма коррекция на FPGA. Публикую проект Arduino стереокамеры на github

Время на прочтение5 мин
Количество просмотров4K

Продолжаю дорабатывать прошивку своей Arduino стерео-камеры. Следующий этап разработки — аппаратная реализация морфологических преобразований и блока гамма-коррекции. Исходники проекта теперь доступны на github

Читать далее

Seedream v4 — платный конкурент Nano Banana. Зачем он тогда нужен? И как использовать бесплатно + Гайды

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров6.6K

Да, Seedream v4 от ByteDance - доступен только платно. Тогда зачем он нужен, если есть Nano Banana? Разбираемся!

Читать далее
1
23 ...

Вклад авторов