Обновить
256K+

Обработка изображений *

Работаем с фото и видео

192,54
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Краткая история биометрии: как дактилоскопия вошла в нашу жизнь

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.1K

История биометрии дерматоглифических узоров на подушечке пальца человека изучена до мелочей и опубликована сотни если не тысячи раз в кратких и подробных вариантах. Если опустить вавилонские и античные времена и историю дактилоскопии в восточных цивилизациях, то первым европейцем, обратившим на нее внимание в конце 1870-годов века, считается чиновник британской администрации в Индии сэр Уильям Гершель, а применил ее на практике в той же Индии генеральный инспектор бенгальской полиции Эдвард Генри, который составил первую классификацию узоров папиллярных линий и опубликовал ее в 1900 году (и в итоге тоже стал сэром и начальником отдела уголовных расследований Скотленд-Ярда). В классификации сэра Генри было четыре основных типа узоров – дуги (арки), петли, завитки и в дополнение к ним «композиты», то есть устойчивые композиции из этих трех «нот». 

Это ключевые даты в таймлайне ранней истории дактилоскопии. Если же более детально рассматривать этот период дерматоглифической биометрии, то здесь наблюдаются загогулины почище, чем узоры складок кожи на подушечке пальца. В 1892 году Фрэнсис Гальтон опубликовал свою книгу «Finger Prints», где были те же четыре типа узоров (дуги, петли, завитки и композиты), что у сэра Генри. Ничего удивительного в этом нет, Гальтон и Генри переписывались между собой, и как раз книга Гальтона подтолкнула Генри заняться дактилоскопией. Но занявшись ею, он, будучи самым большим начальником бенгальской полиции, поручил всю черновую работу двоим своим подчиненным инспекторам-индийцам. Их звали Хан Бахадур Кази Азизул Хак и Рай Бахадур Хем Чандра Бос. Первый из них создал математический алгоритм сортировки отпечатков пальцев по их рисунку, второй усовершенствовал метод классификации отпечатков пальцев, предложенный их шефом. Теперь британские историки пишут, что тех двух индийцев наградили, произведя из инспекторов в суперинтенданты, а индийские историки пишут, как нагло их соотечественников «обокрали сэр Гальтон и сэр Генри». 

Читать далее

Новости

Как гибрид IDP и VLM экономит миллионы на верификации данных

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели4.6K

Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах.

В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом, когда VLM усиливает IDP-решения.

В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture.

Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами. 

Читать далее

TAPe‑дневник, день 8: сегментация по границам, 77% классификации и первые бенчмарки против YOLO

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели7.8K

В этом посте продолжаем дневник TAPe‑детекции на COCO: добавляем сегментацию по контрастным патчам на границе объектов, дорабатываем классификацию, избавляемся от learning rate и смотрим, как ведёт себя YOLO на нашем маленьком датасете.

А уже завтра покажем базовые и COCO‑бенчмарки, сравнения с YOLO и RF‑DETR по точности (mAP50/mAP50‑95), скорости, числу параметров и требованиям к данным, а заодно чуть подробнее поговорим про аннотацию и то, почему нам хватает десятков изображений на класс там, где другим нужны сотни тысяч.

Вникнуть

Создаем комикс с помощью нейросетей: пошаговый разбор

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели7.3K

Вы когда-нибудь хотели нарисовать комикс, но упирались в то, что не умеете рисовать? Руки помнят только школьные каракули на полях тетради, а персонажи в голове так и остаются в голове.

Сейчас это перестало быть проблемой. Нейросети для генерации изображений стали полноценным рабочим инструментом. Они не заменят художника полностью, но помогут сделать законченный комикс за вечер вместо месяца. Да, с кривыми пальцами иногда, с ошибками в перспективе, но живой и ваш.

В этой статье я покажу пошагово:
- как выбрать нейросеть для комикса;
- как сделать так, чтобы персонаж не менял лицо в каждом кадре;
- как добавить облака с текстом и не сойти с ума;
- и, конечно, на какие кнопки нажимать.

Работать я буду в BotHub - это агрегатор нейросетей. Если вам надоело прыгать по сайтам, постоянно включать и выключать VPN, регистрироваться и разбираться, где какая кнопка, BotHub собирает Midjourney, DALL-E 3, Kandinsky и другие популярные модели в одном интерфейсе. Оплата по факту использования - сколько нагенерировал, столько и заплатил. К тому же сервис дарит 300 000 капсов всем новым пользователям по ссылке, можно затестить прямо сейчас!

Одна просьба перед стартом: не ждите от нейросети идеала с первой попытки. Это не голливудский ИИ.

Поехали, приятного прочтения!

Читать далее

Я научил виртуальную камеру быть оператором: как устроен алгоритм face tracking для Shorts/Reels

Уровень сложностиСложный
Время на прочтение14 мин
Охват и читатели5.2K

В предыдущей статье я подробно рассказывал про свой "аниме завод" — пайплайн, который автоматически превращает эпизоды в готовые Shorts. Но внутри этой системы есть один особенно важный узел, который заслуживает отдельного разбора: виртуальная камера для автоматического кадрирования.

В этой статье я разберу не просто "функцию автокропа", а полноценный алгоритм виртуальной камеры для вертикального видео. Это тот случай, когда задача на первый взгляд кажется простой: есть горизонтальный ролик, нужно сделать 9:16, удержать человека в кадре и не превратить результат в дёрганый автофокус из начала 2010-х.

Но как только начинаешь делать это не для демо, а для реального пайплайна, сразу всплывают инженерные проблемы:

Читать далее

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Время на прочтение10 мин
Охват и читатели6.3K

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж - везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM “клиент интересовался” - и 80% информации из разговора потерялось.

Читать далее

Аугментация ограничивающих боксов в детекции: форматы, `BboxParams` и типичные ошибки

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.5K

Когда аугментации в детекции «не работают», проблема часто не в модели, а в bbox после преобразований.

Неверный coord_format, перепутанные нормализованные и абсолютные координаты, агрессивные кропы, пустые боксы после фильтрации — всё это не ломает код, но quietly ломает обучение.

В статье разбираю:

— какие форматы bbox поддерживает Albumentations — как правильно настраивать A.BboxParams — когда использовать min_area и min_visibility — почему обычный RandomCrop часто плохая идея для detection — и где пайплайн чаще всего ломается на практике

Если вы работаете с COCO, YOLO, pascal_voc или просто хотите перестать обучать модель на испорченной разметке — этот материал для вас.

Читать далее

Краткая история биометрии: рождение термина и его внедрение в науку и жизнь

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.9K

Биометрия в наши дни применяется довольно широко. Но она прошла долгий путь. Для начала надо вспомнить, что изначально биометрия была вовсе не тем, что сейчас мы вкладываем в это понятие. Первым попытался ввести этот термин в научный оборот немецкоязычный швейцарский демограф из Базеля Кристоф Бернулли (из известного семейства математиков Бернулли) в 1841 году. В своем «Handbuch der Populationistik: oder der Völker‑ und Menschenkunde: nach statistischen Ergebnissen» («Справочнике по популяционистике, или по народоведению и человековедению: по статистическим результатам») он девять раз употребил словосочетание Populationiſtiſche Biometrie (биометрия народонаселения), объясняя, как следует применять методы математической статистики в демографии: в оценке среднего роста населения, убывания населения, средней продолжительности жизни в данной популяции (города, региона, страны) и так далее

Но этот его термин не прижился, как и другой его термин «Populationistik», вскоре замененный на «демографию». Удачливее оказался англичанин Фрэнсис Гальтон. Он тоже увлекался демографией, но рассматривал ее с точки зрения теории естественного отбора своего кузена Чарлза Дарвина и считал, что для населения цивилизованных стран далеко не лишним был бы еще и искусственный отбор, из‑под пресса которого Homo sapiens вышел, как только стал sapiens. Поэтому сейчас Гальтона помнят прежде всего как отца‑основателя науки евгеники, причем в самой нехорошей ее расовой разновидности. 

Гораздо реже вспоминают, что Гальтон увлекался антропометрией и даже устроил для посетителей Международной выставки здравоохранения в Лондоне в 1884 году показательную антропометрическую лабораторию. Желающие за четверть часа проходили там процедуру обмеров своего тела, очень похожую на бертильонаж, который в том же 1884 году ввели как обязательную процедуру в парижской тюрьме Санте. В 1892 году Гальтон опубликовал книгу «Finger Prints» («Отпечатки пальцев»), где объяснил почему вероятность совпадения их у разных людей стремиться к нулю (сами расчеты вероятности этого он опубликовал в «Proceedings of the Royal Society» в 1891 г.). 

Читать далее

Искусство цифрового мазохизма: как я потратил сотни часов на обложки для сериалов, которые даже не смотрю

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели18K

Последние несколько лет я усиленно увлекаюсь любительской видеореставрацией: беру старые мультики, прогоняю их через большие пайплайны цифровой обработки, зачастую работаю с аудио и по итогу всё это собираю в MKV-контейнеры. От «Чипа и Дейла» эпохи старого Диснея до чистой цифры в виде «Врат Штейна».

Казалось бы: «Обложка да обложка, какая разница? Главное — видео и звук!» Но вы крупно недооцениваете мою любовь к перфекционизму.

Проблема была даже не в том, что обложек нет, а в том, что ими почти никто не занимается. Ни корпорации-издатели, ни даже базы от энтузиастов вроде TheTvDB зачастую почти не уделяют нормального внимания стародавним релизам, из-за чего лично у меня возникает странный контраст: на диске лежит моя отреставрированная классика в 4К, а медиа-сервер подтягивает размытый скриншот серии с VHS-кассеты начала 2000-х. А иногда та же практика применяется и к новым релизам 0_0 Ужас ведь.

В этой статье я хочу показать свой путь проб и ошибок — от примитивных «ИИ-фильтров» на «Чип и Дейле» и автоматических скриптов для «Розовой пантеры» до освоения цветокоррекции и ручной реставрации на куче обложек для «Тома и Джерри», а затем — до сложного и зачастую ещё более муторного симбиоза ИИ-генерации и ручной доводки при создании уникальных постеров для «Врат Штейна» и других сериалов.

Читать далее

Вся музыка, все фотографии и весь Wi-Fi работают на одном трюке. Ему 200 лет

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели30K

Откройте ваш плейлист и нажмите play на любом треке.

Эта песня попала в ваши наушники благодаря одной идее. Той самой, за которую француза в 1807 году высмеяли на заседании Парижской академии наук. Лаплас был «за», но Лагранж встал и сказал: «Это невозможно.» Француза звали Жан-Батист Жозеф Фурье. Его идея была настолько простой, что учёные отказались ей поверить.

Читать далее

Промпты для генерации изображений: как правильно сформулировать инструкцию для ИИ

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.9K

Вы когда-нибудь получали от нейросети изображение, которое хочется сразу удалить и сделать вид, что этого не было? Допустим, вы открыли Midjourney, DALL-E или Kandinsky. Пишете: "нарисуй красивого кота". ИИ выдает что-то с тремя хвостами, шестью глазами и текстурой мокрой тряпки. Знакомо?

Нейросети для генерации изображений - отличные исполнители, но ужасные телепаты. Они не знают, что значит красиво, атмосферно или немного грустно. Им нужны конкретные слова: тип освещения, угол съемки, материалы, стиль художника. И даже порядок этих слов имеет значение. Да, они капризные, как заказчик, который не знает, чего хочет, но "это точно не то".

В этой статье мы соберем четкую инструкцию о том, как разговаривать с ИИ на его языке, основываясь только на конкретных приемах: структура промпта, вес слов, негативные инструкции и настройки.

Под конец вы сможете превращать кота-уродца в фотореалистичного мейн-куна в золотистом свете, 85 мм, f/1.4. Или в акварельного кота в стиле гравюр XIX века. ИИ перестанет вас бесить. Ну, хотя бы чуть-чуть.

Готовы? Тогда поехали, приятного прочтения!

Читать далее

Как подбирать аугментации: гипотезы, протокол и метрики

Уровень сложностиСредний
Время на прочтение56 мин
Охват и читатели6.1K

Новый пайплайн аугментаций редко собирается за один раз: базовые кропы и отражения, потом куски из старых проектов, статей и соревнований — и в какой-то момент уже много трансформаций, а ясной логики выбора нет.

Статья про то, как к этому подойти системно: зачем конкретная трансформация, что она симулирует, насколько сильно её включать и какое допущение о данных она закладывает. Ключевая мысль: аугментация — явное утверждение о том, какие вариации не должны менять смысл метки. Отсюда проще решать, что оставить и что убрать, и отличить реальную пользу от ситуации, когда обучение просто стало шумнее.

Без «волшебной таблетки»: не готовая формула, а интуиция, ментальная модель и пошаговый протокол для реальных систем. Внутри — инженерный взгляд, два уровня, пайплайн в семь шагов, настройка силы и бюджета, продвинутые приёмы, диагностика и метрики, признаки вреда, автопоиск, выкат и примеры.

Исходный гайд в документации. (Документация)[https://albumentations.ai/docs/] Репозиторий

Albumentations — открытая библиотека аугментаций изображений (15k+ звёзд на GitHub, 140M+ загрузок).

Читать далее

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.3K

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации.

В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта...

Читать про кожу

Ближайшие события

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.5K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.

Долой трансформеры

TAPe-дневник, день 5: 98% на 2% COCO, меньше “фона” и первые боксы

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.9K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Кратко: подняли точность до ~98% на двухпроцентной выборке, уменьшили количество ложных срабатываний и начали переход от поиска центроидов к детекции прямоугольников вокруг объектов.

Скорее узреть

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели8.8K

Привет, Хабр!

Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации.

Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам.

В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

Читать далее

Строим перспективу по изображению

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели9K

Преобразование Хафа, оператор Собеля и немного линейной алгебры: как я добавил в приложение автоматическое построение перспективы по изображению.

Читать далее

В каждом JPEG зашита модель вашей сетчатки. Буквально

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели56K

После того как я написал статью про то, что ваш монитор не умеет показывать бирюзовый и 65% видимых цветов для него просто не существуют, один мой знакомый (далекий правда от технической отрасли) спросил: «Окей, монитор врёт, а что тогда делает JPEG с оставшимися 35%?» И это хороший вопрос. Я полез в спеку, а через полчаса забыл, зачем вообще полез. Потому меня уже интересовало другое: ребята, которые в 1992-м финализировали этот стандарт, по сути заревёрсили человеческое зрение и запихнули его в алгоритм сжатия.

И я хочу вам про это рассказать, потому что это самый красивый кусок инженерии, который я видел. В той статье я разбирал, как мало мы на самом деле видим. Здесь — как мало нам на самом деле нужно видеть, чтобы мозг поверил, что видит всё. А потом я решил это проверить руками.

Читать далее

RAW — единственный оригинал фотографии. Всё остальное постобработка

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели27K

В эпоху смартфонов искусство фотографии почти утеряно. Фотография стала массовым явлением, а большинство современных фотографов-любителей даже не слышали о таких понятиях, как выдержка или баланс белого. И не знают, какие манипуляции цифровая камера в смартфоне выполняет, чтобы сгенерировать картинку. Да, именно сгенерировать, потому что итоговый результат на экране кардинально отличается от того, что «видит» светочувствительный сенсор.

В более профессиональных цифровых камерах и некоторых топовых смартфонах информация сохраняется в формате RAW — в виде значений яркости, снятых с матрицы. Это «цифровой негатив», который мы можем конвертировать в RGB и отредактировать как угодно, сохранив исходник. Вот где начинается искусство современного цифрового фотографа — в обработке RAW.

Читать далее

First Principles расчёт realtime видеогенерации

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели4.5K

Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.

Читать далее
1
23 ...