Обновить
256K+

Обработка изображений *

Работаем с фото и видео

191,28
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Краткая история биометрии: рождение термина и его внедрение в науку и жизнь

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели3K

Биометрия в наши дни применяется довольно широко. Но она прошла долгий путь. Для начала надо вспомнить, что изначально биометрия была вовсе не тем, что сейчас мы вкладываем в это понятие. Первым попытался ввести этот термин в научный оборот немецкоязычный швейцарский демограф из Базеля Кристоф Бернулли (из известного семейства математиков Бернулли) в 1841 году. В своем «Handbuch der Populationistik: oder der Völker- und Menschenkunde: nach statistischen Ergebnissen» («Справочнике по популяционистике, или по народоведению и человековедению: по статистическим результатам») он девять раз употребил словосочетание Populationiſtiſche Biometrie (биометрия народонаселения), объясняя, как следует применять методы математической статистики в демографии: в оценке среднего роста населения, убывания населения, средней продолжительности жизни в данной популяции (города, региона, страны) и т.д.

Но этот его термин не прижился, как и другой его термин «Populationistik», вскоре замененный на «демографию». Удачливее оказался англичанин Фрэнсис Гальтон. Он тоже увлекался демографией, но рассматривал ее с точки зрения теории естественного отбора своего кузена Чарлза Дарвина и считал, что для населения цивилизованных стран далеко не лишним был бы еще и искусственный отбор, из-под пресса которого Homo sapiens вышел, как только стал sapiens. Поэтому сейчас Гальтона помнят прежде всего как отца-основателя науки евгеники, причем в самой нехорошей ее расовой разновидности. 

Гораздо реже вспоминают, что Гальтон увлекался антропометрией и даже устроил для посетителей Международной выставки здравоохранения в Лондоне в 1884 году показательную антропометрическую лабораторию. Желающие за четверть часа проходили там процедуру обмеров своего тела, очень похожую на бертильонаж, который в том же 1884 году ввели как обязательную процедуру в парижской тюрьме Санте. В 1892 году Гальтон опубликовал книгу «Finger Prints»  («Отпечатки пальцев»), где объяснил почему вероятность совпадения их у разных людей стремиться к нулю (сами расчеты вероятности этого он опубликовал в «Proceedings of the Royal Society» в 1891 г.). 

Читать далее

Новости

Искусство цифрового мазохизма: как я потратил сотни часов на обложки для сериалов, которые даже не смотрю

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели11K

Последние несколько лет я усиленно увлекаюсь любительской видеореставрацией: беру старые мультики, прогоняю их через большие пайплайны цифровой обработки, зачастую работаю с аудио и по итогу всё это собираю в MKV-контейнеры. От «Чипа и Дейла» эпохи старого Диснея до чистой цифры в виде «Врат Штейна».

Казалось бы: «Обложка да обложка, какая разница? Главное — видео и звук!» Но вы крупно недооцениваете мою любовь к перфекционизму.

Проблема была даже не в том, что обложек нет, а в том, что ими почти никто не занимается. Ни корпорации-издатели, ни даже базы от энтузиастов вроде TheTvDB зачастую почти не уделяют нормального внимания стародавним релизам, из-за чего лично у меня возникает странный контраст: на диске лежит моя отреставрированная классика в 4К, а медиа-сервер подтягивает размытый скриншот серии с VHS-кассеты начала 2000-х. А иногда та же практика применяется и к новым релизам 0_0 Ужас ведь.

В этой статье я хочу показать свой путь проб и ошибок — от примитивных «ИИ-фильтров» на «Чип и Дейле» и автоматических скриптов для «Розовой пантеры» до освоения цветокоррекции и ручной реставрации на куче обложек для «Тома и Джерри», а затем — до сложного и зачастую ещё более муторного симбиоза ИИ-генерации и ручной доводки при создании уникальных постеров для «Врат Штейна» и других сериалов.

Читать далее

Вся музыка, все фотографии и весь Wi-Fi работают на одном трюке. Ему 200 лет

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели23K

Откройте ваш плейлист и нажмите play на любом треке.

Эта песня попала в ваши наушники благодаря одной идее. Той самой, за которую француза в 1807 году высмеяли на заседании Парижской академии наук. Лаплас был «за», но Лагранж встал и сказал: «Это невозможно.» Француза звали Жан-Батист Жозеф Фурье. Его идея была настолько простой, что учёные отказались ей поверить.

Читать далее

Промпты для генерации изображений: как правильно сформулировать инструкцию для ИИ

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.7K

Вы когда-нибудь получали от нейросети изображение, которое хочется сразу удалить и сделать вид, что этого не было? Допустим, вы открыли Midjourney, DALL-E или Kandinsky. Пишете: "нарисуй красивого кота". ИИ выдает что-то с тремя хвостами, шестью глазами и текстурой мокрой тряпки. Знакомо?

Нейросети для генерации изображений - отличные исполнители, но ужасные телепаты. Они не знают, что значит красиво, атмосферно или немного грустно. Им нужны конкретные слова: тип освещения, угол съемки, материалы, стиль художника. И даже порядок этих слов имеет значение. Да, они капризные, как заказчик, который не знает, чего хочет, но "это точно не то".

В этой статье мы соберем четкую инструкцию о том, как разговаривать с ИИ на его языке, основываясь только на конкретных приемах: структура промпта, вес слов, негативные инструкции и настройки.

Под конец вы сможете превращать кота-уродца в фотореалистичного мейн-куна в золотистом свете, 85 мм, f/1.4. Или в акварельного кота в стиле гравюр XIX века. ИИ перестанет вас бесить. Ну, хотя бы чуть-чуть.

Готовы? Тогда поехали, приятного прочтения!

Читать далее

Как подбирать аугментации: гипотезы, протокол и метрики

Уровень сложностиСредний
Время на прочтение56 мин
Охват и читатели5.9K

Новый пайплайн аугментаций редко собирается за один раз: базовые кропы и отражения, потом куски из старых проектов, статей и соревнований — и в какой-то момент уже много трансформаций, а ясной логики выбора нет.

Статья про то, как к этому подойти системно: зачем конкретная трансформация, что она симулирует, насколько сильно её включать и какое допущение о данных она закладывает. Ключевая мысль: аугментация — явное утверждение о том, какие вариации не должны менять смысл метки. Отсюда проще решать, что оставить и что убрать, и отличить реальную пользу от ситуации, когда обучение просто стало шумнее.

Без «волшебной таблетки»: не готовая формула, а интуиция, ментальная модель и пошаговый протокол для реальных систем. Внутри — инженерный взгляд, два уровня, пайплайн в семь шагов, настройка силы и бюджета, продвинутые приёмы, диагностика и метрики, признаки вреда, автопоиск, выкат и примеры.

Исходный гайд в документации. (Документация)[https://albumentations.ai/docs/] Репозиторий

Albumentations — открытая библиотека аугментаций изображений (15k+ звёзд на GitHub, 140M+ загрузок).

Читать далее

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.2K

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации.

В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта...

Читать про кожу

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.5K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.

Долой трансформеры

TAPe-дневник, день 5: 98% на 2% COCO, меньше “фона” и первые боксы

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.9K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Кратко: подняли точность до ~98% на двухпроцентной выборке, уменьшили количество ложных срабатываний и начали переход от поиска центроидов к детекции прямоугольников вокруг объектов.

Скорее узреть

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели8.6K

Привет, Хабр!

Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации.

Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам.

В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

Читать далее

Строим перспективу по изображению

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели8.9K

Преобразование Хафа, оператор Собеля и немного линейной алгебры: как я добавил в приложение автоматическое построение перспективы по изображению.

Читать далее

В каждом JPEG зашита модель вашей сетчатки. Буквально

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели53K

После того как я написал статью про то, что ваш монитор не умеет показывать бирюзовый и 65% видимых цветов для него просто не существуют, один мой знакомый (далекий правда от технической отрасли) спросил: «Окей, монитор врёт, а что тогда делает JPEG с оставшимися 35%?» И это хороший вопрос. Я полез в спеку, а через полчаса забыл, зачем вообще полез. Потому меня уже интересовало другое: ребята, которые в 1992-м финализировали этот стандарт, по сути заревёрсили человеческое зрение и запихнули его в алгоритм сжатия.

И я хочу вам про это рассказать, потому что это самый красивый кусок инженерии, который я видел. В той статье я разбирал, как мало мы на самом деле видим. Здесь — как мало нам на самом деле нужно видеть, чтобы мозг поверил, что видит всё. А потом я решил это проверить руками.

Читать далее

RAW — единственный оригинал фотографии. Всё остальное постобработка

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели27K

В эпоху смартфонов искусство фотографии почти утеряно. Фотография стала массовым явлением, а большинство современных фотографов-любителей даже не слышали о таких понятиях, как выдержка или баланс белого. И не знают, какие манипуляции цифровая камера в смартфоне выполняет, чтобы сгенерировать картинку. Да, именно сгенерировать, потому что итоговый результат на экране кардинально отличается от того, что «видит» светочувствительный сенсор.

В более профессиональных цифровых камерах и некоторых топовых смартфонах информация сохраняется в формате RAW — в виде значений яркости, снятых с матрицы. Это «цифровой негатив», который мы можем конвертировать в RGB и отредактировать как угодно, сохранив исходник. Вот где начинается искусство современного цифрового фотографа — в обработке RAW.

Читать далее

First Principles расчёт realtime видеогенерации

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели4.5K

Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.

Читать далее

Ближайшие события

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели5.7K

В начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к необходимости вынужденного забоя тысяч голов. Для многих фермеров это означало потерю бизнеса и средств к существованию.

Мы задались вопросом: может ли доступный Computer Vision стать первой линией обороны? Инструментом, который позволит фермеру в отдаленном районе провести первичный скрининг (триаж) животного с помощью обычного смартфона и вовремя вызвать ветеринара, не дожидаясь начала эпидемии.

Так родился проект AI-Vet-Scanner (наше пространство на Hugging Face), определяющий признаки заболеваний по фотографии.

Читать далее

Топ приложений и программ для создания коллажей из фото (мой выбор)

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели5.9K

За годы работы над собственными проектами я перепробовал десятки программ для создания коллажей. В этом рейтинге я постарался собрать лучшие приложения, которые без проблем скачиваются в РФ. Также в список попали онлайн-сервисы, с которыми можно работать прямо из браузера с любого устройства. Думаю, среди них вы найдете что-то для себя: удобное и с нужным набором функций.

Читать далее

Почему ваш монитор не умеет показывать бирюзовый (и ещё 65% цветов)

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели29K

Всё началось с принтера. Точнее — с 1700 рублей, типографии на Театральной и фотографии моря в Абхазии. Кадр был невероятный: бирюзовая вода, низкое солнце, плачущие эвкалипты, и такой цвет, что хотелось окунуться в дисплей. Я выбрал баритовую бумагу, хотел потом вставить в рамку. Прождал сорок минут в очереди и... На выходе грязно-голубая лужа.

Нормальный человек сказал бы «плохая типография» и пошёл дальше. Но у меня профдеформация, я полез дебажить цвет. И через пару вечеров кроличьей норы и экспериментов на коленке я знал о мониторах столько, что мне стало физически некомфортно на них смотреть.

Читать далее

FAQ по TAPe‑детекции объектов (как мы учимся детектить объекты одномоментно и в десятки раз эффективней/дешевле ML)

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели3.2K

Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту.

О чем речь

Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц, другой тыц) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать.​

На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU.​ В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано.​

TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть.​ На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются.

Очень интересно

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Время на прочтение4 мин
Охват и читатели9.1K

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных визуальных детекторов. Разберём связку оптического распознавания символов (OCR) с NER-моделью, покажем метрики на реальных данных, раскроем ограничения подхода и наши решения для их преодоления.

Читать далее

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели6.3K

Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например.

Но, внезапно, мне в личку постучались с таким проектом.

Читать далее

Как научить планшет видеть несколько объектов в кадре одновременно: multi-label классификация

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели8.2K

Представьте, что вам нужно научить камеру планшета почти мгновенно определять, что происходит в кадре. И это не просто «автомобиль» или «человек»: нужно различать и связывать разные категории объектов: документы, людей, QR, штрихкоды и так далее. Казалось бы, достаточно взять предобученную модель и заточить для запуска на конкретном железе, в нашем случае это планшет KVADRA_T.  

Привет, Хабр! Меня зовут Анастасия Шпилёва, и я работаю в команде разработки программных ИИ-компонент MLKit компании YADRO. В статье расскажу, почему я остановилась на multi-label классификации изображений. А также — как я собирала, размечала и валидировала датасет, от которого во многом зависит эффективность модели.

Читать далее
1
23 ...