Обновить
256K+

Обработка изображений *

Работаем с фото и видео

197,56
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

TAPe‑дневник, день 8: сегментация по границам, 77% классификации и первые бенчмарки против YOLO

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели3.6K

В этом посте продолжаем дневник TAPe‑детекции на COCO: добавляем сегментацию по контрастным патчам на границе объектов, дорабатываем классификацию, избавляемся от learning rate и смотрим, как ведёт себя YOLO на нашем маленьком датасете.

А уже завтра покажем базовые и COCO‑бенчмарки, сравнения с YOLO и RF‑DETR по точности (mAP50/mAP50‑95), скорости, числу параметров и требованиям к данным, а заодно чуть подробнее поговорим про аннотацию и то, почему нам хватает десятков изображений на класс там, где другим нужны сотни тысяч.

Вникнуть

Новости

Создаем комикс с помощью нейросетей: пошаговый разбор

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели3.6K

Вы когда-нибудь хотели нарисовать комикс, но упирались в то, что не умеете рисовать? Руки помнят только школьные каракули на полях тетради, а персонажи в голове так и остаются в голове.

Сейчас это перестало быть проблемой. Нейросети для генерации изображений стали полноценным рабочим инструментом. Они не заменят художника полностью, но помогут сделать законченный комикс за вечер вместо месяца. Да, с кривыми пальцами иногда, с ошибками в перспективе, но живой и ваш.

В этой статье я покажу пошагово:
- как выбрать нейросеть для комикса;
- как сделать так, чтобы персонаж не менял лицо в каждом кадре;
- как добавить облака с текстом и не сойти с ума;
- и, конечно, на какие кнопки нажимать.

Работать я буду в BotHub - это агрегатор нейросетей. Если вам надоело прыгать по сайтам, постоянно включать и выключать VPN, регистрироваться и разбираться, где какая кнопка, BotHub собирает Midjourney, DALL-E 3, Kandinsky и другие популярные модели в одном интерфейсе. Оплата по факту использования - сколько нагенерировал, столько и заплатил. К тому же сервис дарит 300 000 капсов всем новым пользователям по ссылке, можно затестить прямо сейчас!

Одна просьба перед стартом: не ждите от нейросети идеала с первой попытки. Это не голливудский ИИ.

Поехали, приятного прочтения!

Читать далее

Я научил виртуальную камеру быть оператором: как устроен алгоритм face tracking для Shorts/Reels

Уровень сложностиСложный
Время на прочтение14 мин
Охват и читатели4.4K

В предыдущей статье я подробно рассказывал про свой "аниме завод" — пайплайн, который автоматически превращает эпизоды в готовые Shorts. Но внутри этой системы есть один особенно важный узел, который заслуживает отдельного разбора: виртуальная камера для автоматического кадрирования.

В этой статье я разберу не просто "функцию автокропа", а полноценный алгоритм виртуальной камеры для вертикального видео. Это тот случай, когда задача на первый взгляд кажется простой: есть горизонтальный ролик, нужно сделать 9:16, удержать человека в кадре и не превратить результат в дёрганый автофокус из начала 2010-х.

Но как только начинаешь делать это не для демо, а для реального пайплайна, сразу всплывают инженерные проблемы:

Читать далее

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Время на прочтение10 мин
Охват и читатели6.1K

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж - везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM “клиент интересовался” - и 80% информации из разговора потерялось.

Читать далее

Аугментация ограничивающих боксов в детекции: форматы, `BboxParams` и типичные ошибки

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.3K

Когда аугментации в детекции «не работают», проблема часто не в модели, а в bbox после преобразований.

Неверный coord_format, перепутанные нормализованные и абсолютные координаты, агрессивные кропы, пустые боксы после фильтрации — всё это не ломает код, но quietly ломает обучение.

В статье разбираю:

— какие форматы bbox поддерживает Albumentations — как правильно настраивать A.BboxParams — когда использовать min_area и min_visibility — почему обычный RandomCrop часто плохая идея для detection — и где пайплайн чаще всего ломается на практике

Если вы работаете с COCO, YOLO, pascal_voc или просто хотите перестать обучать модель на испорченной разметке — этот материал для вас.

Читать далее

Краткая история биометрии: рождение термина и его внедрение в науку и жизнь

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.6K

Биометрия в наши дни применяется довольно широко. Но она прошла долгий путь. Для начала надо вспомнить, что изначально биометрия была вовсе не тем, что сейчас мы вкладываем в это понятие. Первым попытался ввести этот термин в научный оборот немецкоязычный швейцарский демограф из Базеля Кристоф Бернулли (из известного семейства математиков Бернулли) в 1841 году. В своем «Handbuch der Populationistik: oder der Völker‑ und Menschenkunde: nach statistischen Ergebnissen» («Справочнике по популяционистике, или по народоведению и человековедению: по статистическим результатам») он девять раз употребил словосочетание Populationiſtiſche Biometrie (биометрия народонаселения), объясняя, как следует применять методы математической статистики в демографии: в оценке среднего роста населения, убывания населения, средней продолжительности жизни в данной популяции (города, региона, страны) и так далее

Но этот его термин не прижился, как и другой его термин «Populationistik», вскоре замененный на «демографию». Удачливее оказался англичанин Фрэнсис Гальтон. Он тоже увлекался демографией, но рассматривал ее с точки зрения теории естественного отбора своего кузена Чарлза Дарвина и считал, что для населения цивилизованных стран далеко не лишним был бы еще и искусственный отбор, из‑под пресса которого Homo sapiens вышел, как только стал sapiens. Поэтому сейчас Гальтона помнят прежде всего как отца‑основателя науки евгеники, причем в самой нехорошей ее расовой разновидности. 

Гораздо реже вспоминают, что Гальтон увлекался антропометрией и даже устроил для посетителей Международной выставки здравоохранения в Лондоне в 1884 году показательную антропометрическую лабораторию. Желающие за четверть часа проходили там процедуру обмеров своего тела, очень похожую на бертильонаж, который в том же 1884 году ввели как обязательную процедуру в парижской тюрьме Санте. В 1892 году Гальтон опубликовал книгу «Finger Prints» («Отпечатки пальцев»), где объяснил почему вероятность совпадения их у разных людей стремиться к нулю (сами расчеты вероятности этого он опубликовал в «Proceedings of the Royal Society» в 1891 г.). 

Читать далее

Искусство цифрового мазохизма: как я потратил сотни часов на обложки для сериалов, которые даже не смотрю

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели17K

Последние несколько лет я усиленно увлекаюсь любительской видеореставрацией: беру старые мультики, прогоняю их через большие пайплайны цифровой обработки, зачастую работаю с аудио и по итогу всё это собираю в MKV-контейнеры. От «Чипа и Дейла» эпохи старого Диснея до чистой цифры в виде «Врат Штейна».

Казалось бы: «Обложка да обложка, какая разница? Главное — видео и звук!» Но вы крупно недооцениваете мою любовь к перфекционизму.

Проблема была даже не в том, что обложек нет, а в том, что ими почти никто не занимается. Ни корпорации-издатели, ни даже базы от энтузиастов вроде TheTvDB зачастую почти не уделяют нормального внимания стародавним релизам, из-за чего лично у меня возникает странный контраст: на диске лежит моя отреставрированная классика в 4К, а медиа-сервер подтягивает размытый скриншот серии с VHS-кассеты начала 2000-х. А иногда та же практика применяется и к новым релизам 0_0 Ужас ведь.

В этой статье я хочу показать свой путь проб и ошибок — от примитивных «ИИ-фильтров» на «Чип и Дейле» и автоматических скриптов для «Розовой пантеры» до освоения цветокоррекции и ручной реставрации на куче обложек для «Тома и Джерри», а затем — до сложного и зачастую ещё более муторного симбиоза ИИ-генерации и ручной доводки при создании уникальных постеров для «Врат Штейна» и других сериалов.

Читать далее

Вся музыка, все фотографии и весь Wi-Fi работают на одном трюке. Ему 200 лет

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели30K

Откройте ваш плейлист и нажмите play на любом треке.

Эта песня попала в ваши наушники благодаря одной идее. Той самой, за которую француза в 1807 году высмеяли на заседании Парижской академии наук. Лаплас был «за», но Лагранж встал и сказал: «Это невозможно.» Француза звали Жан-Батист Жозеф Фурье. Его идея была настолько простой, что учёные отказались ей поверить.

Читать далее

Промпты для генерации изображений: как правильно сформулировать инструкцию для ИИ

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.9K

Вы когда-нибудь получали от нейросети изображение, которое хочется сразу удалить и сделать вид, что этого не было? Допустим, вы открыли Midjourney, DALL-E или Kandinsky. Пишете: "нарисуй красивого кота". ИИ выдает что-то с тремя хвостами, шестью глазами и текстурой мокрой тряпки. Знакомо?

Нейросети для генерации изображений - отличные исполнители, но ужасные телепаты. Они не знают, что значит красиво, атмосферно или немного грустно. Им нужны конкретные слова: тип освещения, угол съемки, материалы, стиль художника. И даже порядок этих слов имеет значение. Да, они капризные, как заказчик, который не знает, чего хочет, но "это точно не то".

В этой статье мы соберем четкую инструкцию о том, как разговаривать с ИИ на его языке, основываясь только на конкретных приемах: структура промпта, вес слов, негативные инструкции и настройки.

Под конец вы сможете превращать кота-уродца в фотореалистичного мейн-куна в золотистом свете, 85 мм, f/1.4. Или в акварельного кота в стиле гравюр XIX века. ИИ перестанет вас бесить. Ну, хотя бы чуть-чуть.

Готовы? Тогда поехали, приятного прочтения!

Читать далее

Как подбирать аугментации: гипотезы, протокол и метрики

Уровень сложностиСредний
Время на прочтение56 мин
Охват и читатели6K

Новый пайплайн аугментаций редко собирается за один раз: базовые кропы и отражения, потом куски из старых проектов, статей и соревнований — и в какой-то момент уже много трансформаций, а ясной логики выбора нет.

Статья про то, как к этому подойти системно: зачем конкретная трансформация, что она симулирует, насколько сильно её включать и какое допущение о данных она закладывает. Ключевая мысль: аугментация — явное утверждение о том, какие вариации не должны менять смысл метки. Отсюда проще решать, что оставить и что убрать, и отличить реальную пользу от ситуации, когда обучение просто стало шумнее.

Без «волшебной таблетки»: не готовая формула, а интуиция, ментальная модель и пошаговый протокол для реальных систем. Внутри — инженерный взгляд, два уровня, пайплайн в семь шагов, настройка силы и бюджета, продвинутые приёмы, диагностика и метрики, признаки вреда, автопоиск, выкат и примеры.

Исходный гайд в документации. (Документация)[https://albumentations.ai/docs/] Репозиторий

Albumentations — открытая библиотека аугментаций изображений (15k+ звёзд на GitHub, 140M+ загрузок).

Читать далее

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.3K

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации.

В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта...

Читать про кожу

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.5K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.

Долой трансформеры

TAPe-дневник, день 5: 98% на 2% COCO, меньше “фона” и первые боксы

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.9K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Кратко: подняли точность до ~98% на двухпроцентной выборке, уменьшили количество ложных срабатываний и начали переход от поиска центроидов к детекции прямоугольников вокруг объектов.

Скорее узреть

Ближайшие события

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели8.7K

Привет, Хабр!

Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации.

Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам.

В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

Читать далее

Строим перспективу по изображению

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели9K

Преобразование Хафа, оператор Собеля и немного линейной алгебры: как я добавил в приложение автоматическое построение перспективы по изображению.

Читать далее

В каждом JPEG зашита модель вашей сетчатки. Буквально

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели55K

После того как я написал статью про то, что ваш монитор не умеет показывать бирюзовый и 65% видимых цветов для него просто не существуют, один мой знакомый (далекий правда от технической отрасли) спросил: «Окей, монитор врёт, а что тогда делает JPEG с оставшимися 35%?» И это хороший вопрос. Я полез в спеку, а через полчаса забыл, зачем вообще полез. Потому меня уже интересовало другое: ребята, которые в 1992-м финализировали этот стандарт, по сути заревёрсили человеческое зрение и запихнули его в алгоритм сжатия.

И я хочу вам про это рассказать, потому что это самый красивый кусок инженерии, который я видел. В той статье я разбирал, как мало мы на самом деле видим. Здесь — как мало нам на самом деле нужно видеть, чтобы мозг поверил, что видит всё. А потом я решил это проверить руками.

Читать далее

RAW — единственный оригинал фотографии. Всё остальное постобработка

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели27K

В эпоху смартфонов искусство фотографии почти утеряно. Фотография стала массовым явлением, а большинство современных фотографов-любителей даже не слышали о таких понятиях, как выдержка или баланс белого. И не знают, какие манипуляции цифровая камера в смартфоне выполняет, чтобы сгенерировать картинку. Да, именно сгенерировать, потому что итоговый результат на экране кардинально отличается от того, что «видит» светочувствительный сенсор.

В более профессиональных цифровых камерах и некоторых топовых смартфонах информация сохраняется в формате RAW — в виде значений яркости, снятых с матрицы. Это «цифровой негатив», который мы можем конвертировать в RGB и отредактировать как угодно, сохранив исходник. Вот где начинается искусство современного цифрового фотографа — в обработке RAW.

Читать далее

First Principles расчёт realtime видеогенерации

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели4.5K

Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.

Читать далее

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели5.8K

В начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к необходимости вынужденного забоя тысяч голов. Для многих фермеров это означало потерю бизнеса и средств к существованию.

Мы задались вопросом: может ли доступный Computer Vision стать первой линией обороны? Инструментом, который позволит фермеру в отдаленном районе провести первичный скрининг (триаж) животного с помощью обычного смартфона и вовремя вызвать ветеринара, не дожидаясь начала эпидемии.

Так родился проект AI-Vet-Scanner (наше пространство на Hugging Face), определяющий признаки заболеваний по фотографии.

Читать далее

Топ приложений и программ для создания коллажей из фото (мой выбор)

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.1K

За годы работы над собственными проектами я перепробовал десятки программ для создания коллажей. В этом рейтинге я постарался собрать лучшие приложения, которые без проблем скачиваются в РФ. Также в список попали онлайн-сервисы, с которыми можно работать прямо из браузера с любого устройства. Думаю, среди них вы найдете что-то для себя: удобное и с нужным набором функций.

Читать далее
1
23 ...