Все потоки
Поиск
Написать публикацию
Обновить
52.1

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Сканирование документов на планшетах Kvadra: как мы создавали и обучали алгоритм

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2K

Привет, Хабр! Меня зовут Владислав, я CV Engineer в компании YADRO. В этой статье я расскажу, как мы разрабатывали и обучали алгоритм детекции документов для нашего планшета Kvadra_T. Я подробно описал нюансы задачи и весь наш путь — от классического подхода до генерации недостающих датасетов и обучения на них нашей собственной нейросети. Постарался сделать историю интересной как для новичков в теме, так и для более опытных читателей. Режим детекции, кстати, уже доступен в kvadraOS.

Читать далее

Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений

Уровень сложностиСредний
Время на прочтение23 мин
Количество просмотров6.5K

Всем привет. Сегодняшний материал — продолжение цикла статей про ключевые события в развитии архитектур нейросетей. В прошлый раз я рассказал о классификации изображений. Сегодня речь пойдет про сегментацию. Статья охватывает FCN, U‑Net, SegNet, DeepLab, PSPNet, Mask R‑CMM и HRNet.

Сегментация изображений

Как улучшить распознавание маркировки с помощью нейросети

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.2K

Наверняка многие из вас пользовались кассами самообслуживания в супермаркетах и пробовали отсканировать DataMatrix код «Честный знак» с упаковок мороженого, творога, молока, глазированных сырков и прочих продуктов в тонкой и гибкой упаковке. Согласитесь, редко получается сделать это с первого раза. А теперь представьте такую ситуацию на производстве, где нужно массово агрегировать всю продукцию с маркировкой, а она не распознаётся! Именно такую проблему мы и старались решить с помощью нейросети.

Читать далее

Использование метамерии для оценки качества освещения

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.6K

Можно ли оценить CRI без электронных приборов и спектрометров? Насколько точно это можно сделать?

Мы попытались создать "лакмусовую бумажку" для оценки освещения, используя разные пигменты.

Читать далее

Введение в синтетические данные для ML: зачем они нужны?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2K

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?

В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.

Читать далее

Apple Intelligence на Андроид? Обзор ИИ, портированных на мобильные устройства с локальным запуском

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.6K

Мир мобильных технологий не стоит на месте, и сегодня на смартфонах можно запускать нейросети, которые совсем недавно требовали мощных компьютеров. Stable Diffusion, языковые модели, такие как *LLaMa, и другие ресурсоёмкие ИИ теперь работают прямо у вас в кармане. В этой статье мы рассмотрим несколько таких приложений и как некоторые современные программные решения позволяют использовать смартфоны для работы с искусственным интеллектом.
Читать дальше →

Генерируем презентации с помощью GigaChat и Kandinsky

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров5.8K

Все мы время от времени сталкиваемся с необходимостью сделать презентацию, даже если наша работа, казалось бы, этого не предполагает. Часто это трудоёмкая задача, которая досадно надолго отвлекает от просмотра мемов действительно важных дел вроде написания кода и обучения моделей.

Мы решили проверить, насколько современные LLM и модели генерации изображений могут тут облегчить нам жизнь, учитывая, насколько мощно они продвинулись в последние годы. Для этого мы собрали MVP на базе GigaChat-Max и Kandinsky 3.1, принимающий на вход текстовый запрос и количество слайдов и генерирующий файл презентации в формате .pptx.

Читать далее

Поиск по фото для Ozon и WB за 3 часа

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров9.7K

Как создать функционал поиска товара по фото буквально за считанные часы. Сравниваем альтернативные алгоритмы, разбираем сильные и слабые стороны каждого.

Читать далее

Понимает ли Vision Llama импрессионистов?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.7K

Всем привет, меня зовут Арсений, я Data Scientist в компании Raft, и сегодня я расскажу вам про Visual Language Models (VLM).

Большие языковые модели уже стали частью нашей жизни и мы применяем их, чтобы упростить современную рутину, а так же используем для решения бизнес задач. Недавно вышло новое поколение vision transformer моделей, которые заметно упростили анализ изображений, из какой бы сферы эти изображения не были.

Особенно заметным был сентябрьский релиз Llama-3.2-11b, и не только потому что это первая vision модель от Llama, сколько потому, что с ней вместе вышло целое семейство моделей, включая маленькие на 1B и 3B параметров. А как вы знаете, меньше, значит юзабельнее.

Читать далее

Склеить несколько видеофайлов, что может быть проще…

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.1K

Если их пара. А если их пара десятков? А если несколько сотен? А если они еще и в разных форматах? Идея загонять все в видеоредактор отпала почти сразу. Но в начале — небольшая предыстория.

За каждым великим мужчиной стоит женщина, стоит и ворчит. (народная мудрость, отцензурировано)

Читать далее

Как я создавал бесплатный сервис оптимизации изображений FlashImg.ru

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.6K

Всем привет. В этом материале я расскажу как создавал беспслатный сервис оптимизации изображений FlashImg.ru

Читать далее

Как лидар помог обнаружить древние города: что ученые узнали о Шелковом пути

Время на прочтение5 мин
Количество просмотров4.7K

Привет, жители Хабра! Это Даша Фролова из команды спецпроектов МТС Диджитал. Сегодня поговорим о древних городах — и не цифровых, а вполне реальных.

Лидарное сканирование помогло обнаружить средневековые города, скрытые в горах вдоль Шелкового пути. Оказалось, что в горах Тянь-Шаня, которые всегда считались препятствием для торговли, существовали процветающие города — их роль в международной торговле прошлых столетий все это время оставалась незамеченной. Один из таких городов — Тугунбулак — поражает масштабами и архитектурой. В период расцвета он занимал площадь в 120 гектаров. Для сравнения: площадь Сиены, одного из главных городов Италии той эпохи, составляла 105 га. Что еще известно о Тугунбулаке и какой город обнаружили еще, рассказываю ниже.

Читать далее

Эволюция архитектур нейросетей в компьютерном зрении: классификация изображений

Уровень сложностиСредний
Время на прочтение25 мин
Количество просмотров9.4K

Приветствую вас, дорогие читатели! В своей прошлой статье на Хабр я рассказывал, как стать разработчиком в области машинного обучения и нейронных сетей, а также какие вопросы об эволюции архитектур нейронных сетей часто задают на собеседованиях. Чтобы помочь вам разобраться в этой теме, я подготовил материал о ключевых событиях в развитии архитектур нейронных сетей — новшествах и особенностях, которые появлялись на каждом этапе. Вместе мы проследим логику инженерной мысли и поймем, как эти идеи повлияли на современное состояние технологий.

Так как материал довольно объемный, разбиваю его на три части: «Классификация изображений», «Сегментация изображений» и «Детекция объектов». Надеюсь, что этот сборник окажется полезным и вдохновит вас на дальнейшие исследования в области глубокого обучения.

Классификация изображений

Ближайшие события

Записываем PNG без мам, пап и внешних библиотек

Время на прочтение9 мин
Количество просмотров18K

Я решал очередную техническую задачу и столкнулся с проблемой: нужно сохранять изображения, а у меня нет сериализаторов и я не могу использовать готовые библиотеки. Ситуацию ухудшает, что из доступных форматов только PNG, JPEG и WebP. Выбор пал на PNG.

Формат изображения PNG известен с 1996 года, а на Хабре опубликовано несколько статей о декодировании этого формата. И ни одной — о кодировании. Я расскажу, как сохранить PNG своими руками на случай, если вам тоже придется это делать. Например, в академических целях.

Под катом вас ждет подробный разбор каждого байта на множестве иллюстраций.
Читать дальше →

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.8K

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений, и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале.

Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.

Читать далее

Как мы переманили пользователей удобным сервисом платежей

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.3K

Всем привет! Меня зовут Александра Пилюгина, я продакт-менеджер команды «QR и Фотоплатеж» в управлении «Платежи», банк ВТБ. К нам каждый месяц приходит около 500 тысяч новых клиентов. Специально для них наша команда разработала сервис переноса платежей в ВТБ Онлайн, попутно решив множество проблем с распознаванием платежных документов и извлечения из них полезной информации.

Заходите под кат — расскажу, как мы всё это делали.

Подробнее

Как мы выиграли соревнование CLEF 2024 по генерации медицинских снимков

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров1.3K

Всем привет! Меня зовут Михаил Чайчук, я учусь в магистратуре Вышки на ФКН, где также являюсь исследователем в НУЛ моделей и методов вычислительной прагматики. А недавно я пришел работать в AIRI на должность инженера-исследователя в команду Прикладное NLP, которой руководит Елена Тутубалина. Вместе с ней мы приняли участие в соревновании ImageCLEFmed MEDVQA-GI 2024 по генерации медицинских картинок, которое проводилось в рамках конференции CLEF 2024. 

Наш результат оказался лучшим среди 27 зарегистрированных команд! Мы уже опубликовали статью в сборнике соревнования, здесь же я расскажу, как нам удалось добиться победы.

ДИСКЛЕЙМЕР

В этом тексте содержатся изображения, имитирующих результаты эндоскопических исследований желудка и кишечника, таких как гастроскопия и колоноскопия. К сожалению, редактор Хабра не умеет блюрить картинки. Поэтому если вы чувствительны к подобным фотографиям, от чтения этой статьи вам лучше воздержаться.

Приятного аппетитачтения!

Читать далее

Как мы создаём Visionatrix: упрощая ComfyUI

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.3K

Добрый день всем.

В этой статье мы расскажем о нашем опыте работы с ComfyUI и разработке Visionatrix — надстройки, которая упрощает генерацию медиа. Мы обсудим ключевые проблемы, с которыми сталкиваются пользователи, наш подход к их решению, а также вкратце поделимся тем, как мы использовали ChatGPT и Claude для ускорения разработки в условиях ограниченного времени.

Кроме того, рассмотрим планы по улучшению и упрощению разработки интеграций.

Читать далее

Как научить LLM понимать видео? Часть 2

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров3.6K

Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.

Читать далее

Копирайт в мире победившего ИИ: дизайнер пытается защитить права на сгенерированное изображение

Время на прочтение4 мин
Количество просмотров5.3K

Привет, обитатели Хабра! Помните это изображение? Оно называется Théâtre D'opéra Spatial. В 2022 году при помощи нейросети Midjourney его сгенерировал Джейсон Аллен, президент компании настольных игр Incarnate Games. Вышло настолько круто, что работа заняла первое место в номинации «Лучшая цифровая обработка» категории цифрового искусства на конкурсе в Колорадо. Казалось бы, можно радоваться, но тут начались проблемы.

Аллен не отрицал, что использовал генеративный ИИ, и на него посыпались обвинения в ускорении «смерти» творческих профессий. Но было кое-что и посерьезнее: он не смог получить авторские права на свое произведение.

Бороться энтузиаст цифрового ИИ-искусства не прекращает. Недавно он подал иск против Бюро авторского права США: специалисты этой организации не дали Аллену получить патент на иллюстрацию. Что происходит сейчас и как может развернуться ситуация, обсудим под катом.

Читать далее

Вклад авторов