Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

MalchuL 11 дек 2024 в 08:15

Сканирование документов на планшетах Kvadra: как мы создавали и обучали алгоритм

Средний

11 мин

Блог компании YADROПланшетыИскусственный интеллектМашинное обучение * Обработка изображений *

Кейс

✏️ Технотекст 7

Привет, Хабр! Меня зовут Владислав, я CV Engineer в компании YADRO. В этой статье я расскажу, как мы разрабатывали и обучали алгоритм детекции документов для нашего планшета Kvadra_T. Я подробно описал нюансы задачи и весь наш путь — от классического подхода до генерации недостающих датасетов и обучения на них нашей собственной нейросети. Постарался сделать историю интересной как для новичков в теме, так и для более опытных читателей. Режим детекции, кстати, уже доступен в kvadraOS.

+26

Alexandr1997ag 11 дек 2024 в 08:12

Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений

Средний

23 мин

6.5K

Блог компании SL SoftОбработка изображений * Карьера в IT-индустрииМашинное обучение *

Всем привет. Сегодняшний материал — продолжение цикла статей про ключевые события в развитии архитектур нейросетей. В прошлый раз я рассказал о классификации изображений. Сегодня речь пойдет про сегментацию. Статья охватывает FCN, U‑Net, SegNet, DeepLab, PSPNet, Mask R‑CMM и HRNet.

Сегментация изображений

+12

avsolovyev 10 дек 2024 в 20:11

Как улучшить распознавание маркировки с помощью нейросети

Простой

8 мин

3.2K

Обработка изображений * Промышленное программирование *

Кейс

Наверняка многие из вас пользовались кассами самообслуживания в супермаркетах и пробовали отсканировать DataMatrix код «Честный знак» с упаковок мороженого, творога, молока, глазированных сырков и прочих продуктов в тонкой и гибкой упаковке. Согласитесь, редко получается сделать это с первого раза. А теперь представьте такую ситуацию на производстве, где нужно массово агрегировать всю продукцию с маркировкой, а она не распознаётся! Именно такую проблему мы и старались решить с помощью нейросети.

+11

Robgnokfar 7 дек 2024 в 19:42

Использование метамерии для оценки качества освещения

Средний

11 мин

1.6K

Работа с видео * ФототехникаГаджетыГрафический дизайн * Обработка изображений *

Можно ли оценить CRI без электронных приборов и спектрометров? Насколько точно это можно сделать?

Мы попытались создать "лакмусовую бумажку" для оценки освещения, используя разные пигменты.

+14

evgeniatro 21 ноя 2024 в 12:26

Введение в синтетические данные для ML: зачем они нужны?

Простой

7 мин

Блог компании Data LightОбработка изображений * Машинное обучение * Big Data * Data Mining *

Recovery Mode

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?

В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.

Realife 20 ноя 2024 в 09:01

Apple Intelligence на Андроид? Обзор ИИ, портированных на мобильные устройства с локальным запуском

Средний

6 мин

3.6K

Блог компании RUVDS.comИскусственный интеллектОбработка изображений * Смартфоны

Обзор

Мир мобильных технологий не стоит на месте, и сегодня на смартфонах можно запускать нейросети, которые совсем недавно требовали мощных компьютеров. Stable Diffusion, языковые модели, такие как *LLaMa, и другие ресурсоёмкие ИИ теперь работают прямо у вас в кармане. В этой статье мы рассмотрим несколько таких приложений и как некоторые современные программные решения позволяют использовать смартфоны для работы с искусственным интеллектом.

Читать дальше →

+35

nikgerasimenko 13 ноя 2024 в 08:06

Генерируем презентации с помощью GigaChat и Kandinsky

Простой

7 мин

5.8K

Блог компании СберИскусственный интеллектМашинное обучение * Обработка изображений *

Кейс

Все мы время от времени сталкиваемся с необходимостью сделать презентацию, даже если наша работа, казалось бы, этого не предполагает. Часто это трудоёмкая задача, которая досадно надолго отвлекает от ~~просмотра мемов~~ действительно важных дел вроде написания кода и обучения моделей.

Мы решили проверить, насколько современные LLM и модели генерации изображений могут тут облегчить нам жизнь, учитывая, насколько мощно они продвинулись в последние годы. Для этого мы собрали MVP на базе GigaChat-Max и Kandinsky 3.1, принимающий на вход текстовый запрос и количество слайдов и генерирующий файл презентации в формате .pptx.

+27

Statzilla 11 ноя 2024 в 18:39

Поиск по фото для Ozon и WB за 3 часа

Простой

3 мин

9.7K

Обработка изображений * Искусственный интеллект

Как создать функционал поиска товара по фото буквально за считанные часы. Сравниваем альтернативные алгоритмы, разбираем сильные и слабые стороны каждого.

parseny 8 ноя 2024 в 13:37

Понимает ли Vision Llama импрессионистов?

Простой

6 мин

2.7K

Блог компании RaftБудущее здесьОбработка изображений * Искусственный интеллектNatural Language Processing *

Всем привет, меня зовут Арсений, я Data Scientist в компании Raft, и сегодня я расскажу вам про Visual Language Models (VLM).

Большие языковые модели уже стали частью нашей жизни и мы применяем их, чтобы упростить современную рутину, а так же используем для решения бизнес задач. Недавно вышло новое поколение vision transformer моделей, которые заметно упростили анализ изображений, из какой бы сферы эти изображения не были.

Особенно заметным был сентябрьский релиз Llama-3.2-11b, и не только потому что это первая vision модель от Llama, сколько потому, что с ней вместе вышло целое семейство моделей, включая маленькие на 1B и 3B параметров. А как вы знаете, меньше, значит юзабельнее.

+15

sashacmc 8 ноя 2024 в 07:56

Склеить несколько видеофайлов, что может быть проще…

Средний

6 мин

7.1K

Open source * Python * Обработка изображений * Программирование * Лайфхаки для гиков

Туториал

Если их пара. А если их пара десятков? А если несколько сотен? А если они еще и в разных форматах? Идея загонять все в видеоредактор отпала почти сразу. Но в начале — небольшая предыстория.

За каждым великим мужчиной стоит женщина, стоит и ворчит. (народная мудрость, отцензурировано)

+18

AlexMeshock 7 ноя 2024 в 15:00

Как я создавал бесплатный сервис оптимизации изображений FlashImg.ru

Простой

3 мин

2.6K

Облачные сервисы * Клиентская оптимизация * Обработка изображений * ReactJS *

Обзор

Всем привет. В этом материале я расскажу как создавал беспслатный сервис оптимизации изображений FlashImg.ru

Darya_Frolova 7 ноя 2024 в 08:54

Как лидар помог обнаружить древние города: что ученые узнали о Шелковом пути

5 мин

4.7K

Блог компании МТСНаучно-популярноеУрбанизмОбработка изображений *

Привет, жители Хабра! Это Даша Фролова из команды спецпроектов МТС Диджитал. Сегодня поговорим о древних городах — и не цифровых, а вполне реальных.

Лидарное сканирование помогло обнаружить средневековые города, скрытые в горах вдоль Шелкового пути. Оказалось, что в горах Тянь-Шаня, которые всегда считались препятствием для торговли, существовали процветающие города — их роль в международной торговле прошлых столетий все это время оставалась незамеченной. Один из таких городов — Тугунбулак — поражает масштабами и архитектурой. В период расцвета он занимал площадь в 120 гектаров. Для сравнения: площадь Сиены, одного из главных городов Италии той эпохи, составляла 105 га. Что еще известно о Тугунбулаке и какой город обнаружили еще, рассказываю ниже.

+25

Alexandr1997ag 6 ноя 2024 в 08:13

Эволюция архитектур нейросетей в компьютерном зрении: классификация изображений

Средний

25 мин

9.4K

Блог компании SL SoftОбработка изображений * Машинное обучение * Карьера в IT-индустрии

Recovery Mode

Приветствую вас, дорогие читатели! В своей прошлой статье на Хабр я рассказывал, как стать разработчиком в области машинного обучения и нейронных сетей, а также какие вопросы об эволюции архитектур нейронных сетей часто задают на собеседованиях. Чтобы помочь вам разобраться в этой теме, я подготовил материал о ключевых событиях в развитии архитектур нейронных сетей — новшествах и особенностях, которые появлялись на каждом этапе. Вместе мы проследим логику инженерной мысли и поймем, как эти идеи повлияли на современное состояние технологий.

Так как материал довольно объемный, разбиваю его на три части: «Классификация изображений», «Сегментация изображений» и «Детекция объектов». Надеюсь, что этот сборник окажется полезным и вдохновит вас на дальнейшие исследования в области глубокого обучения.

Классификация изображений

Firemoon 5 ноя 2024 в 11:16

Записываем PNG без мам, пап и внешних библиотек

9 мин

18K

Блог компании SelectelСжатие данных * Обработка изображений * Алгоритмы *

✏️ Технотекст 7

Я решал очередную техническую задачу и столкнулся с проблемой: нужно сохранять изображения, а у меня нет сериализаторов и я не могу использовать готовые библиотеки. Ситуацию ухудшает, что из доступных форматов только PNG, JPEG и WebP. Выбор пал на PNG.

Формат изображения PNG известен с 1996 года, а на Хабре опубликовано несколько статей о декодировании этого формата. И ни одной — о кодировании. Я расскажу, как сохранить PNG своими руками на случай, если вам тоже придется это делать. Например, в академических целях.

Под катом вас ждет подробный разбор каждого байта на множестве иллюстраций.

Читать дальше →

+145

Neurocore_AI 1 ноя 2024 в 19:48

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Средний

9 мин

1.8K

Big Data * Data Mining * Искусственный интеллектМашинное обучение * Обработка изображений *

Из песочницы

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений, и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале.

Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.

achupahina 30 окт 2024 в 09:31

Как мы переманили пользователей удобным сервисом платежей

Средний

7 мин

2.3K

Блог компании ВТБИскусственный интеллектОбработка изображений * Алгоритмы *

Кейс

Всем привет! Меня зовут Александра Пилюгина, я продакт-менеджер команды «QR и Фотоплатеж» в управлении «Платежи», банк ВТБ. К нам каждый месяц приходит около 500 тысяч новых клиентов. Специально для них наша команда разработала сервис переноса платежей в ВТБ Онлайн, попутно решив множество проблем с распознаванием платежных документов и извлечения из них полезной информации.

Заходите под кат — расскажу, как мы всё это делали.

Подробнее

+15

THunderCondOR 30 окт 2024 в 07:37

Как мы выиграли соревнование CLEF 2024 по генерации медицинских снимков

Сложный

11 мин

1.3K

Блог компании AIRIАлгоритмы * ЗдоровьеОбработка изображений * Машинное обучение *

Кейс

Всем привет! Меня зовут Михаил Чайчук, я учусь в магистратуре Вышки на ФКН, где также являюсь исследователем в НУЛ моделей и методов вычислительной прагматики. А недавно я пришел работать в AIRI на должность инженера-исследователя в команду Прикладное NLP, которой руководит Елена Тутубалина. Вместе с ней мы приняли участие в соревновании ImageCLEFmed MEDVQA-GI 2024 по генерации медицинских картинок, которое проводилось в рамках конференции CLEF 2024.

Наш результат оказался лучшим среди 27 зарегистрированных команд! Мы уже опубликовали статью в сборнике соревнования, здесь же я расскажу, как нам удалось добиться победы.

ДИСКЛЕЙМЕР

В этом тексте содержатся изображения, имитирующих результаты эндоскопических исследований желудка и кишечника, таких как гастроскопия и колоноскопия. К сожалению, редактор Хабра не умеет блюрить картинки. Поэтому если вы чувствительны к подобным фотографиям, от чтения этой статьи вам лучше воздержаться.

Приятного ~~аппетита~~чтения!

bigcat88 26 окт 2024 в 18:10

Как мы создаём Visionatrix: упрощая ComfyUI

Средний

10 мин

2.3K

Python * Искусственный интеллектОбработка изображений *

Из песочницы

Добрый день всем.

В этой статье мы расскажем о нашем опыте работы с ComfyUI и разработке Visionatrix — надстройки, которая упрощает генерацию медиа. Мы обсудим ключевые проблемы, с которыми сталкиваются пользователи, наш подход к их решению, а также вкратце поделимся тем, как мы использовали ChatGPT и Claude для ускорения разработки в условиях ограниченного времени.

Кроме того, рассмотрим планы по улучшению и упрощению разработки интеграций.

magoli 25 окт 2024 в 08:28

Как научить LLM понимать видео? Часть 2

Средний

12 мин

3.6K

Блог компании SberDevicesБлог компании СберМашинное обучение * Обработка изображений * Искусственный интеллект

Кейс

Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.

+34

Darya_Frolova 23 окт 2024 в 07:14

Копирайт в мире победившего ИИ: дизайнер пытается защитить права на сгенерированное изображение

4 мин

5.3K

Блог компании МТСОбработка изображений * Искусственный интеллектКопирайт

Привет, обитатели Хабра! Помните это изображение? Оно называется Théâtre D'opéra Spatial. В 2022 году при помощи нейросети Midjourney его сгенерировал Джейсон Аллен, президент компании настольных игр Incarnate Games. Вышло настолько круто, что работа заняла первое место в номинации «Лучшая цифровая обработка» категории цифрового искусства на конкурсе в Колорадо. Казалось бы, можно радоваться, но тут начались проблемы.

Аллен не отрицал, что использовал генеративный ИИ, и на него посыпались обвинения в ускорении «смерти» творческих профессий. Но было кое-что и посерьезнее: он не смог получить авторские права на свое произведение.

Бороться энтузиаст цифрового ИИ-искусства не прекращает. Недавно он подал иск против Бюро авторского права США: специалисты этой организации не дали Аллену получить патент на иллюстрацию. Что происходит сейчас и как может развернуться ситуация, обсудим под катом.

+13

1 2 ...

7 8

10 11 ...

120 121

Обработка изображений *

Сканирование документов на планшетах Kvadra: как мы создавали и обучали алгоритм

Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений

Как улучшить распознавание маркировки с помощью нейросети

Использование метамерии для оценки качества освещения

Введение в синтетические данные для ML: зачем они нужны?

Apple Intelligence на Андроид? Обзор ИИ, портированных на мобильные устройства с локальным запуском

Генерируем презентации с помощью GigaChat и Kandinsky

Поиск по фото для Ozon и WB за 3 часа

Понимает ли Vision Llama импрессионистов?

Склеить несколько видеофайлов, что может быть проще…

Как я создавал бесплатный сервис оптимизации изображений FlashImg.ru

Как лидар помог обнаружить древние города: что ученые узнали о Шелковом пути

Эволюция архитектур нейросетей в компьютерном зрении: классификация изображений

Ближайшие события

Записываем PNG без мам, пап и внешних библиотек

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Как мы переманили пользователей удобным сервисом платежей

Как мы выиграли соревнование CLEF 2024 по генерации медицинских снимков

Как мы создаём Visionatrix: упрощая ComfyUI

Как научить LLM понимать видео? Часть 2

Копирайт в мире победившего ИИ: дизайнер пытается защитить права на сгенерированное изображение

Вклад авторов