Как стать автором
Обновить
103.82

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Как базовые знания кодинга и нейросетей сэкономили нам больше 15 млн ₽ на Wildberries [скрины]

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров7.7K

Это не о том, как генерировать изображения для маркетплейсов в Midjourney. Таких статей уже более чем достаточно. Хочу рассказать, как нам удалось полностью автоматизировать работу с карточками благодаря нейросетям, «Фотошопу», базовым навыкам программирования и липкой ленты. А товаров у нас… 10 000❗️ Скажу больше — каждые 5 кликов золотой антилопой мышью экономят нам в среднем 1500 ₽.

P.S. Ничего рекламировать не буду, поэтому ссылок на нашу витрину WB не даю. А вот скрины из личного кабинета — будут 🙃

Хаха 😆 Читаю дальше 👉🏻
Всего голосов 27: ↑23 и ↓4+26
Комментарии20

Новости

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.1K

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений, и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале.

Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.

Читать далее
Всего голосов 2: ↑0 и ↓2-2
Комментарии2

Как мы переманили пользователей удобным сервисом платежей

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1K

Всем привет! Меня зовут Александра Пилюгина, я продакт-менеджер команды «QR и Фотоплатеж» в управлении «Платежи», банк ВТБ. К нам каждый месяц приходит около 500 тысяч новых клиентов. Специально для них наша команда разработала сервис переноса платежей в ВТБ Онлайн, попутно решив множество проблем с распознаванием платежных документов и извлечения из них полезной информации.

Заходите под кат — расскажу, как мы всё это делали.

Подробнее
Всего голосов 16: ↑13 и ↓3+14
Комментарии3

Как мы выиграли соревнование CLEF 2024 по генерации медицинских снимков

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров848

Всем привет! Меня зовут Михаил Чайчук, я учусь в магистратуре Вышки на ФКН, где также являюсь исследователем в НУЛ моделей и методов вычислительной прагматики. А недавно я пришел работать в AIRI на должность инженера-исследователя в команду Прикладное NLP, которой руководит Елена Тутубалина. Вместе с ней мы приняли участие в соревновании ImageCLEFmed MEDVQA-GI 2024 по генерации медицинских картинок, которое проводилось в рамках конференции CLEF 2024. 

Наш результат оказался лучшим среди 27 зарегистрированных команд! Мы уже опубликовали статью в сборнике соревнования, здесь же я расскажу, как нам удалось добиться победы.

ДИСКЛЕЙМЕР

В этом тексте содержатся изображения, имитирующих результаты эндоскопических исследований желудка и кишечника, таких как гастроскопия и колоноскопия. К сожалению, редактор Хабра не умеет блюрить картинки. Поэтому если вы чувствительны к подобным фотографиям, от чтения этой статьи вам лучше воздержаться.

Приятного аппетитачтения!

Читать далее
Всего голосов 5: ↑5 и ↓0+8
Комментарии5

Истории

Как мы создаём Visionatrix: упрощая ComfyUI

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров901

Добрый день всем.

В этой статье мы расскажем о нашем опыте работы с ComfyUI и разработке Visionatrix — надстройки, которая упрощает генерацию медиа. Мы обсудим ключевые проблемы, с которыми сталкиваются пользователи, наш подход к их решению, а также вкратце поделимся тем, как мы использовали ChatGPT и Claude для ускорения разработки в условиях ограниченного времени.

Кроме того, рассмотрим планы по улучшению и упрощению разработки интеграций.

Читать далее
Всего голосов 3: ↑2 и ↓1+4
Комментарии0

Как научить LLM понимать видео? Часть 2

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров2.7K

Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.

Читать далее
Всего голосов 25: ↑25 и ↓0+34
Комментарии2

Копирайт в мире победившего ИИ: дизайнер пытается защитить права на сгенерированное изображение

Время на прочтение4 мин
Количество просмотров4.8K

Привет, обитатели Хабра! Помните это изображение? Оно называется Théâtre D'opéra Spatial. В 2022 году при помощи нейросети Midjourney его сгенерировал Джейсон Аллен, президент компании настольных игр Incarnate Games. Вышло настолько круто, что работа заняла первое место в номинации «Лучшая цифровая обработка» категории цифрового искусства на конкурсе в Колорадо. Казалось бы, можно радоваться, но тут начались проблемы.

Аллен не отрицал, что использовал генеративный ИИ, и на него посыпались обвинения в ускорении «смерти» творческих профессий. Но было кое-что и посерьезнее: он не смог получить авторские права на свое произведение.

Бороться энтузиаст цифрового ИИ-искусства не прекращает. Недавно он подал иск против Бюро авторского права США: специалисты этой организации не дали Аллену получить патент на иллюстрацию. Что происходит сейчас и как может развернуться ситуация, обсудим под катом.

Читать далее
Всего голосов 7: ↑6 и ↓1+12
Комментарии18

Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini

Уровень сложностиСредний
Время на прочтение29 мин
Количество просмотров11K

В данной статье речь пойдет про использование очень маленькой Luckfox Pico Mini. Я расскажу про особенности платы, её настройку, а также о том как запускать на ней нейронные сети для детекции объектов с камеры.

Мне удалось добиться скорости детекции в 15 FPS (или даже 50!), результат, который по силам далеко не каждому одноплатнику.

Читать далее
Всего голосов 112: ↑112 и ↓0+145
Комментарии54

Поиск по фото и раздетые дипфейки

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.7K

Современные технологии стремительно развиваются, и то, что когда-то казалось футуристической фантастикой, стало реальностью. Одной из таких технологий является поиск по фото — инструмент, который кардинально изменил способ взаимодействия пользователей с изображениями в интернете. Сегодня это мощное средство позволяет людям находить похожие изображения, искать источники фотографий и даже проводить анализ лиц. Но вместе с прогрессом пришли и новые угрозы. Одной из наиболее серьёзных проблем, возникших с развитием поиска по фото, стало распространение дипфейков — фальшивых изображений, созданных с использованием искусственного интеллекта (ИИ).

Одним из самых опасных аспектов этой технологии стало создание так называемых «раздетых дипфейков», на которых лица девушек подделываются и накладываются на обнажённые тела или компрометирующие сцены без их согласия. Это поднимает серьёзные вопросы о безопасности, конфиденциальности и этике использования поиска по фото.

Читать далее
Всего голосов 28: ↑10 и ↓18+2
Комментарии17

Как готовить EdgeAI в 2024/2025 году

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров4.1K

Есть у меня такое развлечение - разные платы для AI тестировать.

Очень много того с чем я работаю - про Computer Vision на Edge. В какой то момент я понял что мне не хватает информации. Нет ничего кроме восторженного пресс-релизов. Дай бог ещё есть видео как официальные примеры запускают. Но обычно без этого.

Так что в какой-то момент начал тестировать всё сам. Просто чтобы понимать какие есть альтернативы, что можно а что нельзя.
Иногда (раз в год-два) я пишу обзорную статью. И это именно она. Тут я попробую рассмотреть критерии, которые можно считать важными для AI плат. А так же кратко рассмотреть основные платы на рынке.

Читать далее
Всего голосов 31: ↑31 и ↓0+43
Комментарии22

Как научить LLM понимать видео? Обзор подходов

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.6K

Всем привет! Сегодня поговорим про задачу понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи.

Video Understanding — направление на стыке компьютерного зрения (CV) и обработки естественного языка (NLP), включающее в себя множество разнообразных задач на восприятие и интерпретацию видео. От базового распознавания предметов и объектов в видеоряде, локализации объектов в пространстве или во времени, подсчета предметов и людей, до генерации кратких или развернутых описаний видео и задач на рассуждения о причинах происходящего на видео, требующих глубокого понимания мира — от человеческой психологии до физических свойств объектов. 

Читать далее
Всего голосов 22: ↑22 и ↓0+33
Комментарии0

Как математически просчитать градиент цветовой палитры

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.7K

Начать хотелось бы с предыстории и задачи, которую я решаю на работе. Есть сайт, фотографии на котором при публикации должны подходить под определенное соотношение сторон (3х2). При этом в работе часто возникают определенные трудности. Например, что делать, если автор сделал скрин-шот, который не соответствует этому соотношению?

Здесь помочь может дизайнер, который вставит изображение на подходящий фон, или просто при загрузке выбирать, какую часть изображения придется отрезать. Оба варианта по своим причинам неудобны. Первый — из-за времени, второй — из-за потери содержания. Отсюда и родилась задача написать сервис, который автоматически будет выполнять работу дизайнера: возьмет изображение и поместит его в рамки с необходимым соотношением сторон. Получится примерно следующее:

Читать далее
Всего голосов 3: ↑3 и ↓0+5
Комментарии4

Как сделать себя в модной нейронке Flux (лёгкий путь без смс и регистрации)

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.3K

Среди топовых картиночных генераторов у всех на устах Flux. Недавно она еще и обновилась, но первая версия отличная, прекрасно генерит фотореалистичных человечков и вообще, в целом, кайфовая штука, к.м.к. Покажу, как дотренировать её на своих фотках, чтоб можно было генерить себя любимого/мую в разных ракурсах. Раньше дотренивать можно было только с бубном или платными сервисами. Сейчас есть возможность локально это сделать, нужна лишь более-менее нормальная видюха. Туториал, в целом, ориентирован на начальный уровень, надеюсь, будет легко.

Читать далее
Всего голосов 13: ↑10 и ↓3+10
Комментарии0

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

Kaggle для футболистов: Классификация событий на футбольном поле

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.8K

Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего подхода, и я уверен, что многие методы, примененные к этой задаче, могут быть адаптированы для решения других задач в области компьютерного зрения. За подробностями под кат!

Читать далее
Всего голосов 5: ↑5 и ↓0+8
Комментарии4

Как я искал замену Canva и нашел 11 крутых онлайн-фоторедакторов

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров4.7K

Многие расстроились, когда Канва ушла из России. Когда я начинал творческий путь, онлайн-редакторов было не более 2–3 достойных. Сейчас их десятки: работает импортозамещение, развиваются другие зарубежные сервисы. Ими пользуются не только новички.

Для вас, друзья, составил подборку с редакторами, чтобы избавить от долгих мук выбора. Они работают онлайн и запускаются без сети впн, которая не всегда помогает.  

Читайте, пробуйте. Возможно, влюбитесь в один из аналогов Canva и больше о ней не вспомните.

Читать далее
Всего голосов 10: ↑8 и ↓2+10
Комментарии2

Ищем потерявшихся питомцев с помощью нейросетей

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.6K

Представьте себе, ваш питомец вдруг сбежал отправился в увлекательное путешествие по соседским дворам. Паника, нервы, поиски, бумажные объявления... И хорошо, если ваш пушистик чипирован, но ведь о таком заботятся не все. Можно пойти шерстить порталы с потеряшками, но где искать? Как они работают? Тот еще квест! Хотелось бы автоматизировать этот поиск и здесь как нельзя кстати подойдут нейросети. Мы обучили сеточки для детектирования и распознавания мордочек, которые могут стать основой для удобного сервиса поиска потерявшихся животных.

Мы запилили удобного демо-бота с этими сеточками, он называется FindPet. И теперь с удовольствием представляем его вам и рассказываем, как мы его создавали.

Читать далее
Всего голосов 11: ↑11 и ↓0+17
Комментарии9

Профессия нейрохудожника: соавторство с нейросетью на примере чувства юмора

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2K

Привет, меня зовут Алина, и я нейрохудожник. В прошлой статье я рассказывала об управляемой части работы нейрохудожника, когда для создания изображений используешь проверенные промты — текстовые описания, на основе которых нейросеть создаёт иллюстрации. В этой статье я покажу, что часть работы нейрохудожника заключается в получении случайных и непредсказуемых изображений. Что с ними делать? Один из вариантов — шутить.

Читать далее
Всего голосов 16: ↑12 и ↓4+11
Комментарии2

Методы предпроцессинга в IDP-системе ITFB EasyDoc

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров598

Всем привет!

На связи команда Data Science компании ITFB Group. У нашей компании есть собственная разработка ITFB EasyDoc — система распознавания и извлечения данных из любого типа документов. В современном мире автоматизация обработки документов стала неотъемлемой частью множества бизнес-процессов. Предобработка изображений документов является важным шагом для обеспечения точности и надежности дальнейшего распознавания атрибутов. В этой статье мы хотим рассказать о некоторых эффективных методах предпроцессинга документов, позволяющих увеличивать как качество OCR-систем (Optical Character Recognition), так и различные CV и NLP пайплайны. Всем, кому интересна эта тема, — добро пожаловать под кат.

Читать далее
Всего голосов 11: ↑11 и ↓0+15
Комментарии0

Склейка фото как отдельный вид искусства (как распознать мерцающую строку)

Время на прочтение2 мин
Количество просмотров1.8K


Размышляя над прикладной задачей «как прочитать мерцающую строку с номером электробуса» с помощью обычной камеры можно прийти к совершенно неожиданным результатам. Например, получить футуристические снимки окружающего ландшафта и вещей. Решение данной задачи с помощью python, а также несколько инопланетных изображений далее в статье.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+13
Комментарии18

Любительская стереосъёмка

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров12K

В книге Якова Перельмана «Занимательная физика» было описание наблюдения ландшафта через стереотрубу:

«Трудно описать ощущения, которые испытываешь, когда смотришь в подобные инструменты, — до того они необычайны! Вся природа преображается. Далёкие горы становятся рельефными, деревья, скалы, здания, корабли на море — всё круглится, всё выпукло, расставлено на бесконечном просторе, а не лежит на плоском экране. Вы непосредственно видите, как движется далёкое судно, которое в обыкновенные трубы кажется неподвижным. В таком виде должны были бы представляться наши земные ландшафты сказочным великанам».

В этой книге был раздел, посвящённый стереоэффекту, и приводились несколько картинок, которые при особом способе рассмотрения в плоскости бумажного листа превращались в трёхмерные изображения. Это казалось фантастикой.
Смотреть картинки и читать
Всего голосов 73: ↑73 и ↓0+99
Комментарии103
1
23 ...

Вклад авторов