Все потоки

Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

vladoossss 3 фев 2024 в 14:32

YOLO-World: распознавание произвольного числа объектов с высокой точностью и скоростью

Средний

5 мин

16K

Обработка изображений * Машинное обучение * Искусственный интеллект

Из песочницы

Всем привет! Буквально несколько дней назад была представлена новая модель семейства Yolo. Ее основная фишка заключается в том, что в отличие от своих старших братьев, она способна распознавать на изображении фактически любые объекты (которые интересуют человека) без предварительного обучения и делает все это в real-time режиме! Звучит неплохо, не так ли?

В этой статье мы попробуем разобраться, что же за магия скрывается внутри новой архитектуры.

Читать далее

+17

Clickru 25 янв 2024 в 10:10

Создаем запросы для «картиночных» нейросетей: 4 помощника

3 мин

4.5K

Блог компании Click.ruИскусственный интеллектОбработка изображений *

Вам не обязательно придумывать промпты для генеративных нейросетей самостоятельно, если вы хотите получить картинку, соответствующую вашим требованиям. Существуют специализированные конструкторы, библиотеки с запросами, генераторы и даже маркетплейсы. С их помощью можно не только упростить использование «картиночных» нейросетей, но и сэкономить время на создание креативов для рекламных кампаний, которые вы можете запускать с помощью click.ru и других сервисов. Еще больше площадок для генерации промптов вы найдете в этой статье.

Читать далее

+3

curious_odd_man 23 янв 2024 в 09:45

Оптическое распознавание символов и разбор чеков Rimi

Средний

11 мин

4K

Обработка изображений * Искусственный интеллектЗанимательные задачкиOpen source * Habr

Из песочницы

Некоторое время назад в нашей стране крупные сети магазинов стали вводить электронные чеки. В частности, магазины сети Rimi. Эти чеки покупатель получает по почте в виде PDF документа. У меня скопилось много таких чеков, и мне стало интересно посмотреть на разного рода статистику: например, на цены на различные товары в разное время, сколько чего было приобретено и т. п.

К сожалению, PDF документы, которые покупатели получают – это картинка. Получить интересующую меня информацию из них без оптического распознавания символов (OCR) невозможно. Однако, OCR, как оказалось, не на столько хорош, чтоб идеально справиться и точно всё распознать с первого раза. И это несмотря на то, что чеки достаточно хорошего качества: строки ровные, нет никаких артефактов в виде тёмных пятен, буквы достаточно одинаковые (правда присутствуют несколько разных шрифтов).

Читать далее

+13

Bright_Translate 21 янв 2024 в 10:00

Разбираем самый маленький PNG в мире

Простой

9 мин

39K

Блог компании RUVDS.comСжатие данных * Обработка изображений * Алгоритмы *

Обзор

Перевод

Самый миниатюрный PNG в мире весит 67 байт и представляет собой один чёрный пиксель. Выше вы видите его в 200-кратном увеличении.

Красота, не так ли?

Состоит этот файл из четырёх частей:

Сигнатура PNG, одинаковая во всех файлах этого формата: 8 байт.
Метаданные изображения, включая его размеры: 25 байт.
Данные пикселя: 22 байта.
Маркер «конец изображения»: 12 байт.

Далее я опишу этот файл подробнее и постараюсь объяснить принцип работы формата PNG.

В качестве небольшой затравки скажу, что в конце предстоит неожиданный поворот. Хотя, надеюсь, вам и без того интересно побольше узнать о PNG.

Читать дальше →

+124

ZlodeiBaal 18 янв 2024 в 00:50

«Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг)

Средний

8 мин

20K

Блог компании RecognitorАлгоритмы * Обработка изображений * Машинное обучение * Искусственный интеллект

Аналитика

Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений).
В статье я попробую простым языком объяснить что это такое (для тех кто пропустил), как меняет индустрию. Какие задачи стало проще решать. Какие продукты появились в последнее время и появятся в будущем.
И можно ли уже выгнать на мороз лишних "ресерчеров"?!

Читать далее

+65

GEOGRAMMA 17 янв 2024 в 13:30

Основы обработки радиолокационных данных дистанционного зондирования Земли

Средний

31 мин

20K

Алгоритмы * Обработка изображений * Геоинформационные сервисы * Big Data * Научно-популярное

Обзор

Из песочницы

✏️ Технотекст 7

В настоящее время все более востребованными становятся данные радиолокационного наблюдения (РЛН) с космических аппаратов дистанционного зондирования Земли. Наблюдая повышенный интерес к этой предметной области с одной стороны и явный недостаток информационных материалов по теме обработки радиолокационных данных ДЗЗ с другой, решили написать статью, которая, надеемся, будет полезна для всех интересующихся темой ДЗЗ.

Читать далее

+14

WildChlamydia 17 янв 2024 в 09:35

Как художники за рабочие места с ИИ борются

Простой

8 мин

6.8K

Обработка изображений * Машинное обучение * Искусственный интеллектНаучно-популярноеБудущее здесь

Громоподобный шаг научно-технического прогресса слышен издалека: сквозь года до нас доносится эхо шагов из будущего. Шрамы ран, полученных в предыдущие промышленные революции, априорные, переданные через учебники и опыт предков, болезненно сжимаются под воздействием этого эха. Как и всё великое, дела человечества пугающе красивы.

Наверное, поэтому все мы стали в той или иной мере, но скажем честно, опасаться ИИ заранее. А пока фантазировали, он зашёл не совсем оттуда, откуда его ждали.

Читать далее

+15

PatientZero 17 янв 2024 в 08:09

Сжимаем текст в изображения PNG

Простой

2 мин

6.1K

Обработка изображений * Хранение данных * Сжатие данных *

Обзор

Перевод

(Наверно, это глупая идея. Но иногда даже самые глупые идеи приводят к неожиданным результатам.)

Текст шекспировской трагедии «Ромео и Джульетта» состоит примерно из 146 тысяч символов. Благодаря английскому алфавиту каждый символ можно описать одним байтом. Так что размер текстового файла в обычном Unicode составляет примерно 142 КБ.

В статье Adventures With Compression её автор JamesG размышляет о соревнованиях по сжатию текста и предлагает интересную мысль...

Читать далее

+15

dimanosov007 15 янв 2024 в 09:29

Обнаружение движущихся объектов с помощью OpenCV с использованием обнаружения контуров и вычитания фона

12 мин

28K

Python * Машинное обучение * Обработка изображений *

Туториал

Перевод

Обнаружение движущихся объектов широко используется в самых разных приложениях, от видеонаблюдения до мониторинга дорожного движения. Это важнейшая задача в постоянно развивающейся области компьютерного зрения. Библиотека OpenCV с открытым исходным кодом, известная своим полным набором инструментов для компьютерного зрения, предоставляет надежные решения для обнаружения движущихся объектов. В этой статье рассмотрим комбинацию обнаружения контуров и вычитания фона, которые можно использовать для обнаружения движущихся объектов с помощью OpenCV.

Читать далее

+12

pavel_starikov 15 янв 2024 в 08:45

Защита JPG-файлов от копирования с помощью Exif и IPTC-тегов

Средний

5 мин

5.2K

PHP * КопирайтКонтент и копирайтинг * Обработка изображений *

Из песочницы

Всем привет! На связи Павел Стариков Fullstack-разработчик digital-агентства. Представьте, вы потратили целый день на создание хороших фотографий для статьи на сайте. Выставили свет, поставили «на уши» множество людей, долго работали в «фотошопе». Фотографии получились отличные, вот только спустя год Яндекс внезапно присылает фильтр «малополезный контент», при этом другие статьи, которые своровали нашу картинку – на первых местах по SEO-высокочастотным запросам. Обидно, не правда ли?

Для предотвращения подобных ситуаций поисковые системы обращают внимания на текстовые мета-теги, которые можно записать в каждую фотографию. Основной формат изображений – JPEG имеет сразу несколько механизмов. Как Exif-данные, содержащие сведения об авторе, камере, дате изменения, так и менее известный стандарт IPTC, который хранит данные в двоичном формате.

Читать далее

+10

krisgrey 12 янв 2024 в 13:41

Обзор решений на основе 3D Gaussian Splatting

Средний

10 мин

8.6K

3D-графика * Обработка изображений * Искусственный интеллект

Из песочницы

Спустя полгода после выхода публикации 3D Gaussian Splatting лавина препринтов на его основе накрыла область 3D-реконструкции. Какие задачи теперь решаются проще, и как именно Gaussian Splatting помогает в приложениях реального времени?

Читать далее

+11

omysov 12 янв 2024 в 10:40

Метод быстрого марша (Fast Marching Method)

Средний

8 мин

8.7K

C# * Обработка изображений * Алгоритмы *

Из песочницы

Пример реализации метода быстрого марша(Fast Marching Method) для создания полей расстояний(Distance FIeld) и поиска кратчайшего пути.

Читать далее

+11

timonin 11 янв 2024 в 18:56

Создавать собак, кошек и даже лошадей в нейросети стало проще! Вышел ControlNet Animal OpenPose для Automatic 1111

Простой

3 мин

3.8K

Обработка изображений * Искусственный интеллект

Обзор

Всем привет, не успели мы отойти от шока, что руки теперь не проблема, так оказывается еще пару недель назад вышел препроцессор для ControlNet который позволяет получать скелет не только людей, как было раньше, но и животных. Я вот только узнал об этом и спешу рассказать вам.

Читать далее

+11

Quled 7 янв 2024 в 14:54

AI-генераторы порно фото: этика, тренды и законодательство

Простой

6 мин

446K

ЗдоровьеИскусственный интеллектИстория ITМашинное обучение * Обработка изображений *

Аналитика

В последнее время, AI-генераторы порно фото стали частью большого обсуждения в сфере искусственного интеллекта, и порно индустрия не исключение. Интерес к этой теме растет, как и количество споров вокруг неё.

AI-генераторы порно фото — это программы, использующие алгоритмы машинного обучения для создания реалистичных изображений. Они могут генерировать фото, которые кажутся настоящими, но на самом деле являются продуктом алгоритма.

AI использует обширные базы данных изображений для обучения, а затем, основываясь на этом обучении, создает новые изображения. Это может включать и порно фото, что и вызывает этические дискуссии.

Читать дальше →

+73

R3EQ 2 янв 2024 в 12:38

Как я создавал автокликер для приложения «ДругВокруг»

Средний

15 мин

7.3K

C * Социальные сетиОбработка изображений * Мессенджеры * C++ *

Социальные сети и мессенджеры последнее время завоевали большую популярность среди пользователей интернета. Одной из таких соцсетей было приложение «ДругВокруг». Точнее, было в моём обиходе. Стояло оно у меня на компьютере с Windows XP в 2016 году. В то время у меня возникла идея сделать одну интересную программу для работы с этим приложением...

Читать далее

+4

ToSHiC 29 дек 2023 в 07:00

Видео — это вам не фото: о чём нужно знать разработчикам видеостриминговых сервисов

12 мин

6.6K

Блог компании Yandex Cloud & Yandex InfrastructureРабота с видео * Обработка изображений * Звук

Обзор

В видеостриминге есть два типа инженеров: разработчики, которые создают сервисы потокового вещания, и инженеры, которые делают контент. Два этих множества практически не пересекаются — в результате не все айтишники понимают, насколько легко может пострадать качество видео во время его обработки.

Привет, меня зовут Антон Кортунов, я техлид Yandex Infrastructure. В 2017 году мы запустили новый для Яндекса проект — платформу потокового видео Яндекс Эфир. Сам проект закрылся, но на основе платформы работают Кинопоиск, видеокарточки товаров в Яндекс Маркете, Реклама и множество других сервисов.

Как разработчик тогда я столкнулся с чудным дивным миром телевидения и кино, и понял, что видео — не просто последовательность кадров на фоне звуковой дорожки. Под катом расскажу о тонкостях, о которых я узнал от видеоинженеров за последние 5 лет.

Читать далее

+37

SmartEngines 28 дек 2023 в 07:15

Топ-18 наших самых крутых ИИ-разработок за 2023 год: рукописная прописка, UniversalPay и обрезанные QR. А что еще?

Простой

10 мин

2.3K

Блог компании Smart EnginesИскусственный интеллектМашинное обучение * Обработка изображений * Алгоритмы *

Обзор

2023 год оказался для нашей компании, Smart Engines, крайне успешным со всех точек зрения – бизнес-результатов, научных достижений и, разумеется, технологий. И нашими успехами мы традиционно хотим поделиться с вами.

Подведение итогов мы решили начать с обзора наших самых заметных разработок. Некоторыми из них, кстати, вы, сами того не подозревая, можете пользоваться каждый день. Это и технология для упрощения платежей UniversalPay, и распознавание рукописной прописки, и считывание неограниченного числа QR-кодов, и много-много чего еще.

Мы собрали для себя и для вас топ-18 разработок Smart Engines за минувший год – приглашаем под кат, чтобы с ними познакомиться.

Читать далее

+1

a1exjob 28 дек 2023 в 05:00

Как мы с Кандинским дракона рисовали

Простой

4 мин

6.6K

Блог компании Специальный Технологический ЦентрПодготовка технической документации * Искусственный интеллектОбработка изображений *

Очень часто для оформления документов, например, презентаций или статей на Хабре ?, требуются интересные, нестандартные и не нарушающие авторские права картинки, суть которых есть только в голове автора. Кроме того, сложные изображения может нарисовать только профессиональный художник в течение значительного времени. Поэтому генерирование изображений по текстовому описанию – это очень полезный и нужный пользовательский сервис, позволяющий создать уникальные изображения за очень короткий промежуток времени. Основной проблемой при генерировании изображений является формулирование грамотного запроса, чтобы получить желаемый результат.

Существует достаточно большое количество нейросетей, генерирующих изображения. Относительно недавно появилась новая версия модели генерации изображений по тексту Kandinsky 3.0 (дальше К3). На носу – ~~масленица~~ Новый Год, поэтому мы с К3 решили нарисовать символ китайского 2024 года, а именно зеленого деревянного дракона. Т.к. показать на рисунке, что дракон деревянный – задача нетривиальная, поэтому решено нарисовать просто добродушного зеленого дракона в стиле цифровой живописи.

Читать далее

+6

IlyaVK 27 дек 2023 в 13:17

Обработка изображений и видео на смартфонах: handcrafted-алгоритмы против глубокого обучения

Простой

22 мин

4.9K

Блог компании SamsungИскусственный интеллектМашинное обучение * Обработка изображений *

Обзор

Зеркалка — хорошая штука, но смартфон однозначно компактнее и удобнее. Да, мобильная оптика все еще далека до уровня зеркалок, однако получить красивые фотографии человек хочет здесь и сейчас. Как быть? Взамен харда, подключается софт, алгоритмы!

Именно софт смартфона помогает снять фото в HDR или сделать видео менее смазанным. Он состоит из «классических» вычислительных алгоритмов и нейросетей. Вычислительные алгоритмы требуют много ручной работы и глубокого понимания решаемой задачи, зато хорошо работают при ограниченных вычислительных ресурсах. Нейросети прожорливы, но сильно упрощают жизнь разработчику и потенциально позволяют достичь большего. Объединение двух этих подходов даёт замечательные результаты!

Читать далее

+7

SeregaChipset 26 дек 2023 в 16:00

Монтаж уличной ip-камеры и вывод изображения по RTSP (python, raspberry pi)

Средний

6 мин

27K

Python * Обработка изображений * Параллельное программирование * Умный домИнженерные системы *

Из песочницы

Камеры видеонаблюдения стали для многих стран обыденностью, например в Китае, они могут свисать гроздьями, через каждые 5 метров, по улице. Но в провинции России это все еще может быть в новинку. Я отношусь к видеонаблюдению по большей мере положительно. Ведь вид камеры, даже превентивно может предотваратить хулиганство (однажды я использовал муляжи камер в офисе:)), а главное это возможность контроллировать обьект наблюдения.

Этот пост про монтаж уличной камеры, на стену многоквартирного дома и программную реализацию - вывод изображения, без использования стандартной программы, оптимизацию (размещение на raspberry pi).

Читать далее

+17

1 2 ...

16

17 18 ...