Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

SmartEngines 18 окт 2023 в 10:40

Искусственный кадровик: как ИИ может ускорить найм сотрудников, не подвергая их данные угрозе

Простой

5 мин

1.6K

Блог компании Smart EnginesОбработка изображений * Машинное обучение * Искусственный интеллект

Число утечек персональных данных в России все время растет: новости об очередных инцидентах выходят так часто, что уже перестают вызывать удивление. Чаще всего жертвами утечек становятся клиенты компаний. Но иногда под ударом оказываются и их сотрудники. Такие случаи уже происходили.

В этом тексте рассказываем, как с помощью ИИ можно ускорить процесс найма сотрудников в несколько раз, не подвергая их данные ненужным рискам, и почему в таких целях ни в коем случае нельзя прибегать к сервисам распознавания.

-1

Petro38 17 окт 2023 в 09:59

Изучаем веб-сервисы ChatGPT и пробуем программировать

9 мин

10K

Искусственный интеллектОблачные сервисы * Обработка изображений * Программирование * Android *

Прямого доступа к сервисам OpenAI в РФ, как известно, нет. Для работы с ChatGPT многие пользуются телеграм-ботами, чаще всего бесплатными. В основном, запросы к ним — непритязательные. Пользователи практикуются в английском и, не раздражая никого пробелами в орфографии, получают списком все свои ошибки. Можно задавать ботам относительно простые вопросы.

Но, боты, в подавляющем большинстве работают на версии GPT3.5, возможности которой ограничены. Поэтому даже на хороший, но не релевантный запрос можно получить очень странный ответ, который начинается чем-то вроде «Да, я просто языковая модель и не могу сделать того, что вы от меня хотите...» и т. д. Нельзя забывать и о том, что телеграм-бот едва ли сможет хранить контекст, размером более 4000 токенов.

Поэтому в некоторых случаях удобнее использовать именно веб-сервисы, у них функции побогаче.

Читать дальше →

+21

illusive_man_2000 14 окт 2023 в 13:14

Kornia — библиотека компьютерного зрения

Средний

15 мин

14K

Python * Обработка изображений * Визуализация данных * Машинное обучение * Искусственный интеллект

Обзор

Лучший Техноавтор 2023

Kornia это open source библиотека для решения задач компьютерного зрения. Она использует PyTorch в качестве основного бэкенда и состоит из набора дифференцируемых процедур и модулей. Создатели библиотеки вдохновлялись OpenCV, и поэтому Kornia является его аналогом, но при этом в некоторых моментах превосходит. Главным преимуществом Kornia по сравнению с тем же OpenCV, scikit-image или с Albumentations является возможность обрабатывать изображения батчами, а не по одному изображению и возможность обрабатывать данные на GPU.

+26

ddimitrov 12 окт 2023 в 13:54

Размываем границы времени и учимся создавать видео — Kandinsky шагает дальше

Средний

11 мин

13K

Блог компании СберБлог компании SberDevicesОбработка изображений * Машинное обучение * Natural Language Processing *

Обзор

В последние несколько лет активно развиваются генеративные модели, причём синтезировать с хорошим качеством уже сейчас получается и тексты, и аудио, и изображения, и видео, и 3D, и другие модальности. Если говорить про генерацию изображений, то стремительность прогресса в этом направлении обусловлена развитием диффузионного подхода и успехами при обучении больших диффузионных моделей (таких как DALL•E 2/3, Imagen, StableDiffusion, Kandinsky 2.X). Этот тип моделей показывает также отличное качество синтеза видео (ImagenVideo, Make-a-Video, Video LDM, GEN-1, GEN-2, Pika Labs, ZeroScope) и 3D-объектов (DreamFusion, Magic3D). При этом каждый месяц мы можем наблюдать за появлением новых open source (и не только) решений и сервисов, которые обеспечивают очень высокое визуальное качество генераций.

Несмотря на стремление исследователей в области машинного обучения создать единую модель для синтеза видео, есть не менее элегантные подходы к генерации видеороликов. В этой статье речь пойдёт как раз о таком способе создания анимированных видео на основе модели генерации изображений по тексту — в нашем случае, это, как вы уже успели догадаться, модель Kandinsky 2.2. В деталях изучив направление моделирования различных визуальных эффектов вокруг генеративной модели, которая обладает способностью преобразования изображений (image-to-image) и механизмами дорисовки (inpainting/outpainting), мы разработали решение, которое расширяет границы статичных генераций и даёт возможность синтеза так называемых анимационных видео. В качестве такого фреймворка имплементации различных вариантов анимаций мы взяли широко известный deforum, который хорошо зарекомендовал себя в связке с моделью StableDiffusion. И поверьте, задача скрещивания deforum с Kandinsky была отнюдь не простой. Об этом и поговорим далее!

+29

ITSumma 12 окт 2023 в 08:21

Как мы перевезли на новый сайт 700 тысяч рецептов и 6 миллионов фото пирогов, сырников и овсяноблинов

Простой

6 мин

3.2K

Блог компании ITSummaВеб-разработка * Обработка изображений * Хранение данных *

Кейс

На рынке частой историей является поглощение глобальными игроками локальных интернет-сервисов и ресурсов, которые дублируют их функции. Так произошло в 2017 году и с парой «Овкусе» и Cookpad, когда последний решил зайти в русскоязычный сегмент. Тогда слияние произошло успешно: российский проект был куплен и органично влился в инфраструктуру кулинарного ресурса японского происхождения, где активно развивался все эти годы. Ровно до момента, пока головной офис не принял решение уйти из региона, полностью удалив русскоязычную часть Cookpad вместе со всем имеющимся контентом.

Сегодня мы расскажем о том, как нашей команде пришлось переносить данные целого проекта на новую платформу и с чем нам пришлось столкнуться при переезде 6 миллионов фото блюд из 700 тысяч рецептов, которые создали пользователи платформы за 15 лет.

Читать дальше →

+23

SmartEngines 10 окт 2023 в 07:11

AI – это путь в топ: как региональный банк покорил крупный рейтинг

Простой

6 мин

1.8K

Блог компании Smart EnginesОбработка изображений * Машинное обучение * Искусственный интеллект

Кейс

Сотрудничество Банка «Кубань Кредит» и AI‑разработчика систем распознавания Smart Engines началось в прошлом году. Тогда Банк внедрил ряд технологий компьютерного зрения, которые усовершенствовали обслуживание клиентов в офисах и дистанционных каналах. Поставку технологий Smart Engines в Банк осуществляют специалисты компании АО «ФИНСИС».

В 2023 году журнал «Банковское обозрение» включил мобильное приложение «Кубань Кредит Онлайн» в число значимых IT‑ и ИБ‑проектов в финансовом секторе за 2022 год.

Как Банк «Кубань Кредит» достиг таких высоких результатов и что позволяет ему оставаться ведущей кредитной организацией Краснодарского края, мы расскажем в этом материале.

virtual_explorer 9 окт 2023 в 12:24

Хуже, чем заключенные: как в Китае студенты тренируют ИИ

8 мин

12K

Блог компании FirstVDSИскусственный интеллектМашинное обучение * Обработка изображений *

Аннотаторы данных для ИИ — новая горячая профессия в IT. Несколько десятков тысяч человек работают на таких «плантациях» в Венесуэле, в том числе обучая умные пылесосы. Недавно я рассказывал о том, как это происходит в Финляндии за счет труда заключенных. За разбор картинок и оценку текстов от ИИ им там платят порядка €1,50 в час. Но самая большая индустрия аннотаторов данных на самом деле находится в Китае. И они здесь придумали свое решение, уникальное именно для этой страны.

+19

SmartEngines 9 окт 2023 в 07:55

Экспресс-курс по настройке распознавания форм: показываем, как это сделать за 2 минуты

Простой

4 мин

1.7K

Блог компании Smart EnginesОбработка изображений * Дизайн

Туториал

Привет, Хабр! Мы в Smart Engines постоянно пополняем список документов, которые под силу распознать нашим системам Smart ID Engine и Smart Document Engine. На сегодняшний день их количество исчисляется тысячами, но и это не предел. Новые документы на бумажных носителях продолжают возникать, а мы все так же успешно их распознаем. Причем распознаем очень быстро.

Добавлением новых документов, то есть настройкой всех подсистем для распознавания новых типов, мы обычно занимаемся сами. Ведь кто еще так хорошо знает, какую ручку нужно покрутить у нашей системы, чтобы все работало идеально. Однако в некоторых случаях пользователю может понадобиться самостоятельно добавить документы, которые требуется распознать. Например, если количество типов форм растет быстро, а распознавать их хочется уже сразу по мере появления. Или же когда по каким‑либо причинам пользователь не может нам предоставить даже один пример нужного документа. О том, что такое настройка распознавания формы и как это можно сделать самостоятельно буквально за пару минут, в этом тексте.

gfx_pro 8 окт 2023 в 12:49

Нужны ли камерам смартфонов 12-битные АЦП, или мой провальный эксперимент

Средний

3 мин

6.6K

Обработка изображений * ГаджетыСмартфоныФототехника

Аналитика

Среди фотографов известно, что на "больших" камерах использование 14-битного считывания по сравнению с 12-битным может положительно сказаться на детализации теней. Как же дело обстоит с маленькими сенсорами в камерах смартфонов?

Давайте же узнаем...

+23

Cloud4Y 6 окт 2023 в 12:39

Перевод трактата по демонологии при помощи GPT-4 и Claude

Простой

10 мин

4.6K

Блог компании Cloud4YИскусственный интеллектЧитальный залМашинное обучение * Обработка изображений *

Мнение

Перевод

Вряд ли кто-то будет спорить, что инструменты ИИ вроде GPT-4, как минимум интересны и забавны. Но насколько они практичны?

Могут ли они помочь нам сделать что-то действительно полезное... например, перевести 1200-страничную книгу о демонах, написанную малоизвестным теологом-иезуитом XVI века?

Давайте проверим!

+24

enjoykaz 4 окт 2023 в 06:50

Чат GPT-4V, который видит — что он умеет

4 мин

55K

Блог компании ОрбитаМашинное обучение * Обработка изображений *

Случилось вот что: вышел большой отчёт про возможности GPT-4V. Внезапно оказалось, что LLM могут обращаться с картинками так же, как с текстовыми промптами, и никакой особой разницы нет. Что та фигня, что эта фигня, главное — научиться распознавать, дальше те же логические связки. Это давно ожидалось, потому что люди в основном смотрят, и большая часть информации приходит через глаза. Но мало кто ждал, что это так круто получится вот уже сейчас и с LLM.

Отчёт вот. Теперь давайте смотреть, а не читать.

Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации

Если вы пьяны, он пересчитает пиво и сверит с чеком:

Собственно, важное:

Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
Читает текст, ориентируется на местности, опознаёт конкретных людей
Умеет в абстракции и обратно
Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
Плохо считает.

Давайте к деталям.

Читать дальше →

+78

InfluxOW 2 окт 2023 в 16:44

Stable Diffusion: text-to-person

Простой

35 мин

38K

Обработка изображений * Машинное обучение * Искусственный интеллект

Туториал

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.

+30

olzeykan 26 сен 2023 в 15:56

Топ 10 deepnude нейросетей 2025 года

5 мин

996K

Обработка изображений * Машинное обучение * Искусственный интеллект

Обзор

DeepNude — это технология, использующая нейросети для создания изображений обнаженных тел на основе одетых фотографий или видео. Суть этой технологии заключается в том, чтобы "снять" одежду с изображения человека с помощью искусственного интеллекта и показать, как, предположительно, выглядит тело человека под одеждой.

Итак, в данной статье поговорим о пикантных и для некоторых людей непристойных темах, которые больше всего интересуют наше общество - обнаженное тело. Сделаем обзор таких сервисов как: Deepnude.ai, Deepfake.com, DeepSwap.ai, SoulGen и прочих.

+87

Doctor_IT 26 сен 2023 в 12:14

Странные позы, лишние пальцы и много котиков: самые интересные баги Midjourney

5 мин

12K

Блог компании SelectelИскусственный интеллектМашинное обучение * Обработка изображений *

Обзор

За время существования Midjourney пользователи сгенерировали петабайты изображений. Сколько из них действительно качественные — открытый вопрос. Машинное обучение интересно свей непредсказуемостью: часто генеративные нейросети коверкают иллюстрации, придумывают новые объекты, рисуют франкенштейнов — в общем, странно самовыражаются.

Часть багов разработчики Midjourney пофиксили, но некоторые существуют и сейчас. Мы потратили целый день, чтобы уговорить нейросеть заменить человека на картинке, но ничего не вышло. Смотрите, что создает Midjourney, когда ошибается, и угадывайте, какие баги мы зашифровали в обложке.

Читать дальше →

+34

C0uchP0tat0 26 сен 2023 в 10:09

Django, ImageField и .webp. Ещё немного про ускорение web приложения и экономию дискового пространства

Средний

4 мин

7.5K

Python * Django * Серверная оптимизация * Обработка изображений *

Туториал

Доброго времени суток уважаемый читатель. Хотелось бы немного поговорить об оптимизации наших с вам любимых WEB приложений, написанных на нашем горячо любимом и всеми уважаемом фреймворке Django. В частности речь в этой статье пойдёт об оптимизации изображений. А теперь по порядку.

ivankudryavtsev 26 сен 2023 в 09:30

Вышел Savant 0.2.5: фреймворк компьютерного зрения на базе Nvidia DeepStream SDK

Простой

6 мин

2.2K

Обработка изображений * Машинное обучение * Искусственный интеллект

Обзор

Перевод

Savant - это высокоуровневый фреймворк с открытым исходным кодом для создания высокоэффективных приложений компьютерного зрения, работающих в реальном времени на стеке Nvidia. Он позволяет разрабатывать динамические, отказоустойчивые конвейеры, используя лучшие подходы Nvidia для ускорителей в центрах обработки данных и на границе.

Мы рады представить вам новую версию Savant - 0.2.5. Мы работали над этим релизом более 2,5 месяцев. Он содержит значительные изменения, новые возможности и исправления ошибок в нескольких областях, но в первую очередь мы улучшили возможности для разработчиков и варианты развертывания.

SmartEngines 25 сен 2023 в 08:48

Банк в кармане: как МКБ применяет решения для распознавания Smart Engines

Простой

4 мин

Блог компании Smart EnginesИскусственный интеллектМашинное обучение * Обработка изображений *

Кейс

Московский кредитный банк (МКБ) уже три года применяет систему распознавания QR-кодов Smart Engines на смартфоне. Внедрение было визионерским: банк предвосхитил тренд на этот способ оплаты товаров и услуг.

Сегодня мы расскажем, как МКБ выбирал партнера по технологии распознавания, а также о том, каким образом банку удалось одним из первых в стране внедрить в мобильное приложение сканер номера телефона и как сейчас ИИ применяется в обслуживании клиентов вне офиса.

Tehnologika 25 сен 2023 в 08:37

Как мы распознавали цвета медицинских тест-полосок с помощью ИИ для healthcare стартапа

Средний

7 мин

1.9K

Машинное обучение * Разработка мобильных приложений * Обработка изображений * Искусственный интеллект

Кейс

✏️ Технотекст 2023

Рассказываем, как Технологика и стартап цифровой медицины запустили мобильное приложение, которое при помощи ИИ анализирует цвета медицинских тест-полосок и трактует результаты показателей мочи.

GlobalSign_admin 24 сен 2023 в 16:53

Эволюция CAPTCHA: доказательство PoW, продвинутые боты

3 мин

5.2K

Блог компании GlobalSignOpen source * Информационная безопасность * Обработка изображений *

Поскольку во всех типах капчи системы ИИ показывают результат лучше человека, исследователи задались задачей придумать более эффективные методы защиты от ботов.

Например, mCaptcha — опенсорсная CAPTCHA, работающая по принципу proof-of-work. Её уже можно встретить на некоторых сайтах.

Читать дальше →

+12

PatientZero 24 сен 2023 в 12:45

Почему распознавание краёв не объясняет линейного рисунка

Простой

10 мин

5.3K

Обработка изображений * Графический дизайн *

Обзор

Перевод

Почему люди понимают линейные рисунки? Почему мы мгновенно узнаём объекты на линейных рисунках, хотя они не относятся к явлениям естественного мира? Многие исследования показывают, что люди, никогда ранее не видевшие такие изображения, могут их понимать; нам не нужно этому учиться.

Классический ответ на этот вопрос — та гипотеза, которую я буду называть Lines-As-Edges. Она гласит, что рисунки симулируют естественные образы, потому что признаки линий активируют рецепторы краёв в зрительной системе человека. Насколько я могу судить, такое убеждение широко распространено в среде исследователей зрения; многие люди вспоминают эту гипотезу, когда я говорю о восприятии рисунков, а также многие комментаторы под недавним постом в Twitter. Обобщением этой идеи становится то, что линии соответствуют некому внутреннему представлению, заставляющему нейроны реагировать на контуры объектов. Я называю эту гипотезу Line-As-Internal-Representation и расскажу о ней в этой статье.

+28

1 2 ...

17 18

20 21 ...

120 121

Обработка изображений *

Искусственный кадровик: как ИИ может ускорить найм сотрудников, не подвергая их данные угрозе

Изучаем веб-сервисы ChatGPT и пробуем программировать

Kornia — библиотека компьютерного зрения

Размываем границы времени и учимся создавать видео — Kandinsky шагает дальше

Как мы перевезли на новый сайт 700 тысяч рецептов и 6 миллионов фото пирогов, сырников и овсяноблинов

AI – это путь в топ: как региональный банк покорил крупный рейтинг

Хуже, чем заключенные: как в Китае студенты тренируют ИИ

Экспресс-курс по настройке распознавания форм: показываем, как это сделать за 2 минуты

Нужны ли камерам смартфонов 12-битные АЦП, или мой провальный эксперимент

Перевод трактата по демонологии при помощи GPT-4 и Claude

Чат GPT-4V, который видит — что он умеет

Stable Diffusion: text-to-person

Топ 10 deepnude нейросетей 2025 года

Ближайшие события

Странные позы, лишние пальцы и много котиков: самые интересные баги Midjourney

Django, ImageField и .webp. Ещё немного про ускорение web приложения и экономию дискового пространства

Вышел Savant 0.2.5: фреймворк компьютерного зрения на базе Nvidia DeepStream SDK

Банк в кармане: как МКБ применяет решения для распознавания Smart Engines

Как мы распознавали цвета медицинских тест-полосок с помощью ИИ для healthcare стартапа

Эволюция CAPTCHA: доказательство PoW, продвинутые боты

Почему распознавание краёв не объясняет линейного рисунка

Вклад авторов