Все потоки
Поиск
Написать публикацию
Обновить
50.7

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Искусственный кадровик: как ИИ может ускорить найм сотрудников, не подвергая их данные угрозе

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.6K

Число утечек персональных данных в России все время растет: новости об очередных инцидентах выходят так часто, что уже перестают вызывать удивление. Чаще всего жертвами утечек становятся клиенты компаний. Но иногда под ударом оказываются и их сотрудники. Такие случаи уже происходили

В этом тексте рассказываем, как с помощью ИИ можно ускорить процесс найма сотрудников в несколько раз, не подвергая их данные ненужным рискам, и почему в таких целях ни в коем случае нельзя прибегать к сервисам распознавания.

Читать далее

Изучаем веб-сервисы ChatGPT и пробуем программировать

Время на прочтение9 мин
Количество просмотров10K


Прямого доступа к сервисам OpenAI в РФ, как известно, нет. Для работы с ChatGPT многие пользуются телеграм-ботами, чаще всего бесплатными. В основном, запросы к ним — непритязательные. Пользователи практикуются в английском и, не раздражая никого пробелами в орфографии, получают списком все свои ошибки. Можно задавать ботам относительно простые вопросы.

Но, боты, в подавляющем большинстве работают на версии GPT3.5, возможности которой ограничены. Поэтому даже на хороший, но не релевантный запрос можно получить очень странный ответ, который начинается чем-то вроде «Да, я просто языковая модель и не могу сделать того, что вы от меня хотите...» и т. д. Нельзя забывать и о том, что телеграм-бот едва ли сможет хранить контекст, размером более 4000 токенов.

Поэтому в некоторых случаях удобнее использовать именно веб-сервисы, у них функции побогаче.
Читать дальше →

Kornia — библиотека компьютерного зрения

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров14K

Kornia это open source библиотека для решения задач компьютерного зрения. Она использует PyTorch в качестве основного бэкенда и состоит из набора дифференцируемых процедур и модулей. Создатели библиотеки вдохновлялись OpenCV, и поэтому Kornia является его аналогом, но при этом в некоторых моментах превосходит. Главным преимуществом Kornia по сравнению с тем же OpenCV, scikit-image или с Albumentations является возможность обрабатывать изображения батчами, а не по одному изображению и возможность обрабатывать данные на GPU.

Читать далее

Размываем границы времени и учимся создавать видео — Kandinsky шагает дальше

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров13K

В последние несколько лет активно развиваются генеративные модели, причём синтезировать с хорошим качеством уже сейчас получается и тексты, и аудио, и изображения, и видео, и 3D, и другие модальности. Если говорить про генерацию изображений, то стремительность прогресса в этом направлении обусловлена развитием диффузионного подхода и успехами при обучении больших диффузионных моделей (таких как DALL•E 2/3, Imagen, StableDiffusion, Kandinsky 2.X). Этот тип моделей показывает также отличное качество синтеза видео (ImagenVideo, Make-a-Video, Video LDM, GEN-1, GEN-2, Pika Labs, ZeroScope) и 3D-объектов (DreamFusion, Magic3D). При этом каждый месяц мы можем наблюдать за появлением новых open source (и не только) решений и сервисов, которые обеспечивают очень высокое визуальное качество генераций. 

Несмотря на стремление исследователей в области машинного обучения создать единую модель для синтеза видео, есть не менее элегантные подходы к генерации видеороликов. В этой статье речь пойдёт как раз о таком способе создания анимированных видео на основе модели генерации изображений по тексту — в нашем случае, это, как вы уже успели догадаться, модель Kandinsky 2.2. В деталях изучив направление моделирования различных визуальных эффектов вокруг генеративной модели, которая обладает способностью преобразования изображений (image-to-image) и механизмами дорисовки (inpainting/outpainting), мы разработали решение, которое расширяет границы статичных генераций и даёт возможность синтеза так называемых анимационных видео. В качестве такого фреймворка имплементации различных вариантов анимаций мы взяли широко известный deforum, который хорошо зарекомендовал себя в связке с моделью StableDiffusion. И поверьте, задача скрещивания deforum с Kandinsky была отнюдь не простой. Об этом и поговорим далее!

Читать далее

Как мы перевезли на новый сайт 700 тысяч рецептов и 6 миллионов фото пирогов, сырников и овсяноблинов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.2K


На рынке частой историей является поглощение глобальными игроками локальных интернет-сервисов и ресурсов, которые дублируют их функции. Так произошло в 2017 году и с парой «Овкусе» и Cookpad, когда последний решил зайти в русскоязычный сегмент. Тогда слияние произошло успешно: российский проект был куплен и органично влился в инфраструктуру кулинарного ресурса японского происхождения, где активно развивался все эти годы. Ровно до момента, пока головной офис не принял решение уйти из региона, полностью удалив русскоязычную часть Cookpad вместе со всем имеющимся контентом.

Сегодня мы расскажем о том, как нашей команде пришлось переносить данные целого проекта на новую платформу и с чем нам пришлось столкнуться при переезде 6 миллионов фото блюд из 700 тысяч рецептов, которые создали пользователи платформы за 15 лет.
Читать дальше →

AI – это путь в топ: как региональный банк покорил крупный рейтинг

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.8K

Сотрудничество Банка «Кубань Кредит» и AI‑разработчика систем распознавания Smart Engines началось в прошлом году. Тогда Банк внедрил ряд технологий компьютерного зрения, которые усовершенствовали обслуживание клиентов в офисах и дистанционных каналах. Поставку технологий Smart Engines в Банк осуществляют специалисты компании АО «ФИНСИС».

В 2023 году журнал «Банковское обозрение» включил мобильное приложение «Кубань Кредит Онлайн» в число значимых IT‑ и ИБ‑проектов в финансовом секторе за 2022 год.

Как Банк «Кубань Кредит» достиг таких высоких результатов и что позволяет ему оставаться ведущей кредитной организацией Краснодарского края, мы расскажем в этом материале.

Читать далее

Хуже, чем заключенные: как в Китае студенты тренируют ИИ

Время на прочтение8 мин
Количество просмотров12K

Аннотаторы данных для ИИ — новая горячая профессия в IT. Несколько десятков тысяч человек работают на таких «плантациях» в Венесуэле, в том числе обучая умные пылесосы. Недавно я рассказывал о том, как это происходит в Финляндии за счет труда заключенных. За разбор картинок и оценку текстов от ИИ им там платят порядка €1,50 в час. Но самая большая индустрия аннотаторов данных на самом деле находится в Китае. И они здесь придумали свое решение, уникальное именно для этой страны.

Читать далее

Экспресс-курс по настройке распознавания форм: показываем, как это сделать за 2 минуты

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.7K

Привет, Хабр! Мы в Smart Engines постоянно пополняем список документов, которые под силу распознать нашим системам Smart ID Engine и Smart Document Engine. На сегодняшний день их количество исчисляется тысячами, но и это не предел. Новые документы на бумажных носителях продолжают возникать, а мы все так же успешно их распознаем. Причем распознаем очень быстро.

Добавлением новых документов, то есть настройкой всех подсистем для распознавания новых типов, мы обычно занимаемся сами. Ведь кто еще так хорошо знает, какую ручку нужно покрутить у нашей системы, чтобы все работало идеально. Однако в некоторых случаях пользователю может понадобиться самостоятельно добавить документы, которые требуется распознать. Например, если количество типов форм растет быстро, а распознавать их хочется уже сразу по мере появления. Или же когда по каким‑либо причинам пользователь не может нам предоставить даже один пример нужного документа. О том, что такое настройка распознавания формы и как это можно сделать самостоятельно буквально за пару минут, в этом тексте.

Читать далее

Нужны ли камерам смартфонов 12-битные АЦП, или мой провальный эксперимент

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров6.6K

Среди фотографов известно, что на "больших" камерах использование 14-битного считывания по сравнению с 12-битным может положительно сказаться на детализации теней. Как же дело обстоит с маленькими сенсорами в камерах смартфонов?

Давайте же узнаем...

Перевод трактата по демонологии при помощи GPT-4 и Claude

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров4.6K

Вряд ли кто-то будет спорить, что инструменты ИИ вроде GPT-4, как минимум интересны и забавны. Но насколько они практичны?

Могут ли они помочь нам сделать что-то действительно полезное... например, перевести 1200-страничную книгу о демонах, написанную малоизвестным теологом-иезуитом XVI века?

Давайте проверим!

Читать далее

Чат GPT-4V, который видит — что он умеет

Время на прочтение4 мин
Количество просмотров55K
Случилось вот что: вышел большой отчёт про возможности GPT-4V. Внезапно оказалось, что LLM могут обращаться с картинками так же, как с текстовыми промптами, и никакой особой разницы нет. Что та фигня, что эта фигня, главное — научиться распознавать, дальше те же логические связки. Это давно ожидалось, потому что люди в основном смотрят, и большая часть информации приходит через глаза. Но мало кто ждал, что это так круто получится вот уже сейчас и с LLM.

Отчёт вот. Теперь давайте смотреть, а не читать.


Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации

Если вы пьяны, он пересчитает пиво и сверит с чеком:



Собственно, важное:
  • Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
  • Читает текст, ориентируется на местности, опознаёт конкретных людей
  • Умеет в абстракции и обратно
  • Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
  • Плохо считает.

Давайте к деталям.
Читать дальше →

Stable Diffusion: text-to-person

Уровень сложностиПростой
Время на прочтение35 мин
Количество просмотров38K

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.

Читать далее

Топ 10 deepnude нейросетей 2025 года

Время на прочтение5 мин
Количество просмотров996K

DeepNude — это технология, использующая нейросети для создания изображений обнаженных тел на основе одетых фотографий или видео. Суть этой технологии заключается в том, чтобы "снять" одежду с изображения человека с помощью искусственного интеллекта и показать, как, предположительно, выглядит тело человека под одеждой.

Итак, в данной статье поговорим о пикантных и для некоторых людей непристойных темах, которые больше всего интересуют наше общество - обнаженное тело. Сделаем обзор таких сервисов как: Deepnude.ai, Deepfake.com, DeepSwap.ai, SoulGen и прочих.

Читать далее

Ближайшие события

Странные позы, лишние пальцы и много котиков: самые интересные баги Midjourney

Время на прочтение5 мин
Количество просмотров12K

За время существования Midjourney пользователи сгенерировали петабайты изображений. Сколько из них действительно качественные — открытый вопрос. Машинное обучение интересно свей непредсказуемостью: часто генеративные нейросети коверкают иллюстрации, придумывают новые объекты, рисуют франкенштейнов — в общем, странно самовыражаются.

Часть багов разработчики Midjourney пофиксили, но некоторые существуют и сейчас. Мы потратили целый день, чтобы уговорить нейросеть заменить человека на картинке, но ничего не вышло. Смотрите, что создает Midjourney, когда ошибается, и угадывайте, какие баги мы зашифровали в обложке.
Читать дальше →

Django, ImageField и .webp. Ещё немного про ускорение web приложения и экономию дискового пространства

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров7.5K

Доброго времени суток уважаемый читатель. Хотелось бы немного поговорить об оптимизации наших с вам любимых WEB приложений, написанных на нашем горячо любимом и всеми уважаемом фреймворке Django. В частности речь в этой статье пойдёт об оптимизации изображений. А теперь по порядку.

Читать далее

Вышел Savant 0.2.5: фреймворк компьютерного зрения на базе Nvidia DeepStream SDK

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.2K

Savant - это высокоуровневый фреймворк с открытым исходным кодом для создания высокоэффективных приложений компьютерного зрения, работающих в реальном времени на стеке Nvidia. Он позволяет разрабатывать динамические, отказоустойчивые конвейеры, используя лучшие подходы Nvidia для ускорителей в центрах обработки данных и на границе.

Мы рады представить вам новую версию Savant - 0.2.5. Мы работали над этим релизом более 2,5 месяцев. Он содержит значительные изменения, новые возможности и исправления ошибок в нескольких областях, но в первую очередь мы улучшили возможности для разработчиков и варианты развертывания.

Читать далее

Банк в кармане: как МКБ применяет решения для распознавания Smart Engines

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1K

Московский кредитный банк (МКБ) уже три года применяет систему распознавания QR-кодов Smart Engines на смартфоне. Внедрение было визионерским: банк предвосхитил тренд на этот способ оплаты товаров и услуг.

Сегодня мы расскажем, как МКБ выбирал партнера по технологии распознавания, а также о том, каким образом банку удалось одним из первых в стране внедрить в мобильное приложение сканер номера телефона и как сейчас ИИ применяется в обслуживании клиентов вне офиса.

Читать далее

Как мы распознавали цвета медицинских тест-полосок с помощью ИИ для healthcare стартапа

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.9K

Рассказываем, как Технологика и стартап цифровой медицины запустили мобильное приложение, которое при помощи ИИ анализирует цвета медицинских тест-полосок и трактует результаты показателей мочи.

Читать далее

Эволюция CAPTCHA: доказательство PoW, продвинутые боты

Время на прочтение3 мин
Количество просмотров5.2K


Поскольку во всех типах капчи системы ИИ показывают результат лучше человека, исследователи задались задачей придумать более эффективные методы защиты от ботов.

Например, mCaptcha — опенсорсная CAPTCHA, работающая по принципу proof-of-work. Её уже можно встретить на некоторых сайтах.
Читать дальше →

Почему распознавание краёв не объясняет линейного рисунка

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров5.3K

Почему люди понимают линейные рисунки? Почему мы мгновенно узнаём объекты на линейных рисунках, хотя они не относятся к явлениям естественного мира? Многие исследования показывают, что люди, никогда ранее не видевшие такие изображения, могут их понимать; нам не нужно этому учиться.

Классический ответ на этот вопрос — та гипотеза, которую я буду называть Lines-As-Edges. Она гласит, что рисунки симулируют естественные образы, потому что признаки линий активируют рецепторы краёв в зрительной системе человека. Насколько я могу судить, такое убеждение широко распространено в среде исследователей зрения; многие люди вспоминают эту гипотезу, когда я говорю о восприятии рисунков, а также многие комментаторы под недавним постом в Twitter. Обобщением этой идеи становится то, что линии соответствуют некому внутреннему представлению, заставляющему нейроны реагировать на контуры объектов. Я называю эту гипотезу Line-As-Internal-Representation и расскажу о ней в этой статье.

Читать далее

Вклад авторов