Как стать автором
Обновить
58.8

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Рисуем с нейросетями: тонкие корректировки в Midjourney и Lumenor.ai

Время на прочтение3 мин
Количество просмотров7.6K

Привет, Хабр! Я – Михаил Суворов, ведущий дизайнер коммуникаций в X5 Tech. В статье я расскажу несколько рабочих способов “уговорить” нейросеть нарисовать то, что вам нужно. Я использую нейросети как генераторы изображений, в первую очередь для создания иллюстраций.

Если вы достаточно часто пользовались txt2img нейросетями, то есть теми инструментами, которые превращают ваш текстовый запрос в изображение, то могли заметить, что не всегда получается добиться того результата, который у вас есть “в голове”, но вы не можете заставить нейросеть более четко выполнять ваши запросы.

В материале рассмотрим два ресурса, которые доступны онлайн и на сегодняшний день лучше всего справляются с задачей визуализации “по брифу от человека” – Midjourney и Lumenor.ai.

Читать далее
Всего голосов 16: ↑15 и ↓1+14
Комментарии22

Сладость или гадость?  Что покажет Smart Tomo Engine

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров859

Всем привет! Страшно соскучились по нашим читателям и решили порадовать вас очередной порцией ужасно красивых видео, которую мы подготовили к Хэллоуину. В этом году мы предлагаем вам погрузиться в атмосферу Хэллоуина с помощью нашей программы для томографической реконструкции и визуализации Smart Tomo Engine. В статье мы продемонстрируем удивительные реконструкции тыквы и других атрибутов праздника. А напоследок покажем самый что ни на есть хэллоуинский томографический кошмар – реконструкцию с тысячью артефактами, с которыми, кстати, мы уже умеем бороться!  Заинтриговали? Тогда вперед под каст.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Приходите к нам на завод, у нас тяжело

Время на прочтение10 мин
Количество просмотров137K
Короче, ИТ на заводе — это вам не романтика, особенно в нашем цифровом направлении.

Между «давайте этим займёмся» и «о, смотрите, какая гламурная ML-модель» лежит очень много того, про что не рассказывают. Сейчас расскажу.

Вначале у нас была банда энтузиастов из разных подразделений: несколько человек из ИТ, АСУТП, технологи со знанием статистики — чтобы смотреть с разных углов и видеть всё в целом, насколько это возможно. Начали с оценки перспектив. Они были необъятные — наше производство размером с небольшой город. Стали формироваться подразделения и направления: кто-то пошёл собирать роботов, кто-то в видеоаналитику, кто-то в лайтовый анализ данных, кто-то в самый хардкор — в дата-сатанизм. Работы у нас всегда больше, чем рук.

И на каждой из этих дорожек нас поджидали свои чудеса и сюрпризы.

Вот, к примеру, видеоаналитика:

  • Мы поняли, что ML в 50% задач не нужны. Нужна, например, камера, которая по цвету определяет, где есть железка, и смотрит её геометрию в реальности. Всё. Или другая камера, которая следит, чтобы в нужной зоне ничего не шевелилось.
  • Всё это прекрасно до первого солнечного зайчика. ML отлично показывают себя там, где вам лень строить крышу или ставить прожектор над конвейером.
  • У нас была идея, что мы можем сами в нейросети. Чуть не написали свой сервис для распознавания номеров вагонов. Казалось, делов-то на 20 минут, а у подрядчика это стоит 25 копеек за фото. Сделали свой, сферические вагоны в вакууме он определял хорошо. Потом приехало вот это:

image

А потом внезапно пошёл дождь. Знаете что? Вагоны под дождём становятся мокрыми. Это было неожиданно. Ещё они бывают после снега, битые, немытые, обновлённые криворукими малярами и ПРОЧИЕ. И в солнечных зайчиках тоже.

Мы накалывались на получении данных (кто сказал, что прошивка станка без костылей?), на роботизации, инфраструктуре, связи, на всём. Мы облазили весь завод, испачкались в солидоле, мазуте и масле. Но стали делать то, что должны, — оптимизировать мир.
Читать дальше →
Всего голосов 276: ↑272 и ↓4+268
Комментарии278

Просмотр монохромных артов ZXART на ATARI XL/XE

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров2.1K

В данной статье мы познакомимся с таким явлением как арты для платформы ZX Spectrum и его клонов, немного ковырнём формат файлов SCR (рассматриваем только стандартные 6144 и 6912), узнаем как можно такое запихнуть в ATARI и немножко покодим на C# и ассемблере для 6502.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии23

Истории

От Style Transfer до диффузии: эволюция визуальных эффектов на смартфонах

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.2K


Четыре года я занимаюсь разработкой различных спецэффектов для фото и видео в мобильных приложениях. Вроде бы это локальная и как бы несерьезная тема, но одну только плачущую маску в Snapchat посмотрели 9 млрд раз. Такие штуки пользуются бешеной популярностью и здорово повышают виральность мобильных приложений, но с каждым годом удивлять людей становится все сложнее.


В этой статье я разберу эволюцию видеоэффектов, поделюсь наблюдениями и раскрою пару инсайдов о том, как перенести стилизацию изображения из StableDiffusion на смартфоны.

Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии1

12 лучших инструментов аннотирования изображений на 2023 год

Время на прочтение11 мин
Количество просмотров2.6K

С развитием сферы искусственного интеллекта (AI) увеличивается и спрос на высококачественные инструменты аннотирования изображений. Аннотирование изображений — это процесс добавления в изображения метаданных, например, меток или тэгов, чтобы их было проще распознавать и выполнять по ним поиск машинам. Этот процесс критически важен для обучения моделей ИИ, чтобы они могли точно распознавать и классифицировать изображения.

При таком большом количестве имеющихся инструментов аннотирования изображений может быть сложно понять, какие из них лучше подходят под ваши потребности. Чтобы помочь вам сделать более обоснованное решение, мы составили список двенадцати лучших инструментов аннотирования изображений на 2023 год.

В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой. Также мы приведём отзывы и рейтинги пользователей, варианты цен и тарифов и информацию об интеграции с другим ПО и платформами.
Читать дальше →
Рейтинг0
Комментарии0

Гауссов сплэтинг: как это выглядит

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров13K
Пример работы гауссова сплэтинга. Этот ролик — не видеосъёмка реального мира, а рендер в реальном времени на настольном компьютере

Всплеск внимания к технике сплэтинга связан с представленной в августе этого года статьей 3D Gaussian Splatting for Real-Time Radiance Field Rendering [Трёхмерный гауссов сплэтинг для рендера radiance field в реальном времени]. До этого, в июле, эта научная работа исследователей Университета Лазурного берега, Института информатики Общества Макса Планка и французского Национального института исследований в информатике и автоматике вошла в пятёрку лучших работ SIGGRAPH 2023.

В следующие два месяца новостные сайты, блоги и тематические форумы начали рекомендовать гауссов сплэтинг как будущее компьютерной графики. Новая техника позволит быстро отсканировать существующую сцену и после короткого обучения отрендерить её с высокой точностью, обещают восторженные голоса.

Сейчас исследователи бьются над поиском практического применения технологии и сканированием движения. В оригинальной работе речь идёт о воссоздании в первую очередь статичных сцен.
Читать дальше →
Всего голосов 65: ↑65 и ↓0+65
Комментарии13

9 лучших инструментов аннотирования изображений для Computer Vision

Время на прочтение9 мин
Количество просмотров2.7K

На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.

Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.

Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.
Читать дальше →
Рейтинг0
Комментарии0

Что такое Quad Bayer фильтр в камерах и работает ли он на самом деле?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.6K

Летом 2018 года Sony представили сенсор IMX586 на 48 мегапикселей, в то время как нормой у смартфонов тогда было 12 или 16. В этом посте разбираемся, действительно ли технология светофильтров Quad Bayer, использующаяся в нём, работает, или это просто маркетинговая уловка.

Давайте же узнаем...
Всего голосов 17: ↑17 и ↓0+17
Комментарии45

Искусственный кадровик: как ИИ может ускорить найм сотрудников, не подвергая их данные угрозе

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.1K

Число утечек персональных данных в России все время растет: новости об очередных инцидентах выходят так часто, что уже перестают вызывать удивление. Чаще всего жертвами утечек становятся клиенты компаний. Но иногда под ударом оказываются и их сотрудники. Такие случаи уже происходили

В этом тексте рассказываем, как с помощью ИИ можно ускорить процесс найма сотрудников в несколько раз, не подвергая их данные ненужным рискам, и почему в таких целях ни в коем случае нельзя прибегать к сервисам распознавания.

Читать далее
Всего голосов 4: ↑1 и ↓3-2
Комментарии2

Изучаем веб-сервисы ChatGPT и пробуем программировать

Время на прочтение9 мин
Количество просмотров7.2K


Прямого доступа к сервисам OpenAI в РФ, как известно, нет. Для работы с ChatGPT многие пользуются телеграм-ботами, чаще всего бесплатными. В основном, запросы к ним — непритязательные. Пользователи практикуются в английском и, не раздражая никого пробелами в орфографии, получают списком все свои ошибки. Можно задавать ботам относительно простые вопросы.

Но, боты, в подавляющем большинстве работают на версии GPT3.5, возможности которой ограничены. Поэтому даже на хороший, но не релевантный запрос можно получить очень странный ответ, который начинается чем-то вроде «Да, я просто языковая модель и не могу сделать того, что вы от меня хотите...» и т. д. Нельзя забывать и о том, что телеграм-бот едва ли сможет хранить контекст, размером более 4000 токенов.

Поэтому в некоторых случаях удобнее использовать именно веб-сервисы, у них функции побогаче.
Читать дальше →
Всего голосов 24: ↑22 и ↓2+20
Комментарии8

Kornia — библиотека компьютерного зрения

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров11K

Kornia это open source библиотека для решения задач компьютерного зрения. Она использует PyTorch в качестве основного бэкенда и состоит из набора дифференцируемых процедур и модулей. Создатели библиотеки вдохновлялись OpenCV, и поэтому Kornia является его аналогом, но при этом в некоторых моментах превосходит. Главным преимуществом Kornia по сравнению с тем же OpenCV, scikit-image или с Albumentations является возможность обрабатывать изображения батчами, а не по одному изображению и возможность обрабатывать данные на GPU.

Читать далее
Всего голосов 26: ↑26 и ↓0+26
Комментарии10

Размываем границы времени и учимся создавать видео — Kandinsky шагает дальше

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров11K

В последние несколько лет активно развиваются генеративные модели, причём синтезировать с хорошим качеством уже сейчас получается и тексты, и аудио, и изображения, и видео, и 3D, и другие модальности. Если говорить про генерацию изображений, то стремительность прогресса в этом направлении обусловлена развитием диффузионного подхода и успехами при обучении больших диффузионных моделей (таких как DALL•E 2/3, Imagen, StableDiffusion, Kandinsky 2.X). Этот тип моделей показывает также отличное качество синтеза видео (ImagenVideo, Make-a-Video, Video LDM, GEN-1, GEN-2, Pika Labs, ZeroScope) и 3D-объектов (DreamFusion, Magic3D). При этом каждый месяц мы можем наблюдать за появлением новых open source (и не только) решений и сервисов, которые обеспечивают очень высокое визуальное качество генераций. 

Несмотря на стремление исследователей в области машинного обучения создать единую модель для синтеза видео, есть не менее элегантные подходы к генерации видеороликов. В этой статье речь пойдёт как раз о таком способе создания анимированных видео на основе модели генерации изображений по тексту — в нашем случае, это, как вы уже успели догадаться, модель Kandinsky 2.2. В деталях изучив направление моделирования различных визуальных эффектов вокруг генеративной модели, которая обладает способностью преобразования изображений (image-to-image) и механизмами дорисовки (inpainting/outpainting), мы разработали решение, которое расширяет границы статичных генераций и даёт возможность синтеза так называемых анимационных видео. В качестве такого фреймворка имплементации различных вариантов анимаций мы взяли широко известный deforum, который хорошо зарекомендовал себя в связке с моделью StableDiffusion. И поверьте, задача скрещивания deforum с Kandinsky была отнюдь не простой. Об этом и поговорим далее!

Читать далее
Всего голосов 29: ↑29 и ↓0+29
Комментарии8

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн

Как мы перевезли на новый сайт 700 тысяч рецептов и 6 миллионов фото пирогов, сырников и овсяноблинов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.1K


На рынке частой историей является поглощение глобальными игроками локальных интернет-сервисов и ресурсов, которые дублируют их функции. Так произошло в 2017 году и с парой «Овкусе» и Cookpad, когда последний решил зайти в русскоязычный сегмент. Тогда слияние произошло успешно: российский проект был куплен и органично влился в инфраструктуру кулинарного ресурса японского происхождения, где активно развивался все эти годы. Ровно до момента, пока головной офис не принял решение уйти из региона, полностью удалив русскоязычную часть Cookpad вместе со всем имеющимся контентом.

Сегодня мы расскажем о том, как нашей команде пришлось переносить данные целого проекта на новую платформу и с чем нам пришлось столкнуться при переезде 6 миллионов фото блюд из 700 тысяч рецептов, которые создали пользователи платформы за 15 лет.
Читать дальше →
Всего голосов 24: ↑23 и ↓1+22
Комментарии7

AI – это путь в топ: как региональный банк покорил крупный рейтинг

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.5K

Сотрудничество Банка «Кубань Кредит» и AI‑разработчика систем распознавания Smart Engines началось в прошлом году. Тогда Банк внедрил ряд технологий компьютерного зрения, которые усовершенствовали обслуживание клиентов в офисах и дистанционных каналах. Поставку технологий Smart Engines в Банк осуществляют специалисты компании АО «ФИНСИС».

В 2023 году журнал «Банковское обозрение» включил мобильное приложение «Кубань Кредит Онлайн» в число значимых IT‑ и ИБ‑проектов в финансовом секторе за 2022 год.

Как Банк «Кубань Кредит» достиг таких высоких результатов и что позволяет ему оставаться ведущей кредитной организацией Краснодарского края, мы расскажем в этом материале.

Читать далее
Всего голосов 11: ↑7 и ↓4+3
Комментарии3

Хуже, чем заключенные: как в Китае студенты тренируют ИИ

Время на прочтение8 мин
Количество просмотров12K

Аннотаторы данных для ИИ — новая горячая профессия в IT. Несколько десятков тысяч человек работают на таких «плантациях» в Венесуэле, в том числе обучая умные пылесосы. Недавно я рассказывал о том, как это происходит в Финляндии за счет труда заключенных. За разбор картинок и оценку текстов от ИИ им там платят порядка €1,50 в час. Но самая большая индустрия аннотаторов данных на самом деле находится в Китае. И они здесь придумали свое решение, уникальное именно для этой страны.

Читать далее
Всего голосов 30: ↑24 и ↓6+18
Комментарии15

Экспресс-курс по настройке распознавания форм: показываем, как это сделать за 2 минуты

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.3K

Привет, Хабр! Мы в Smart Engines постоянно пополняем список документов, которые под силу распознать нашим системам Smart ID Engine и Smart Document Engine. На сегодняшний день их количество исчисляется тысячами, но и это не предел. Новые документы на бумажных носителях продолжают возникать, а мы все так же успешно их распознаем. Причем распознаем очень быстро.

Добавлением новых документов, то есть настройкой всех подсистем для распознавания новых типов, мы обычно занимаемся сами. Ведь кто еще так хорошо знает, какую ручку нужно покрутить у нашей системы, чтобы все работало идеально. Однако в некоторых случаях пользователю может понадобиться самостоятельно добавить документы, которые требуется распознать. Например, если количество типов форм растет быстро, а распознавать их хочется уже сразу по мере появления. Или же когда по каким‑либо причинам пользователь не может нам предоставить даже один пример нужного документа. О том, что такое настройка распознавания формы и как это можно сделать самостоятельно буквально за пару минут, в этом тексте.

Читать далее
Всего голосов 7: ↑5 и ↓2+3
Комментарии2

Нужны ли камерам смартфонов 12-битные АЦП, или мой провальный эксперимент

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров6.4K

Среди фотографов известно, что на "больших" камерах использование 14-битного считывания по сравнению с 12-битным может положительно сказаться на детализации теней. Как же дело обстоит с маленькими сенсорами в камерах смартфонов?

Давайте же узнаем...
Всего голосов 23: ↑23 и ↓0+23
Комментарии23

Перевод трактата по демонологии при помощи GPT-4 и Claude

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров4.3K

Вряд ли кто-то будет спорить, что инструменты ИИ вроде GPT-4, как минимум интересны и забавны. Но насколько они практичны?

Могут ли они помочь нам сделать что-то действительно полезное... например, перевести 1200-страничную книгу о демонах, написанную малоизвестным теологом-иезуитом XVI века?

Давайте проверим!

Читать далее
Всего голосов 25: ↑24 и ↓1+23
Комментарии5

Чат GPT-4V, который видит — что он умеет

Время на прочтение4 мин
Количество просмотров52K
Случилось вот что: вышел большой отчёт про возможности GPT-4V. Внезапно оказалось, что LLM могут обращаться с картинками так же, как с текстовыми промптами, и никакой особой разницы нет. Что та фигня, что эта фигня, главное — научиться распознавать, дальше те же логические связки. Это давно ожидалось, потому что люди в основном смотрят, и большая часть информации приходит через глаза. Но мало кто ждал, что это так круто получится вот уже сейчас и с LLM.

Отчёт вот. Теперь давайте смотреть, а не читать.


Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации

Если вы пьяны, он пересчитает пиво и сверит с чеком:



Собственно, важное:
  • Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
  • Читает текст, ориентируется на местности, опознаёт конкретных людей
  • Умеет в абстракции и обратно
  • Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
  • Плохо считает.

Давайте к деталям.
Читать дальше →
Всего голосов 80: ↑79 и ↓1+78
Комментарии63