Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

@alizar 5 мая в 09:01

Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса

Средний

7 мин

2.9K

Блог компании RUVDS.comМашинное обучение * Искусственный интеллектБиографии гиковОбработка изображений *

Обзор

Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic)

Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR).

Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA, в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества.

Читать дальше →

+55

@oneastok 2 мая в 12:00

Децензурировать видео теперь проще, чем когда-либо

Простой

3 мин

2.6K

Блог компании SelectelИнформационная безопасность * Обработка изображений * Работа с видео * Реверс-инжиниринг *

Обзор

Перевод

В прошлом месяце попросил ребят взломать часть моего видео на YouTube. Конкретнее — восстановить содержимое папки, которую «запиксил» начиная с отметки времени 4:57. Годами все так делают, чтобы размазать, точнее, «расквадратить» части видео с конфиденциальной информацией. И все это время слышно:

— Небезопасно же! Захотят — прочитают!

Так это правда? Как на самом деле‑то? Вопрос не праздный. Чтобы докопаться до истины, кинул клич:

— Пятьдесят баксов тому, кто скажет, что написано под квадратиками!

Читать дальше →

+18

@Sh_Pav 30 апр в 07:00

Цифра, пленка и советские объективы: как я увлекся пейзажной фотографией

7 мин

3.9K

Блог компании МТСОбработка изображений * Научно-популярноеЧитальный залФототехника

Привет, Хабр! Меня зовут Павел Шестаков. В МТС я работаю Product Owner: мы с командой разрабатываем инструмент интерактивной аналитики и визуализации данных на основе open-source-решения. Но сегодня речь не об этом — хочу рассказать о своем хобби. Когда-то еще в детстве я начал снимать пейзажи на обычную мыльницу, потом погрузился в технические нюансы фотографии, увлекся старыми фотоаппаратами и даже сам проявлял пленку. Сейчас у меня набралась целая коллекция фотоаппаратов и объективов. Я экспериментирую с изображениями, снимаю для себя, периодически участвую в конкурсах — и всей душой горю этим делом.

Ниже поделюсь своим опытом, а еще обсудим, почему профессиональные камеры — это не всегда хорошо, и что заставляет нас по-прежнему любить старые пленочные фотоаппараты. Надеюсь, будет интересно!

+38

@neuroAnn 29 апр в 08:16

Мы нанимали маркетологов 60 лет, а потом пришла нейросеть

Простой

6 мин

4.6K

Машинное обучение * Удалённая работаТекстовые редакторы и IDE * Обработка изображений * Копирайт

Кейс

Три года с командой продвигаю детские лагеря по мотивам Гарри Поттера. Это долго! Сложно увидеть что-то новое в тех же отзывах, придумать новый текст (когда пишешь штук 5 каждую неделю), мучительно перебирать фотографии — глаз замылился и не помнишь, что использовала. Креативы быстро выгорают, и всё заново. Когда появились нейросети, я выдохнула.

Продвигаем в телеграме детские тематические лагеря — по мотивам ГП и несколько других тоже в фентези-стиле. Наша задача — показать родителям, что именно этот лагерь станет лучшим летним приключением для их ребенка.

Для успешного продвижения лагерей нам нужно делать три главные вещи:

@isachenkoroma 29 апр в 07:05

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

11 мин

4.6K

Блог компании ЯндексМашинное обучение * Искусственный интеллектОбработка изображений *

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом.

На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

+31

@peterplv 27 апр в 08:05

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

Средний

13 мин

4.6K

Лайфхаки для гиковОбработка изображений * Работа с видео * Искусственный интеллектБудущее здесь

Туториал

Меня давно интересовала тема апскейла изображений, отдельно - апскейла старых видео. Одно из первых решений, которое попалось в руки несколько лет назад - waifu2x (https://github.com/nagadomi/waifu2x). Но эта нейронка больше подходила для апскейла аниме (насколько я помню на них она и тренировалась). То есть, waifu2x подходила для довольно простых изображений без избытка деталей и сложности текстур.

Затем я поизучал ESRGAN (https://github.com/xinntao/ESRGAN) и Real-ESRGAN (https://github.com/xinntao/Real-ESRGAN). Довольно неплохие модельки, вполне годятся для апскейла изображений, но очень часто заметна синтетичность, особенно в сложных сценах, например когда на изображении есть деревья. Я даже попробовал дотренировать Real-ESRGAN, к слову это делать не сложно, на их гитхабе есть скрипты и инструкции (https://github.com/xinntao/Real-ESRGAN/blob/master/docs/Training.md), но пока дособирал свой датасет для тренировки на глаза попалась другая модель - SwinIR (https://github.com/JingyunLiang/SwinIR), потестировав которую понял - она покрывает мои текущие потребности, если не полностью, то по меньшей мере процентов на 80%. А потребности были - заапскейлить несколько старых фильмов, и чтобы после апскейла фильм смотрелся как фильм, а не как пластилиновый театр. В целом все получилось. Именно об этом эта статья.

Апскейлить будем фильм "Пираты Силиконовой долины" (1999г, США, DVD5). Он повествует о появлении домашнего ПК и становлении компаний Apple и Microsoft. Довольно интересный фильм с бунтарским духом той эпохи. Главные герои - молодые Стив Джобс, Стив Возняк, Билл Гейтс и другие участники "революции домашних ПК". Кстати, апскейлить фильм будем конечно же на домашнем ПК.

Читать дальше →

@Darya_Frolova 23 апр в 12:00

Викторианские фильтры, или Как люди избегают реальность уже 200 лет

4 мин

17K

Блог компании МТСОбработка изображений * Социальные сетиНаучно-популярноеЧитальный зал

В 19 веке английские девушки и юноши, претендующие на возвышенность чувств, носили с собой небольшое продолговатое зеркальце, через которое смотрели на мир. Зеркальце было затемненное, что придавало отражению палитру модного художника Клода Лоррена. Увлечение, естественно, многие высмеивали: чтобы увидеть такой «отраженный» пейзаж, нужно было встать к нему спиной. Но ценителям прекрасного было все равно, ведь так они познавали мир через эмоциональный и индивидуальный опыт. Ничего не напоминает?

Сегодня мы продолжим исследовать Англию 18–19 веков, которая подарила миру множество прототипов современных социальных сетей. Складывается ощущение, что Британия была акселератором стартапов задолго до того, как это термин вообще появился. В прошлый раз я рассказывала про эдвардианские открытки, ставшие MVP мессенджеров. А сегодня поговорим о прототипе фильтров в соцсетях.

+50

@georfed 22 апр в 09:59

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Средний

15 мин

1.6K

Блог компании SberDevicesИскусственный интеллектМашинное обучение * Обработка изображений * Научно-популярное

Обзор

Что делать, если хочешь отредактировать картинку?

На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще уж фотошопу научиться. Как было бы здорово показать картинку нейросети и написать: «Пожалуйста, смени юбку на джинсы. И сзади ещё одну клумбу добавь… И погода пусть солнечной будет!»

Увы, как бы ни ломали голову исследователи, задача произвольного нейросетевого редактирования изображений на сегодняшний день в целом не решена. Но пройден нелёгкий путь, и есть заметные достижения, о которых нельзя не рассказать.

Мастера фотошопа, оцените!

+26

@createcolor 21 апр в 06:57

Цветовая вычислительная фотография. Часть 1: Теория цвета

Простой

9 мин

2.4K

Блог компании AIRIФизикаФототехникаОбработка изображений * Алгоритмы *

FAQ

Приветствую! Меня зовут Егор Ершов, я руковожу группой «Цветовая вычислительная фотография» в AIRI, а также заведую сектором репродукции и синтеза цвета ИППИ РАН. Область моих научных интересов касается способов регистрации и обработки изображений, что в той или иной степени касается любого человека, кто хоть раз пользовался камерой, монитором или проектором.

Вычислительная фотография лежит на стыке сразу нескольких дисциплин: физики, физиологии, компьютерных наук. Из‑за этого в ней ещё много сложного, но вместе с тем интересного и неизвестного. Я подготовил полноценный курс по алгоритмам вычислительной фотографии для МФТИ и ВШЭ, но мне также хотелось бы поделиться со всеми желающими его материалами в текстовом формате.

Этот курс посвящен как феномену цвета, механизмам его восприятия, исследованию зрительной системы человека, так и непосредственно алгоритмам цветовой вычислительной фотографии. Но в этой статье я бы хотел в общих чертах обрисовать проблему регистрации изображений, а также дать введение в теорию цвета, которая потребуется в дальнейших частях.

+17

@SenseOptics 13 апр в 17:05

Прототип для металлографа: анализ включений на Python с OpenCV и PyQt

3 мин

820

Программирование * Инженерные системы * Обработка изображений * Python *

Из песочницы

В профессии инженера-металловеда мне ежедневно приходится анализировать микроструктуру материалов и неметаллические включения. До недавнего времени я, как и многие, делал это вручную: окуляр микроскопа, шкалы, подсчёты, Excel. Утомительно и долго. На фоне постоянного потока образцов нагрузка на глаза и внимание становится ощутимой.

Коммерческие программы для металловедов решают эту проблему... почти. Они избыточны, дороги, и процентов на 90 включают функции, которыми обычный инженер не пользуется. Хотелось чего-то проще, точнее и, желательно, бесплатного. Так родился мой проект SenseOptics KANV.

@Bright_Translate 11 апр в 13:01

Почему в индустрии фотокамер такой беспорядок с форматами RAW, и что говорят производители?

Средний

6 мин

8.3K

Блог компании RUVDS.comФототехникаОбработка изображений * Графический дизайн * Гаджеты

Обзор

Перевод

Когда вы настраиваете новую камеру или даже делаете фото с некоторых смартфонов, перед вами возникает выбор: JPG или RAW?

Фото в JPG изначально готово к публикации практически везде, в то время как RAW — это сырой файл с дополнительными данными, дающими широкие возможности для пост-обработки. Такая опция сохранения в RAW (и даже само обобщённое название RAW) в индустрии вроде как стандартизирована, но несмотря на это, в мире фотосъёмки единый формат RAW так и не утвердился.

Читать дальше →

+53

142

@DNovozhilov01 10 апр в 11:55

Путь видео в онлайн-кинотеатрах от «стекла до стекла». Middleware — ядро, подписки, сервисы, витрина

Простой

7 мин

897

Блог компании МТСРабота с видео * IPTV * Обработка изображений *

Обзор

Привет, Хабр! Снова с вами Дмитрий Новожилов — техлид онлайн-кинотеатра KION. В прошлый раз я рассказал, откуда берется контент на киносервисах и как он обрабатывается. Для этого разобрал источники данных и элемент Headend, включающий пункт приема сигнала, кодер и пакетайзер.

На предварительных этапах контент нормализуется, делится на чанки, обрабатывается DRM и попадает в «сердце видеосервиса» — Middleware. Это тот самый элемент, который управляет контентом, когда вы открываете приложение на умном телевизоре или смартфоне. Он обеспечивает логику работы витрины: когда вы заходите в сервис, показывает доступный на площадке контент. Затем вы выбираете нужный фильм и получаете его через ближайший узел CDN.

В этом посте я расскажу, какие компоненты и сервисы объединяются термином Middleware и что конкретно делает этот комплекс.

@ZlodeiBaal 10 апр в 07:39

Всё про инференс на Sophon NPU (TPU)

Средний

7 мин

1.8K

Блог компании RecognitorМашинное обучение * Обработка изображений * Искусственный интеллектВысоконагруженные системы *

Туториал

Перевод

В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время.

Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).

+16

@Kual 5 апр в 07:00

Прорывы в генерации изображений. Что поменялось с появлением мультимодальных моделей?

Простой

7 мин

1.3K

Искусственный интеллектБудущее здесьОбработка изображений * Исследования и прогнозы в IT * Контент и копирайтинг *

Обзор

Перевод

Подробно рассказываю с примерами создания инфографики, редактирования интерьеров, прототипирования сайтов и рекламных концепций, все это с помощью простых текстовых запросов

@Sivchenko_translate 4 апр в 20:46

Современные форматы изображений в Discord: поддержка WebP и AVIF

12 мин

Программирование * Обработка изображений * Мессенджеры * Клиентская оптимизация * Проектирование и рефакторинг *

Перевод

В течение последнего полугода команда Discord по обслуживанию медиа-инфраструктуры модернизировала конвейер обработки изображений, добавив поддержку анимированных форматов WebP и AVIF. Теперь на платформе можно делиться анимированными картинками WebP и AVIF как в виде прикреплённых файлов, так и в виде вставок. При этом все эмодзи выдаются в виде анимированных WebP — и бесшовно отображаются на любой платформе Discord. Эти изменения были реализованы для того, чтобы повысить качество анимации и воспроизведения роликов на всех платформах. При этом одновременно резко уменьшается размер файлов, и поэтому их загрузка ускоряется!

@miriteam 2 апр в 11:51

Как мы оживили DPED: ИИ-проект для улучшения мобильных фото до снимков с «зеркалок»

Средний

8 мин

1.5K

Блог компании YADROИскусственный интеллектМашинное обучение * Обработка изображений * Open source *

Туториал

Сезон Open source

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева.

Сегодня практически у каждого крупного производителя смартфонов есть собственные системы улучшения качества фотографий, основанные на искусственном интеллекте. Помимо этого, существует множество аналогичных открытых моделей нейросетей. Возникает вопрос: зачем тогда мы решили оживить DPED (Deep Photo Enhancement Dataset) — созданный для тех же целей проект 2017 года? В статье мы ответим на этот вопрос, займемся оживлением и протестируем нашу модель DPED на фотографиях с планшета KVADRA_T.

+18

@MaratUss 2 апр в 11:32

Старый конь борозды не испортит: классические методы обработки изображений все ещё актуальны

Средний

12 мин

2.6K

Блог компании ЦИТМ ЭкспонентаОбработка изображений * Алгоритмы * Matlab * Julia *

Туториал

Что такое цифровая обработка изображений? Зачем нам вообще знать про алгоритмы обработки, когда есть фотошоп и фильтры в телефоне? Или всё можно отдать нейросети и получить крутой результат? И при чём тут Julia, наконец? Будем разбираться!

Мы запускаем серию статей про обработку изображений с использованием языка Julia и вычислительной среды Engee. Задача – ответить на часто встречающиеся вопросы вроде актуальности этого направления компьютерной науки, задач, решаемых методами обработки изображений, применения и реализации стандартных и «умных» алгоритмов.

В первой части ознакомимся с основами на примере сегментации спутникового снимка.

@gmtd 1 апр в 03:06

Распознавание рукописного текста некоторыми бесплатными LLM

Простой

3 мин

4.7K

Искусственный интеллектОбработка изображений * Мессенджеры *

Пришло время добавить в телеграм-бота для распознавания текста на фото Argus распознавание рукописного текста. Бот бесплатный, значит и LLM должна быть бесплатной. Из требований доступности были выбраны представленные на OpenRouter модели, всего image -> text нашлось 18 штук.

Ниже эксперименты со всеми.

@gmtd 25 мар в 12:41

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

Простой

2 мин

6.6K

Обработка изображений * Мессенджеры * Искусственный интеллект

Иногда надо что-то быстро оцифровать - время работы магазина с его таблички, визитную карточку, квитанцию почтового отправления. Приходится делать фотографию, которая потом теряется в куче других фотографий, и не может быть найдена по контексту.

Идея — сделать фото, перевести в текст, сразу отформатировать/обработать/перевести как надо и сохранить уже куда хочешь — в Telegram избранное, Google Keep, Google Контакты, Obsidian и т. д. И чтоб всё было быстро и удобно.

Так появился Argus — телеграм бот, в котором можно сделать фото (или кинуть ему изображение), он распознает и выведет текст, который повторно можно пропустить через обычную chat completion LLM.

@Alexandr1997ag 25 мар в 07:33

Метрики оценки моделей нейронных сетей для чайников

Средний

6 мин

8.2K

Блог компании SL SoftОбработка изображений * Машинное обучение *

Туториал

Оценка моделей нейронных сетей играет ключевую роль в выборе наилучшего алгоритма для конкретной задачи. Выбор метрики должен соответствовать целям, поскольку очевидного показателя «Точность» (accuracy) обычно недостаточно. Критерии помогают определить эффективность и корректно сравнить различные подходы.

Меня зовут Александр Агеев, я ML‑разработчик в SL Soft AI. В этой статье я расскажу про методы оценки трех задач: классификации, обнаружения объектов (детекции), сегментации.

Внимание: материал предназначен для первого погружения в тему и не учитывает многовариативность подходов в узкоспециализированных задачах, где метрики могут изменяться и усложняться.

1 2 ...

6 7

9 10 ...

122 123

Обработка изображений *

Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса

Децензурировать видео теперь проще, чем когда-либо

Цифра, пленка и советские объективы: как я увлекся пейзажной фотографией

Мы нанимали маркетологов 60 лет, а потом пришла нейросеть

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

Викторианские фильтры, или Как люди избегают реальность уже 200 лет

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Цветовая вычислительная фотография. Часть 1: Теория цвета

Прототип для металлографа: анализ включений на Python с OpenCV и PyQt

Почему в индустрии фотокамер такой беспорядок с форматами RAW, и что говорят производители?

Путь видео в онлайн-кинотеатрах от «стекла до стекла». Middleware — ядро, подписки, сервисы, витрина

Всё про инференс на Sophon NPU (TPU)

Ближайшие события

Прорывы в генерации изображений. Что поменялось с появлением мультимодальных моделей?

Современные форматы изображений в Discord: поддержка WebP и AVIF

Как мы оживили DPED: ИИ-проект для улучшения мобильных фото до снимков с «зеркалок»

Старый конь борозды не испортит: классические методы обработки изображений все ещё актуальны

Распознавание рукописного текста некоторыми бесплатными LLM

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

Метрики оценки моделей нейронных сетей для чайников

Вклад авторов