Обновить
93.33

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели2.9K
Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic)

Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR).

Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA, в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества.
Читать дальше →

Децензурировать видео теперь проще, чем когда-либо

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели2.6K

В прошлом месяце попросил ребят взломать часть моего видео на YouTube. Конкретнее — восстановить содержимое папки, которую «запиксил» начиная с отметки времени 4:57. Годами все так делают, чтобы размазать, точнее, «расквадратить» части видео с конфиденциальной информацией. И все это время слышно:

— Небезопасно же! Захотят — прочитают!

Так это правда? Как на самом деле‑то? Вопрос не праздный. Чтобы докопаться до истины, кинул клич:

— Пятьдесят баксов тому, кто скажет, что написано под квадратиками!
Читать дальше →

Цифра, пленка и советские объективы: как я увлекся пейзажной фотографией

Время на прочтение7 мин
Охват и читатели3.9K

Привет, Хабр! Меня зовут Павел Шестаков. В МТС я работаю Product Owner: мы с командой разрабатываем инструмент интерактивной аналитики и визуализации данных на основе open-source-решения. Но сегодня речь не об этом — хочу рассказать о своем хобби. Когда-то еще в детстве я начал снимать пейзажи на обычную мыльницу, потом погрузился в технические нюансы фотографии, увлекся старыми фотоаппаратами и даже сам проявлял пленку. Сейчас у меня набралась целая коллекция фотоаппаратов и объективов. Я экспериментирую с изображениями, снимаю для себя, периодически участвую в конкурсах — и всей душой горю этим делом.

Ниже поделюсь своим опытом, а еще обсудим, почему профессиональные камеры — это не всегда хорошо, и что заставляет нас по-прежнему любить старые пленочные фотоаппараты. Надеюсь, будет интересно!

Читать далее

Мы нанимали маркетологов 60 лет, а потом пришла нейросеть

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4.6K

Три года с командой продвигаю детские лагеря по мотивам Гарри Поттера. Это долго! Сложно увидеть что-то новое в тех же отзывах, придумать новый текст (когда пишешь штук 5 каждую неделю), мучительно перебирать фотографии — глаз замылился и не помнишь, что использовала. Креативы быстро выгорают, и всё заново. Когда появились нейросети, я выдохнула.

Продвигаем в телеграме детские тематические лагеря — по мотивам ГП и несколько других тоже в фентези-стиле. Наша задача — показать родителям, что именно этот лагерь станет лучшим летним приключением для их ребенка.

Для успешного продвижения лагерей нам нужно делать три главные вещи:

Читать далее

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Время на прочтение11 мин
Охват и читатели4.6K

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом.

На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

Читать далее

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели4.6K

Меня давно интересовала тема апскейла изображений, отдельно - апскейла старых видео. Одно из первых решений, которое попалось в руки несколько лет назад - waifu2x (https://github.com/nagadomi/waifu2x). Но эта нейронка больше подходила для апскейла аниме (насколько я помню на них она и тренировалась). То есть, waifu2x подходила для довольно простых изображений без избытка деталей и сложности текстур.

Затем я поизучал ESRGAN (https://github.com/xinntao/ESRGAN) и Real-ESRGAN (https://github.com/xinntao/Real-ESRGAN). Довольно неплохие модельки, вполне годятся для апскейла изображений, но очень часто заметна синтетичность, особенно в сложных сценах, например когда на изображении есть деревья. Я даже попробовал дотренировать Real-ESRGAN, к слову это делать не сложно, на их гитхабе есть скрипты и инструкции (https://github.com/xinntao/Real-ESRGAN/blob/master/docs/Training.md), но пока дособирал свой датасет для тренировки на глаза попалась другая модель - SwinIR (https://github.com/JingyunLiang/SwinIR), потестировав которую понял - она покрывает мои текущие потребности, если не полностью, то по меньшей мере процентов на 80%. А потребности были - заапскейлить несколько старых фильмов, и чтобы после апскейла фильм смотрелся как фильм, а не как пластилиновый театр. В целом все получилось. Именно об этом эта статья.

Апскейлить будем фильм "Пираты Силиконовой долины" (1999г, США, DVD5). Он повествует о появлении домашнего ПК и становлении компаний Apple и Microsoft. Довольно интересный фильм с бунтарским духом той эпохи. Главные герои - молодые Стив Джобс, Стив Возняк, Билл Гейтс и другие участники "революции домашних ПК". Кстати, апскейлить фильм будем конечно же на домашнем ПК.

Читать дальше →

Викторианские фильтры, или Как люди избегают реальность уже 200 лет

Время на прочтение4 мин
Охват и читатели17K

В 19 веке английские девушки и юноши, претендующие на возвышенность чувств, носили с собой небольшое продолговатое зеркальце, через которое смотрели на мир. Зеркальце было затемненное, что придавало отражению палитру модного художника Клода Лоррена. Увлечение, естественно, многие высмеивали: чтобы увидеть такой «отраженный» пейзаж, нужно было встать к нему спиной. Но ценителям прекрасного было все равно, ведь так они познавали мир через эмоциональный и индивидуальный опыт. Ничего не напоминает?

Сегодня мы продолжим исследовать Англию 18–19 веков, которая подарила миру множество прототипов современных социальных сетей. Складывается ощущение, что Британия была акселератором стартапов задолго до того, как это термин вообще появился. В прошлый раз я рассказывала про эдвардианские открытки, ставшие MVP мессенджеров. А сегодня поговорим о прототипе фильтров в соцсетях.

Читать далее

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели1.6K

Что делать, если хочешь отредактировать картинку?

На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще уж фотошопу научиться. Как было бы здорово показать картинку нейросети и написать: «Пожалуйста, смени юбку на джинсы. И сзади ещё одну клумбу добавь… И погода пусть солнечной будет!»

Увы, как бы ни ломали голову исследователи, задача произвольного нейросетевого редактирования изображений на сегодняшний день в целом не решена. Но пройден нелёгкий путь, и есть заметные достижения, о которых нельзя не рассказать.

Мастера фотошопа, оцените!

Цветовая вычислительная фотография. Часть 1: Теория цвета

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели2.4K

Приветствую! Меня зовут Егор Ершов, я руковожу группой «Цветовая вычислительная фотография» в AIRI, а также заведую сектором репродукции и синтеза цвета ИППИ РАН. Область моих научных интересов касается способов регистрации и обработки изображений, что в той или иной степени касается любого человека, кто хоть раз пользовался камерой, монитором или проектором.

Вычислительная фотография лежит на стыке сразу нескольких дисциплин: физики, физиологии, компьютерных наук. Из‑за этого в ней ещё много сложного, но вместе с тем интересного и неизвестного. Я подготовил полноценный курс по алгоритмам вычислительной фотографии для МФТИ и ВШЭ, но мне также хотелось бы поделиться со всеми желающими его материалами в текстовом формате.

Этот курс посвящен как феномену цвета, механизмам его восприятия, исследованию зрительной системы человека, так и непосредственно алгоритмам цветовой вычислительной фотографии. Но в этой статье я бы хотел в общих чертах обрисовать проблему регистрации изображений, а также дать введение в теорию цвета, которая потребуется в дальнейших частях.

Читать далее

Прототип для металлографа: анализ включений на Python с OpenCV и PyQt

Время на прочтение3 мин
Охват и читатели820

В профессии инженера-металловеда мне ежедневно приходится анализировать микроструктуру материалов и неметаллические включения. До недавнего времени я, как и многие, делал это вручную: окуляр микроскопа, шкалы, подсчёты, Excel. Утомительно и долго. На фоне постоянного потока образцов нагрузка на глаза и внимание становится ощутимой.

Коммерческие программы для металловедов решают эту проблему... почти. Они избыточны, дороги, и процентов на 90 включают функции, которыми обычный инженер не пользуется. Хотелось чего-то проще, точнее и, желательно, бесплатного. Так родился мой проект SenseOptics KANV.

Читать далее

Почему в индустрии фотокамер такой беспорядок с форматами RAW, и что говорят производители?

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.3K

Когда вы настраиваете новую камеру или даже делаете фото с некоторых смартфонов, перед вами возникает выбор: JPG или RAW?

Фото в JPG изначально готово к публикации практически везде, в то время как RAW — это сырой файл с дополнительными данными, дающими широкие возможности для пост-обработки. Такая опция сохранения в RAW (и даже само обобщённое название RAW) в индустрии вроде как стандартизирована, но несмотря на это, в мире фотосъёмки единый формат RAW так и не утвердился.
Читать дальше →

Путь видео в онлайн-кинотеатрах от «стекла до стекла». Middleware — ядро, подписки, сервисы, витрина

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели897

Привет, Хабр! Снова с вами Дмитрий Новожилов — техлид онлайн-кинотеатра KION. В прошлый раз я рассказал, откуда берется контент на киносервисах и как он обрабатывается. Для этого разобрал источники данных и элемент Headend, включающий пункт приема сигнала, кодер и пакетайзер.

На предварительных этапах контент нормализуется, делится на чанки, обрабатывается DRM и попадает в «сердце видеосервиса» — Middleware. Это тот самый элемент, который управляет контентом, когда вы открываете приложение на умном телевизоре или смартфоне. Он обеспечивает логику работы витрины: когда вы заходите в сервис, показывает доступный на площадке контент. Затем вы выбираете нужный фильм и получаете его через ближайший узел CDN.

В этом посте я расскажу, какие компоненты и сервисы объединяются термином Middleware и что конкретно делает этот комплекс.

Читать далее

Всё про инференс на Sophon NPU (TPU)

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели1.8K

В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. 

Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).

Читать далее

Ближайшие события

Прорывы в генерации изображений. Что поменялось с появлением мультимодальных моделей?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели1.3K

Подробно рассказываю с примерами создания инфографики, редактирования интерьеров, прототипирования сайтов и рекламных концепций, все это с помощью простых текстовых запросов

Читать далее

Современные форматы изображений в Discord: поддержка WebP и AVIF

Время на прочтение12 мин
Охват и читатели1K

В течение последнего полугода команда Discord по обслуживанию медиа-инфраструктуры модернизировала конвейер обработки изображений, добавив поддержку анимированных форматов WebP и AVIF. Теперь на платформе можно делиться анимированными картинками WebP и AVIF как в виде прикреплённых файлов, так и в виде вставок. При этом все эмодзи выдаются в виде анимированных WebP — и бесшовно отображаются на любой платформе Discord. Эти изменения были реализованы для того, чтобы повысить качество анимации и воспроизведения роликов на всех платформах. При этом одновременно резко уменьшается размер файлов, и поэтому их загрузка ускоряется!

Читать далее

Как мы оживили DPED: ИИ-проект для улучшения мобильных фото до снимков с «зеркалок»

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели1.5K

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева.

Сегодня практически у каждого крупного производителя смартфонов есть собственные системы улучшения качества фотографий, основанные на искусственном интеллекте. Помимо этого, существует множество аналогичных открытых моделей нейросетей. Возникает вопрос: зачем тогда мы решили оживить DPED (Deep Photo Enhancement Dataset) — созданный для тех же целей проект 2017 года? В статье мы ответим на этот вопрос, займемся оживлением и протестируем нашу модель DPED на фотографиях с планшета KVADRA_T.

Читать далее

Старый конь борозды не испортит: классические методы обработки изображений все ещё актуальны

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели2.6K

Что такое цифровая обработка изображений? Зачем нам вообще знать про алгоритмы обработки, когда есть фотошоп и фильтры в телефоне? Или всё можно отдать нейросети и получить крутой результат? И при чём тут Julia, наконец? Будем разбираться!

Мы запускаем серию статей про обработку изображений с использованием языка Julia и вычислительной среды Engee. Задача – ответить на часто встречающиеся вопросы вроде актуальности этого направления компьютерной науки, задач, решаемых методами обработки изображений, применения и реализации стандартных и «умных» алгоритмов. 

В первой части ознакомимся с основами на примере сегментации спутникового снимка.

Читать далее

Распознавание рукописного текста некоторыми бесплатными LLM

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели4.7K

Пришло время добавить в телеграм-бота для распознавания текста на фото Argus распознавание рукописного текста. Бот бесплатный, значит и LLM должна быть бесплатной. Из требований доступности были выбраны представленные на OpenRouter модели, всего image -> text нашлось 18 штук.

Ниже эксперименты со всеми.

Читать далее

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели6.6K

Иногда надо что-то быстро оцифровать - время работы магазина с его таблички, визитную карточку, квитанцию почтового отправления. Приходится делать фотографию, которая потом теряется в куче других фотографий, и не может быть найдена по контексту.

Идея — сделать фото, перевести в текст, сразу отформатировать/обработать/перевести как надо и сохранить уже куда хочешь — в Telegram избранное, Google Keep, Google Контакты, Obsidian и т. д. И чтоб всё было быстро и удобно.

Так появился Argus — телеграм бот, в котором можно сделать фото (или кинуть ему изображение), он распознает и выведет текст, который повторно можно пропустить через обычную chat completion LLM.

Читать далее

Метрики оценки моделей нейронных сетей для чайников

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.2K

Оценка моделей нейронных сетей играет ключевую роль в выборе наилучшего алгоритма для конкретной задачи. Выбор метрики должен соответствовать целям, поскольку очевидного показателя «Точность» (accuracy) обычно недостаточно. Критерии помогают определить эффективность и корректно сравнить различные подходы.

Меня зовут Александр Агеев, я ML‑разработчик в SL Soft AI. В этой статье я расскажу про методы оценки трех задач: классификации, обнаружения объектов (детекции), сегментации.

Внимание: материал предназначен для первого погружения в тему и не учитывает многовариативность подходов в узкоспециализированных задачах, где метрики могут изменяться и усложняться.

Читать далее

Вклад авторов