Все потоки
Поиск
Написать публикацию
Обновить
49.23

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Как генерировать изображения на Rust в 100 строчек кода с Yandex ART?

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров709

Если в вашем Rust-проекте возникает необходимость генерировать изображения, то расскажите зачем) А о том, как это сделать — в этой статье. В качестве источника самих картинок я выбрал Yandex ART из-за того, что с ним не нужно возиться со всякими трехбуквенными сервисами, реклама которых в России запрещена.

Читать далее

Новости

Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

Время на прочтение5 мин
Количество просмотров3.2K

Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи.

Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала.

В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.

Читать далее

Как убрать жёлтый оттенок у картинок, сгенерированных в ChatGPT

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров4.7K

Открытый в конце ноября 2022 года ChatGPT вскоре перестал быть сервисом только для создания текстов. Ещё 19 октября 2023 в платные тарифы добавили DALL·E 3. 8 августа 2024 года OpenAI расщедрилась: отныне можно было создавать до двух картинок в сутки на бесплатном тарифе ChatGPT. Важно, что это был просто союз с большой языковой моделью: БЯМ переводит нестройную человеческую просьбу в детальный бриф промпта для графического бэкэнда — генеративной нейросети на диффузионных декодерах.

25 марта компания OpenAI объявила, что отныне модель GPT-4o может генерировать картинки. БЯМ способна не только создать новое изображение с нуля по текстовому описанию, но и принять на входе другую картинку с текстовым промптом и сгенерировать что-то на этой основе. Теперь картинки рисовала не чистая диффузия, а авторегрессионный трансформер в связке с мощным декодером, качество поднялось, практическая польза резко выросла.

Почти сразу обнаружился огромный недостаток картинок от GPT-4o — лёгкий коричневый оттенок любых результатов, которому в разной степени были подвержены все результаты. Хотя проблема решается тривиально, сегодня существует целая экосистема платного софта для устранения этого эффекта.

Читать далее

К чему нас приведет ИИ: закат цивилизации или новый рассвет

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.5K

Привет! Я — Иван Башарин, Руководитель лаборатории ИИ и архитектор решений в VESNA.

Честно признаюсь, мне немного страшно из-за ИИ. Но не переживайте, это не очередная пугалка без самокритики, дочитайте до конца.

Читать далее

Революция в генерации изображений открывает новые подходы к созданию реалистичных картинок с помощью нейронных сетей

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров6.8K

Команда российских ученых, работающих в МФТИ, Иннополисе и Сколково, совершила научный прорыв в области генеративного моделирования — создании новых изображений, похожих на настоящие фотографии или рисунки. Они разработали новый метод, который значительно ускоряет и упрощает процесс генерации в теории и на практике. Их результаты опубликованы в материалах конференции NeurIPS 2024.

 В ранних моделях, основанных на сопоставлении потоков, «река» часто имела извилистые русла, а «путешествие» частиц было долгим и сложным. Это приводило к замедлению процесса генерации новых данных. Поэтому ученые искали способы сделать траектории потока максимально прямыми.

Существующие подходы к выпрямлению траекторий имели свои недостатки. Некоторые методы были итеративными, то есть многократно повторяли процесс улучшения «прямоты», накапливая при этом ошибки. Другие методы основывались на упрощенных приближениях, которые не гарантировали нужного результата.

Новый метод оптимального сопоставления потоков, представленный на конференции NeurIPS 2024, решает эти проблемы. 

Читать далее

Nano Banana: редактирование изображений через нейросеть

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров14K

Доброго времени суток, «Хабр»!

Не так давно компания Google представила обновлённую модель для работы с визуальным контентом. Nano Banana уже получила в сети громкий титул убийцы Photoshop, поскольку не только создает картинки с нуля, но и редактирует: меняет стиль одежды, перекрашивает стены, удаляет лишние объекты и не только.

В сегодняшней статье мы подробно рассмотрим Nano Banana, протестируем эту модель, а также я со своей, далеко не авторитетной точки зрения, отвечу на вопрос: фарс или годнота предстала перед нами?

Принимайте устойчивое сидячее или лежачее положение — как вам удобнее, а я приступаю к своему рассказу.

Читать далее

Нейронные сети, вдохновленные природой: новая архитектура экситон-поляритонных решеток эффективнее распознает образы

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров2.3K

Ученые из Московского физико-технического института (МФТИ) сделали важный шаг в развитии нейроморфных систем, создав новую архитектуру нейронной сети на основе экситон-поляритонных конденсатов. Эта инновационная система показала впечатляющие результаты, превзойдя уже существующие поляритонные нейроморфные технологии. Результаты их работы опубликованы в журнале Light: Science & Applications.

Экситон-поляритоны — квазичастицы, представляющие собой «жидкий свет», открывают новые перспективы для создания эффективных нейроморфных систем. Они возникают в результате взаимодействия фотонов и экситонов, сочетая в себе свойства света и вещества. Их уникальные характеристики позволяют создавать высокоскоростные нейроморфные системы, способные обрабатывать информацию с невероятной эффективностью. Впервые термин «поляритонный нейрон» был введен в исследовании группы А. В. Кавокина (МФТИ), посвященном плоским волноводным структурам, которые передают когерентность поляритонов на большие расстояния (2008 год). Они стали основой для разработки бинарных логических вентилей на полупроводниковых микрорезонаторах, что, в свою очередь, открыло путь к нейроморфным вычислениям.

Читать далее

Lens Blur Fields: нейросетевая ФРТ на службе улучшения фотографий и идентификации камеры

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров1K

Оптическое размытие — обобщающий термин для различных факторов деградации изображения, таких как расфокусировка, дифракция и аберрации. Математически оно описывается функцией рассеяния точки. Форма ФРТ, как правило, пространственно-вариантна и зависит от координат в поле изображения, настройки фокуса, расстояния до объекта (глубины резкости), апертуры и длины волны. Поэтому любые попытки точно описать размытие реальной камеры сталкиваются с необходимостью измерять слишком большое количество параметров, что на практике выполнить почти невозможно.

Метод Lens Blur Fields предлагает новое решение: использовать многослойные перцептроны, которые обучаются представлять ФРТ в виде непрерывной функции высокой размерности (arXiv:2310.11535). Такая модель способна обобщать по всем параметрам сразу и восстанавливать плавные изменения ФРТ вместо того, чтобы хранить её в виде разрозненной таблицы замеров.

В теории это значит, что метод Lens Blur Fields позволит не только сделать очередной красивый фильтр с боке, но и различать экземпляры камер по снимкам с них.

Читать далее

Оптимизация функций компьютерного зрения (библиотека OpenCV) для RISC-V

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров1.9K

OpenCV — популярная библиотека, включающая множество алгоритмов компьютерного зрения и функций для них. Оптимизация их под RISC-V — большая и интересная задача, которой в рамках Зимней школы RISC-V YADRO сезона 2024–2025 занимались студенты Университета Лобачевского (ННГУ). В этой статье они подробно расскажут о своей работе.

Читать далее

Промт: как получать лучшие результаты в Midjourney

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.6K

Доброго времени суток, «Хабр»!

Не так давно я рассказывал про промты для нейросетей, которые способны генерировать фотографии и видео. Да и можно вспомнить, что у меня выходили статьи про Krea AI и Playground AI, которые тоже являются инструментами для работы с изображениями. В этой статье мной было принято решение немного углубиться в части генерации фотографий и рассмотреть одну из более популярных моделей, предназначенных для этого, — Midjourney. Точнее как, сегодня мы поговорим о некой конкретике и изюминке в промтах для этой нейросети, а также узнаем (а некоторые вспомнят), как их грамотно составлять.

Итак, присаживаемся поудобнее, достаем свои кисточки, кхм, точнее достаем вкусняшки, ну а я перехожу к своему повествованию.

Читать далее

Математика и веб-разработка: как мы добавили интерактивную кривую Безье в редактор изображений

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.5K

Добрый день, меня зовут Богдан, я фронтенд-разработчик в компании iSpring. В статье расскажу про интерактивную стрелку в редакторе изображений. Вы узнаете: как строятся кривые Безье и какие полезные свойства имеют; как вычислить кривую Безье, проходящую через заданные точки; как найти ограничивающую площадь этой кривой. Рассмотрим плюсы и минусы реализаций на Canvas и SVG.

Читать далее

Какая LLM лучше распознает чертежи? Мы сравнили 6 LLM и узнали ответ

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров9.7K

Инженерные чертежи содержат десятки типов размеров и допусков: линейные и угловые, радиальные и диаметральные, справочные и базовые, а также геометрические характеристики вроде плоскостности или перпендикулярности. Для инженера это привычный язык, но для автоматической обработки такие документы представляют серьёзную задачу.

С появлением мультимодальных LLM возник вопрос: способны ли они заменить классические OCR-решения и специализированные пайплайны постобработки? Насколько хорошо современные модели справляются с извлечением размеров и допусков из коробки, без дообучения? Какие модели дают максимальную точность, какие быстрее, а какие дешевле? И можно ли комбинировать разные подходы, чтобы повысить результат?

Чтобы ответить на эти вопросы, мы протестировали шесть актуальных vision-LLM на одном наборе реальных механических чертежей и сравнили их точность, скорость и стоимость обработки.

Читать далее

Генерация изображений: краткий обзор на PlayGround AI

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.3K

Доброго времени суток, «Хабр»!
Сегодня мы обсудим Playground AI — это многофункциональная онлайн-платформа, позволяющая создавать и свободно редактировать разнообразные изображения при помощи искусственного интеллекта. Сервис представляет собой уникальный инструмент для тех, кто хочет быстро и достаточно качественно получать различные изображения.

Постараемся охватить моменты работы данного инструмента, начиная от описания основных возможностей до выявления сильных сторон и возможных недостатков. По итогам обзора вы сможете сформировать собственное мнение относительно данной платформы для ваших личных нужд.

Итак, устраивайтесь поудобнее, запасайтесь вкусняшками и приготовьтесь узнать больше о Playground AI прямо сейчас.

Читать далее

Ближайшие события

Как убедить стол не таскать за собой чашки. Пошаговая отладка промпта в txt2img-сервисах

Время на прочтение5 мин
Количество просмотров1.3K

Летнее утро на даче… Как такое не запечатлеть с помощью нейросетей! Цветущий сад, собака под ногами и тихо урчащая кофемашина, наливающая чашку крепкого ароматного напитка. Одну чашку.

Казалось бы, ничего сложного. Садимся и набираем простой линейный промпт «что вижу, то пою», а модель сама всё нарисует. Не тут-то было.

Зачастую простейшая казалось бы задача упирается в серьезную проблему в результате скрытых настроек и правил инструмента. Например, мы просим нарисовать одну чашку, а на картинке их постоянно две или больше.

Исправить это можно либо с помощью множества итераций с применением средств отладки и перебором промптов. Но также интересно решить задачу через понимание и использование принципов работы нейросетей. Тут я покажу второй путь.

Читать далее

Учебник под микроскопом. Часть 1: из PDF в TXT

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.5K

Автоматический способ превращения учебника в текстовый файл (TXT) для дальнейшего анализа. В статье пишем о том, как с помощью Python и OCR извлечь текст из PDF, даже если это сканированные страницы в плохом качестве.

Читать далее

Определение положения объектов на изображении: как найти пространственные координаты объекта, используя OpenCV

Время на прочтение26 мин
Количество просмотров7.9K

Как найти 3D координаты объектов на изображении?

Статья о задаче пространственной локализации объектов на изображении с одной камеры и о её решении с помощью OpenCV

Читать далее

Как ContentCapture и LLM автоматизируют обработку судебных приказов, определений и постановлений ФССП

Время на прочтение6 мин
Количество просмотров1.5K

Ранее мы уже делились опытом использования LLM для обработки юридических документов и доверенностей. Сегодня расскажем о другом подходе, который применил наш технологический партнер ООО «ЕСМ-Консалтинг». При реализации нескольких показательных кейсов для крупных российских энергосбытовых компаний, автоматизировав в них обработку судебных документов с помощью платформы ContentCapture и больших языковых моделей (LLM).

Изначально мы рассматривали два подхода к реализации подобных проектов. Первый – предполагал классическую работу с гибкими описаниями документов, когда правила извлечения информации задаются человеком. Второй вариант – комбинированный, с использованием больших языковых моделей (LLM). Наш опыт показал, что последний подход как минимум в три раза экономичнее, при работе с неструктурированными документами. Он обеспечивает хорошую скорость и высокое качество извлечения данных (более 95% правильно извлеченных данных), что позволяет нашим заказчикам масштабировать обработку документов без роста операционных расходов.

Узнать подробности

Трекинг объектов по видео: как мы повышали точность, снижали ресурсоемкость, и к каким изменениям в продукте это привело

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.2K

Привет! Мы в Macroscop разрабатываем ПО для систем видеонаблюдения, которое умеет распознавать автономера, чекать спецодежду на рабочих, детектировать по видео задымленность и возгорания и решать еще около 20 задач, касающихся анализа видео.
Один из фокусов нашей команды - разработка собственной видеоаналитики, а также постоянное ее улучшение, выражающееся в росте точности, функциональности и производительности. 

Пару месяцев назад мы выпустили новую версию ПО, в которой в том числе значительно обновился нейросетевой модуль трекинга, отслеживающий траектории перемещения объектов, пересечение контрольных линий и длительное пребывание в охраняемых зонах.
Необходимость модернизации трекинга назрела, потому что за годы, прошедшие с момента разработки предыдущей версии, к нему накопился ряд пожеланий. Часть из них касалась повышения точности работы, часть - производительности модуля.
Возникла задача, обычно вызывающая холодный пот у разработчика: сделать так, чтобы трекинг работал точнее и при этом - быстрее.

К счастью, причины указанных проблем скрывались в разных частях алгоритма трекинга и были в большой степени независимы друг от друга. В результате нам удалось добиться повышения точности модуля при одновременном снижении затрат вычислительных ресурсов. А как мы это сделали- расскажем дальше.

Все смешалось – люди, кони кошки...

Первая сложность, связанная с точностью, лежала внутри обученного нами детектора-классификатора (YOLO), который обнаруживает в кадре объекты интересующих нас классов: транспорт разных типов, люди, животные. Выражалась она довольно специфическим образом: некоторые животные, особенно кошки и собаки, в определенных ракурсах (вид со спины и видны задние лапы, направленные параллельно туловищу) классифицировались как люди.

Как мы перестали путать кошек и людей

Nano Banana от Google: генерация и редактирование изображений на новой архитектуре Gemini 2.5

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров33K

26 августа 2025 года Google представила новую preview-модель под кодовым названием Nano Banana — это часть экосистемы Gemini 2.5 Flash Image, ориентированной на генерацию и редактирование изображений с помощью текстовых и мультимодальных запросов. Несмотря на шутливое название, перед нами — серьёзный инструмент с претензией на роль нового стандарта в визуальном ИИ.

Читать далее

Дилемма, которая привела к краху Kodak

Уровень сложностиПростой
Время на прочтение25 мин
Количество просмотров10K

Люди вспоминают Kodak со смесью ностальгии и недоверия. Ностальгия по тем временам, когда её жёлтые коробки определяли мир фотографии для миллионов, и недоверие к тому, что столь доминирующая компания может всё потерять. От первой камеры для масс до изобретения самой цифровой камеры, Kodak помогала формировать будущее. Но оказавшись в тисках дилеммы инноватора, где прошлый успех порождает осторожность, а осторожность подавляет импульс, Kodak колебалась, пока другие адаптировались, и цифровая революция оставила её позади. Это история о том, как компания, когда-то определившая мир фотографии, стала её самой известной жертвой.

Читать далее
1
23 ...

Вклад авторов