Обновить
92.55

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Архитектура будущего: как должны эволюционировать наземные комплексы обработки данных дистанционного зондирования Земли

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели7.3K

Аналитический обзор ключевых архитектурных проблем и перспективных подходов к построению систем обработки спутниковых данных на фоне взрывного роста группировок космических аппаратов и требований потребителей.

Читать далее

Новости

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.2K

В прошлых материалах мы уже рассказывали о том, как мультимодальные модели (VLM) справляются с извлечением данных из финансовых документов, и показывали, что в ряде сценариев они могут конкурировать с оптимизированными классическими IDP-решениями. Однако мы решили не ограничиваться одним типом документов и продолжили исследование, сравнив технологии на широком спектре материалов. В пул вошли сканы высокого качества и фотографии со сложным фоном, структурированные табличные формы и документы с элементами рукописного текста, русскоязычные и англоязычные тексты.  

Сегодня мы готовы поделиться сводными итогами.

Читать далее

VLM / VLA / World Models / Physical AI

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели8.3K

Нейроночки в последнее время заполонили всё. Ну, почти всё. Cейчас подбираются к роботам. Настоящего прогресса почти так же много как нейрослопа, пиара и преувеличений.
В этой статье попробую рассказать про нейроночки для управления роботами:

🤖 Расскажу немного про теорию
🤖 Покажу как обучить всё это дома на коленке (и стать экспертом в Physical AI конечно)

Читать далее

Как мы искали «Луну-9»

Уровень сложностиСредний
Время на прочтение20 мин
Охват и читатели25K

Ровно 60 лет назад, 3 февраля 1966 года советский космический аппарат «Луна-9» совершил первую в истории человечества мягкую посадку на Луну. И только сейчас мы можем точно узнать, где именно он находится на Луне.

18+ НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ ЕГОРОВЫМ ВИТАЛИЕМ ЮРЬЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА ЕГОРОВА ВИТАЛИЯ ЮРЬЕВИЧА

Сразу после посадки «Луны-9» в советской прессе были опубликованы координаты места высадки, и сейчас их можно найти в Википедии и других источниках. Но тогда в прессе не уточняли, что это лишь центр области, в которой действительно произошла посадка, а точное местоположение аппарата тогда было невозможно установить, так же, как и рассмотреть его в телескопы с Земли или со спутников.

Зачем вообще искать «Луну-9», которая уже 60 лет не подает признаков жизни?

Для планетологии это может быть полезно как средство сравнения снимков поверхности Луны из космоса и на месте. Можно оценить, насколько верны были исследования 60-70-х на основе данных с «Луны-9». Для истории — это археологический памятник, свидетель зари космонавтики. Для меня, как энтузиаста космонавтики, это возможность прикоснуться к истории, о которой я читал ещё в детстве. С точки зрения популяризации космонавтики, это способ показать современные достижения науки и техники, которые позволяют простому пользователю интернета, не выходя из дома, провести своё собственное исследование в космосе.

Прямой поиск на Луне космических аппаратов разных стран стал возможен только после запуска американского лунного спутника NASA LRO в 2009 году. Его камера высокого разрешения NAC LROC отсняла почти всю поверхность Луны с разрешением 0,5-1 м на пиксель, а местами и до 0,35 м на пиксель. С её помощью были осмотрены следы американских астронавтов и найдены советские «Луноходы», обнаружены американские зонды Surveyor и советские станции серии «Луна», начиная с «Луны-16». 

Читать далее

Топ нейросетей и ИИ-сервисов 2026 года: лучшие ИИ-инструменты

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели14K

2026 год. Нейросети – теперь рабочий инструмент, который есть почти у каждого.

Но в этом и проблема: их стало так много, что глаза разбегаются. Только собрался освоить один сервис – тут же выходит другой, который обещает быть лучше, быстрее и дешевле. Как не утонуть в этом потоке и выбрать то, что действительно работает?

Мы решили помочь и протестировали 25 нейросетей для самых разных задач: от генерации текста и видео до создания музыки и презентаций. В этом обзоре вы найдёте не только известных гигантов вроде ChatGPT 5.2 или Gemini 3, но и другие решения: ChatPDF для документов, SlidesAI для слайдов, Suno для музыки и отечественный “Кандинский” для изображений.

Если вы устали от поиска «той самой нейросети» – эта статья станет вашей картой сокровищ.

Читать далее

̶К̶у̶п̶а̶н̶и̶е̶ тестирование «красного» ̶к̶о̶н̶я̶ представителя GPU от АМД с приставкой ИИ — RADEON AI PRO R9700

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.2K

Тестировать друг за другом видеокарты от NVIDIA надоедает, благо разница в последнем поколении только в мощностях процессоров семейства Blackwell, объеме памяти и ширине шины. А вот посмотреть, что предлагают конкуренты, а тем более громко называя это «ИИ», уже интересней. Мы проверили Radeon AI PRO R9700 с 32 Гб памяти на реальных задачах: LLM, генерация графики и видео, 3D-рендеринг, и сравнили с NVIDIA.

Читать далее

Как нейросети помогают в телематике распознавать госномера и документы на въезде

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5K

Нейросети сейчас на каждом шагу, вот и телематика не стала исключением.

На самом деле, эти две технологии многое объединяет – и телематика, и нейросетки делают похожее: обрабатывают и анализируют данные, чтобы оптимизировать рабочие процессы. Когда-то это встреча должна была произойти, поэтому вполне логично, что разработчики начали интегрировать сетки в свои системы телематики. Сегодня предлагаю разобрать практический кейс Exzotron Telematics AI с нейросетевой обработкой изображений для автоматического контроля въезда транспорта на территорию предприятия.

Читать далее

BLIMP — Пайплайн синтеза и разметки изображений в Blender

Уровень сложностиСредний
Время на прочтение25 мин
Охват и читатели6.1K

Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. 

Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК.

Погрузиться в Blender

Рентген может не отличить опасное от безобидного: как работает досмотр багажа и зачем там ИИ

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7K

Задача автоматического анализа рентгеновских изображений багажа на первый взгляд кажется прямолинейной. Есть изображение, есть опасные предметы, значит можно научить систему их находить.

На практике всё оказывается сложнее. Ограничения физики, особенности данных, человеческий фактор и реальная работа ИИ накладывают множество условий и компромиссов.

В этой статье я попытался разобрать эту задачу целиком и собрал основные ограничения, с которыми приходится сталкиваться при работе с интроскопами и алгоритмами компьютерного зрения.

Сдать багаж на проверку

Бесплатные нейросети для фото: топ-5 ИИ-моделей для генерации изображений в 2026 году

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели53K

Кажется, в мире нейрогенераторов сейчас настоящая гонка вооружений. Каждый месяц выходит новая модель, каждая громче предыдущей кричит о “прорыве”, “фотореализме” и “понимании контекста”. OpenAI, Google, Black Forest Labs, Midjourney – все хотят быть первыми. Но кто из них действительно умеет работать со сложными, многосоставными сценами?

Мы решили не гадать, а провести честный эксперимент. Взяли один мегапромпт – с девушкой, двумя необычными спутниками, инопланетной атмосферой и кучей деталей – и прогнали его через пять топовых нейросетей 2026 года. Что получилось? Кто‑то блистательно справился, а кто‑то просто нарисовал милую открытку, проигнорировав половину условий.

Это не просто обзор – это битва алгоритмов, где победит тот, кто не просто рисует красиво, а думает, как художник. Итак, запускаем генерацию – и смотрим, чья нейросеть действительно готова к полету на другую планету в компании Крокодила и Зебры.

Включаем воображение и начинаем тест!

Читать далее

Нейросети и Казино

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели12K

Статья носит юмористический характер. Автор не пропагандирует азартные игры. Слово "казино" используется исключительно как метафора случайности процессов генерации.

На первый взгляд может показаться, что игрок у рулетки и хипстер с подпиской на Midjourney - это разные люди. Однако: оба они молятся Богу Рандома, оба тратят деньги и оба надеются, что в этот раз "выпадет красиво".

Читать далее

От идеи к реальности: как я собрал свой первый пет-проект по распознаванию языка жестов

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели11K

ПРЕДЫСТОРИЯ

Полгода назад, ближе к концу первого курса, я стал думать о будущей работе. Возможно на волне хайпа мой выбор пал на Нейронные сети. Начал с классического машинного обучения, а потом нашел хороший курс по свёрточным (CNN) и рекуррентным сетям. CNN меня впечатлили гораздо больше. После пары учебных проектов вроде классификации кошек и собак захотелось сделать что-то сложнее. Так появилась идея: детектировать руку в кадре и определять жест из американского языка жестов (ASL).

Читать далее

Как развернуть что угодно с ИИ-агентами, даже ComfyUI с жирными моделями

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.5K

Я кайфую от работы с нейронками. Конкретно, через ComfyUI и вот это вот всё со стрелочками и пайплайнами. Это история о моём пути от RTX 3080 дома до GPU-серверов с ИИ-агентами.

Есть два типа людей, которые арендуют GPU-серверы:

Читать далее

Ближайшие события

Ещё 15 полезных промптов для Nano Banana Pro: лучшая нейросеть для фото

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели32K

Фотография — это не только момент, но и настроение, стиль, история. А что если всё это можно изменить одним промптом?

И тогда я решил попробовать Nano Banana Pro. Оказалось, нейросеть может создать любой кадр за секунды — нужно только правильно её попросить. Без навыков дизайна, без фотошопа, без месяцев обучения. Только нейросеть и ваша фантазия. Звучит как читы, но это уже реальность.

В этом гайде — подборка промптов, которые превращают обычные фото в арты, схемы и даже создают визуальные решения загадок. Логические задачи, паттерны, дорисовка... иногда кажется, что нейросеть прошла уровень сложности, который нам и не снился. И теперь она готова делиться своими скриншотами.

Читать далее

GIMP: простейший итерационный деблюр

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.8K

В сети достаточно материалов по методам восстановления резкости изображения (деблюру) с помощью специального математического аппарата. Этот аппарат включает в себя нахождение ядра размытия (ядра предполагаемого "фильтра", применённого к изображению) и проведение операции, обратной свёртке данного ядра с изображением.

Всё это хорошо, но!....

Ничего такого сложного в GIMP нет, особенно нахождение ядра размытия и применение ядер сложной конфигурации. Хотелось бы чего‑нибудь попроще, более известного и понятного, но чтобы можно было понять сам процесс и сделать это не прибегая к сторонним заумным средствам.

Исходя из вышесказанного, сделаем допущение, что наше изображение размыто «Гауссовым размыванием» и более того, радиус данного размытия известен. Довольно «нахальное» предположение, но хочется то по простому.

Для «эксперимента» используем традиционно изображение «Лена»:

Читать далее

Как на самом деле выглядит необработанное фото

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели30K

Вот фотография новогодней ёлки в том виде, в котором видит матрица камеры.

Она даже не чёрно-белая, а серо-серая.

Причина этого в том, что хотя аналогово-цифровой преобразователь (АЦП) камеры теоретически способен выдавать значения от 0 до 16382, данные не покрывают весь этот диапазон.

Читать далее

Archivist: Как я учил нейросеть понимать физику плёнки, вместо того чтобы просто размывать шум

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели34K

В прошлых статьях я разбирал основы апскейлинга дома и сходил с ума, вырезая закадровый смех из «Скуби-Ду». Тот опыт привёл меня к выводу: существующие инструменты, будь то плагины вроде NeatVideo или комбайны типа Topaz Video AI — это «чёрные ящики». У них ограниченный набор настроек, и они часто пасуют перед специфическими задачами старой анимации.

В этот раз я пошёл от обратного. Сразу снижу градус ожиданий: это любительский эксперимент. Мы сильно ограничены в мощности GPU (в наличии только RTX 4060 Ti), из-за чего натренировать реально точную, тяжелую нейросеть-универсала возможности нет.

Поэтому вместо гонки за идеальными метриками я сосредоточился на «неудобных» проблемах. Я написал симулятор уничтожения плёнки, чтобы научить легкую модель понимать физику конкретных дефектов: от сдвига эмульсии до химических ожогов.

Спойлер: на это ушло 2 месяца и 2 миллиона итераций. Получилась не «волшебная кнопка», а набор узкоспециализированных инструментов.

Читать далее

Как я построил визуальную вселенную для онлайн-курса с помощью Nana Banana и почему это важно для студентов

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели3.2K

Меня зовут Иван Стародубцев, я автор курса для новичков «Лучший по Python» на Stepik. Он не просто так называется: за год его прошли почти 30 тысяч учеников, которые оставили 3,8 тысячи отзывов со средней оценкой 5 звёзд. Это курс, написанный максимально простым языком в формате диалога, без снобизма и математики. Вместо скучных формул там интересные задачи из жизни, а уже на второй неделе студенты пишут первые игры.

В какой-то момент я столкнулся с проблемой, знакомой многим авторам учебного контента: курсу нужны десятки и сотни иллюстраций. Случайные картинки из интернета не подходят — это должна быть настоящая визуальная вселенная с постоянными персонажами, узнаваемыми локациями и мини-историями, которые раскрываются на протяжении всего материала.

Работа иллюстратора на 100–150 картинок стоит 300–450 тысяч рублей. Это дорого, долго и негибко: захотел добавить новую сцену — снова договариваешься, ждёшь, платишь. Поэтому я решил выстроить собственную схему по производству иллюстраций на нейросетях. Сегодня расскажу, как это работает и, главное, как помогает студентам.

Читать далее

Основы оптического потока в ML: от первых принципов к уравнениям Лукаса-Канаде и Хорна-Шанка

Уровень сложностиСложный
Время на прочтение37 мин
Охват и читатели8.2K

Аннотация

Настоящая статья представляет собой развернутое исследование, посвященное систематическому изучению классических алгоритмов оценки оптического потока — фундаментальной задачи компьютерного зрения. Основной целью работы является последовательный и строгий вывод ключевых методов, начиная от базовых физических постулатов и заканчивая завершенными, готовыми к реализации математическими моделями. В центре внимания находится уравнение ограничения оптического потока, выводимое из краеугольного предположения о постоянстве яркости, и два основополагающих, принципиально различных подхода к решению этой недоопределенной задачи: локальный метод Лукаса-Канаде, основанный на предположении о пространственной согласованности потока в малой окрестности, и глобальный метод Хорна-Шанка, вводящий условие плавности (гладкости) потока в виде регуляризирующего функционала. Подробно анализируются теоретические основания каждого подхода, их математический аппарат, включая вывод и решение соответствующих систем уравнений, а также проводится сравнительный анализ их сильных сторон и присущих им фундаментальных ограничений, таких как проблема апертуры и чувствительность к нарушениям исходных предположений.

Практическая значимость и верификация теоретических положений исследования обеспечиваются детальной численной реализацией обоих алгоритмов в среде MATLAB. Экспериментальная часть включает генерацию и обработку синтетических последовательностей с заведомо известным вектором движения для объективной количественной оценки точности, а также тестирование на реальных видеоданных для анализа устойчивости в условиях шумов, изменений освещенности и текстуры. Проведенное сравнение визуализирует ключевые различия в характере получаемых полей потока (разреженное против плотного), оценивает вычислительную эффективность и робастность методов в различных сценариях.

Читать далее

Применение вариационного исчисления к задаче выделения границ: вывод уравнения Эйлера-Лагранжа

Уровень сложностиСложный
Время на прочтение25 мин
Охват и читатели10K

Представьте, что вам нужно обвести объект на картинке — не просто тыкая в пиксели, а проведя одну идеальную, плавную и уверенную линию. Та самая, которую набросал бы на бумаге художник. Как объяснить компьютеру, что значит «идеальная граница»? Как заставить его искать не среди груды точек, а в бесконечном море возможных кривых?

Оказывается, на этот вопрос уже давно ответила математика, а именно — вариационное исчисление. Это тот самый инструмент, который стоит за знаменитыми алгоритмами вроде «активных контуров» (snakes) или «уровневых множеств». Часто в статьях показывают готовые формулы и код, а саму красивую логику оставляют за кадром.

Давайте вместе разберем эту связь. Начнем с простого: как найти минимум у обычной функции. А потом — шаг за шагом — расширим эту идею до целых кривых. Ключевой момент на пути — уравнение Эйлера-Лагранжа. Мы не просто запишем его, а честно выведем: от замысла «энергии» контура до финального условия, используя лишь базовую лемму вариационного исчисления и интегрирование по частям.

Самое интересное — это уравнение не просто абстракция. Оно описывает баланс, равновесие сил. Оптимальная граница — результат «борьбы»: с одной стороны, она хочет оставаться гладкой и аккуратной, с другой — стремится лечь точно на резкий перепад цвета или яркости на изображении.

Как только вы это поймете, работа с алгоритмами сегментации перестает быть магией. Вы начинаете осмысленно настраивать параметры, предсказывать поведение и даже придумывать собственные критерии для «идеальной границы».

Читать далее
1
23 ...