<?xml version="1.0" encoding="UTF-8"?>

<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" >

  <channel>
    <title><![CDATA[Все посты подряд / Обработка изображений / Хабр]]></title>
    <link>https://habr.com/ru/hubs/image_processing/posts/</link>
    <description><![CDATA[Обработка изображений – работаем с фото и видео]]></description>
    <language>ru</language>
    <managingEditor>editor@habr.com</managingEditor>
    <generator>habr.com</generator>
    <pubDate>Tue, 05 May 2026 20:05:21 GMT</pubDate>
    
    
      <image>
        <link>https://habr.com/ru/</link>
        <url>https://habrastorage.org/webt/ym/el/wk/ymelwk3zy1gawz4nkejl_-ammtc.png</url>
        <title>Хабр</title>
      </image>
    

    
      
        
    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Open source (+4) — 27.04.2026 08:13]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1028318/</guid>
    <link>https://habr.com/ru/posts/1028318/?utm_campaign=1028318&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Дизайнер <a href="https://x.com/reactiive_/status/2048117664149848426" rel="noopener noreferrer nofollow">представил</a> открытый проект <a href="https://github.com/enzomanuelmangano/demos" rel="noopener noreferrer nofollow">Demos</a>. Решение с помощью умной сортировки по цветам позволяет создавать картины из фотографий в галерее пользователя. Например, 10 тыс. фото прогоняются через алгоритм: у каждой определяется доминирующий цвет, после чего они выстраиваются в плавный градиент. В итоге всего за 50 мс получается цельное визуальное полотно.</p><iframe id="69eeefb207a5a002303eb2bc" src="https://embedd.srv.habr.com/iframe/69eeefb207a5a002303eb2bc" class="embed_video embed__content" allowfullscreen="true"></iframe> <a href="https://habr.com/ru/posts/1028318/?utm_campaign=1028318&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 27 Apr 2026 05:13:17 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Demos]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+3) — 26.04.2026 17:53]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1028150/</guid>
    <link>https://habr.com/ru/posts/1028150/?utm_campaign=1028150&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен проект MeiGen&nbsp;— это Pinterest с&nbsp;промптами для&nbsp;ИИ‑изображений. Решение позволяет находить лучшие референсы и промпты для&nbsp;генератором картинок. Проект поддерживает GPT Image 2, Nano Banana 2, Seedance 2.0, Veo 3.1&nbsp;и Midjourney.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/eea/85b/d75/eea85bd75b0dd9cb1287867e6bc421a7.jpg" width="1885" height="858"></figure> <a href="https://habr.com/ru/posts/1028150/?utm_campaign=1028150&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 26 Apr 2026 14:53:24 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[MeiGen]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+4) — 23.04.2026 09:28]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1026846/</guid>
    <link>https://habr.com/ru/posts/1026846/?utm_campaign=1026846&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен открытый проект <a href="https://github.com/YouMind-OpenLab/awesome-gpt-image-2" rel="noopener noreferrer nofollow">Awesome GPT Image 2 Prompts</a> - сборник промптов для ChatGPT Images 2.0, включая сотни готовых запросов, шаблонов и стилей — для самых разных сфер: реклама, обложки, диаграммы, веб-дизайн, комиксы, концепт-арты, посты в соцсети и многое другое.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/b3f/e82/280/b3fe82280468b8e36911fc8c950ceb19.png" width="3024" height="2788"></figure> <a href="https://habr.com/ru/posts/1026846/?utm_campaign=1026846&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 23 Apr 2026 06:28:05 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[ChatGPT Images 2.0]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @atomlib — Смартфоны (+4) — 05.04.2026 05:44]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1019378/</guid>
    <link>https://habr.com/ru/posts/1019378/?utm_campaign=1019378&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>НАСА <a href="https://x.com/NASA/status/2040468080686424396" rel="noopener noreferrer nofollow">опубликовало</a> фотографии с борта полёта «Артемида-2», где астронавты вдохновлённо любуются на нашу планету. На двух снимках в иллюминатор корабля «Орион» смотрит командир корабля Рид Уайсмен, на ещё одной фотографии&nbsp;— специалист полёта Кристина Кук.</p><figure class=""><img src="https://habrastorage.org/webt/1d/4d/37/1d4d37116085c866774eb6f9d9dc91f0.jpg" alt="Рид Уайсмен смотрит на Землю. НАСА" title="Рид Уайсмен смотрит на Землю. НАСА"><div><figcaption>Рид Уайсмен смотрит на Землю. <a href="https://www.nasa.gov/image-detail/amf-art002e008486/" rel="noopener noreferrer nofollow">НАСА</a></figcaption></div></figure><p>С высокой степенью уверенности возможно утверждать, что этот снимок будет встречаться в следующей презентации компании Apple. Для подтверждения этого нужно заглянуть в EXIF файла.</p><p>Алгоритмы обработки и сжатия социальной сети X свойства EXIF вырезают. Оригинальный файл всё же можно получить, но незадокументированным путём. На сайте НАСА в разделе с галереей этот снимок <a href="https://www.nasa.gov/image-detail/amf-art002e008486/" rel="noopener noreferrer nofollow">выложен</a> с кнопкой скачивания, которая ведёт на адрес <code>https://images-assets.nasa.gov/image/art002e008486/art002e008486~large.jpg</code>. Очевидно, что оригинальный файл будет отдаваться по УРЛ <code>https://images-assets.nasa.gov/image/art002e008486/art002e008486~orig.jpg</code>. В последнем случае данные EXIF сохранены.</p><p>В качестве линзы указано <code>iPhone 17 Pro Max front camera 2.715mm f/1.9</code>. Легко догадаться, что астронавты к товарищу со спонтанной просьбой вида «щёлкни меня на память» не обращались, а быстро наделали (первый и третий снимок отстоят друг от друга во времени на 3&nbsp;минуты 15&nbsp;секунд) протокольные селфи на фронталку смартфона. Сцена яркая, поэтому ISO снимка всего 32, выдержка&nbsp;— 1/1000&nbsp;с. Ожидаемо, что геометок или ориентации в EXIF нет.</p><p>Привлекательность этих фотографий в качестве материала для рекламы портит лишь то, что фотку могли подкрутить в Adobe Lightroom, если верить тем же данным EXIF.</p> <a href="https://habr.com/ru/posts/1019378/?utm_campaign=1019378&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 05 Apr 2026 02:44:53 GMT</pubDate>
    <dc:creator><![CDATA[atomlib]]></dc:creator>
      
      <category><![CDATA[НАСА]]></category><category><![CDATA[Apple]]></category><category><![CDATA[EXIF]]></category><category><![CDATA[фотография]]></category><category><![CDATA[iPhone]]></category><category><![CDATA[iPhone 17]]></category><category><![CDATA[iPhone 17 Pro Max]]></category><category><![CDATA[себяшки]]></category><category><![CDATA[селфи]]></category><category><![CDATA[космонавтика]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @GarantexAi — Искусственный интеллект (+2) — 27.03.2026 17:11]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1016016/</guid>
    <link>https://habr.com/ru/posts/1016016/?utm_campaign=1016016&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Вышел новый генератор изображений Phota Studio и Phota API</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/b3e/498/ab4/b3e498ab4086ba9e17d70d2d9b779c68.png" width="1200" height="675"></figure><p>Lightricks выпустила Phota — модель для генерации и редактирования фотографий с акцентом на сохранение идентичности лиц. По заявлениям, это первый публичный инструмент такого уровня для работы с реальными людьми в кадре. Разберём, что здесь технически интересно, а что — маркетинговое упрощение.</p><p>Что заявлено и что это значит на практике</p><p>Phota Studio позиционируется как персонализированная модель. На деле речь идёт о fine-tuned диффузионной архитектуре с технологией сохранения identity — вероятно, на базе IP-Adapter или схожего подхода. Lightricks не раскрывает архитектуру полностью, но по результатам похоже на encoder-based face embedding.</p><p><strong>Три основных сценария:</strong></p><ul><li><p><strong>Редактирование композиции</strong> — изменение позы, освещения, фона при сохранении лица</p></li><li><p><strong>Стилизация портретов</strong> — журнальная эстетика, студийный свет</p></li><li><p><strong>Восстановление и коррекция</strong> — добавление человека на групповое фото, исправление выражения лица</p></li></ul><p>API отдельно — для разработчиков. Это принципиально: Lightricks явно целится в B2B-сегмент, а не только в мобильных пользователей.</p><p>Где реальный технический прогресс</p><p>Главная проблема генеративных моделей при работе с лицами — identity drift. Лицо «уплывает» при любом изменении: добавляешь шляпу — получаешь другого человека.</p><p>Судя по демо-примерам Phota, identity preservation работает существенно лучше, чем у Midjourney или SDXL с LoRA. Lightricks заявляют о возможности использования одной референсной фотографии — если это правда без оговорок, это серьёзное упрощение пайплайна по сравнению с обучением персонального LoRA (где нужно 10–20 фото).</p><p>Однако стоит учесть: Lightricks — разработчики Facetune и Videoleap, у них огромная база размеченных лиц для обучения. Это конкурентное преимущество, которое сложно воспроизвести.</p><p>Где стоит быть скептиком</p><p><strong>«Добавить человека на групповое фото»</strong> — технически это требует не только identity preservation, но и точного матчинга освещения, перспективы и разрешения. По опыту с аналогичными задачами через inpainting — без ручной доработки результат заметно «вклеенный» в 60–70% случаев.</p><p><strong>«Исправить выражение лица»</strong> — здесь ключевой вопрос: насколько сильное изменение? Убрать моргание — реалистично. Превратить недовольное лицо в радостное с сохранением идентичности — уже сложнее, особенно при наличии зубов, морщин и асимметрии.</p><p><strong>Маркетинговые материалы, свадебная фотография</strong> — звучит заманчиво, но в этих сценариях любой артефакт критичен. Пока не видел независимых тестов на edge cases: плохое освещение, профильные ракурсы, частичное перекрытие лица.</p><p>Что это означает для продакшена</p><p>Для контент-пайплайнов это потенциально полезный инструмент в связке:</p><ul><li><p>Быстрое прототипирование визуалов с конкретными людьми</p></li><li><p>Генерация вариаций для A/B-тестов (позы, фоны)</p></li><li><p>Восстановление архивных фото для презентаций</p></li></ul><p>Но заменить фотографа на съёмках, где важна точность — пока нет. Это инструмент для итераций и черновиков, не для финальных материалов с высокими требованиями к достоверности.</p><p>Если честно</p><p>Phota выглядит как серьёзный шаг вперёд в узкой нише — персонализированная генерация с одной референсной фото. Lightricks умеет делать качественные продукты для массового рынка.</p><p>Но между «демо выглядит круто» и «работает в продакшене» — всегда есть зазор. Особенно когда речь о лицах реальных людей, где каждый артефакт бросается в глаза.</p><p>Кто уже тестировал Phota на реальных задачах — насколько результат соответствует демо? Интересует конкретика: сколько итераций до приемлемого результата и на каких сценариях откровенно не работает?</p> <a href="https://habr.com/ru/posts/1016016/?utm_campaign=1016016&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 27 Mar 2026 14:11:59 GMT</pubDate>
    <dc:creator><![CDATA[GarantexAi]]></dc:creator>
      
      <category><![CDATA[lightricks]]></category><category><![CDATA[генерация фото]]></category><category><![CDATA[редактирование фотографий]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Беспроводные технологии (+4) — 24.03.2026 12:25]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1014216/</guid>
    <link>https://habr.com/ru/posts/1014216/?utm_campaign=1014216&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Китайская компания <a href="https://vidabay.net/" rel="noopener noreferrer nofollow">VidaBay</a> выпустила необычный&nbsp;аксессуар: компактный магнит-фоторамку&nbsp;Classic Plus NFC&nbsp;в форме Polaroid-снимка. Его особенностью стал встроенный экран E-Ink, на который можно многократно&nbsp;«распечатывать» изображения со смартфона. </p><p>Гаджет не имеет встроенной АКБ и разово подпитывается от NFC-чипа смартфона при передаче картинки, которая затем&nbsp;«застывает» на матрице.&nbsp;Для синхронизации используется мобильное приложение VidaBay. Подробные спецификации дисплея производитель не уточнил. Судя по изображениям из рекламы проекта, панель отображает около 4096 оттенков в сравнительно низком разрешении. На международном сайте бренда VidaBay Classic Plus NFC в белой, красной и жёлтой расцветке продаётся по цене $35 ($100 за набор из трёх штук).</p><iframe id="69c257fc42c0bc03ac184b2a" src="https://embedd.srv.habr.com/iframe/69c257fc42c0bc03ac184b2a" class="embed_video embed__content" allowfullscreen="true"></iframe> <a href="https://habr.com/ru/posts/1014216/?utm_campaign=1014216&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 24 Mar 2026 09:25:34 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Classic Plus NFC]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @oopatow — Искусственный интеллект (+4) — 16.03.2026 09:20]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1010644/</guid>
    <link>https://habr.com/ru/posts/1010644/?utm_campaign=1010644&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Переходим полностью к тестам датасета COCO. День 4. </strong></p><p><s>Пока Альтман рассуждает о бороздящих кораблях Вселенную и о моделях, которые будут после трансформеров, мы делаем. Такое вступление я придумал для статьи, когда мы закончим с экспериментами и доделаем пилот, а пока</s> продолжу дневник обучения TAPe-модели. Комуинтересно: начало <a href="https://habr.com/ru/posts/1009926/" rel="noopener noreferrer nofollow">тут</a>, <a href="https://habr.com/ru/posts/1010182/" rel="noopener noreferrer nofollow">здесь</a> и <a href="https://habr.com/ru/posts/1010464/" rel="noopener noreferrer nofollow">там</a>, а&nbsp;немного про&nbsp;методы TAPe (Теории активного восприятия) в&nbsp;области обработки информации&nbsp;— <a href="https://habr.com/p/1004788/%20TAPe%20+%20ML:%20%D1%83%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F%20%D0%B0%D1%80%D1%85%D0%B8%D1%82%D0%B5%D0%BA%D1%82%D1%83%D1%80%D0%B0%20%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B3%D0%BE%20%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D1%8F%20%D0%B2%D0%BC%D0%B5%D1%81%D1%82%D0%BE%20%D0%BF%D0%B0%D1%82%D1%87%D0%B5%D0%B9%20%D0%B8%20%C2%AB%D1%81%D1%8B%D1%80%D1%8B%D1%85%C2%BB%20%D0%BF%D0%B8%D0%BA%D1%81%D0%B5%D0%BB%D0%B5%D0%B9" rel="noopener noreferrer nofollow">здесь</a>.</p><p>Сначала протестировали эту&nbsp;же модель с&nbsp;тем&nbsp;же числом параметров на&nbsp;большом датасете COCO. <strong>Без&nbsp;оптимизации получили решение с&nbsp;точностью 60.59%, что&nbsp;является очень высоким для&nbsp;такой модели (невозможно высоким даже, такая модель по&nbsp;идее не&nbsp;должна сходиться и находить общее решение из&nbsp;количества параметров, но&nbsp;данные TAPe позволяют)</strong>. Пока сложно сравнить с&nbsp;конкретной метрикой других моделей, потому что&nbsp;мы не&nbsp;строим рамки вокруг предмета, но&nbsp;находим конкретно центр объекта. Это проведем позже.&nbsp;</p><p>Тренировка на&nbsp;процессоре как&nbsp;минимум не&nbsp;дольше, чем тренировка на&nbsp;видеокарте, поэтому мы ограничены только количеством данных на&nbsp;ОЗУ в&nbsp;TAPe‑формате&nbsp;— что&nbsp;не&nbsp;является ограничением в&nbsp;целом, можно весь датасет уместить одновременно там<br>Пока существуют несколько проблем:</p><ul><li><p>Количество ложных срабатываний (скорее симптом, но&nbsp;все&nbsp;же);</p></li><li><p>Не&nbsp;самая лучшая классификационная точность (тоже в&nbsp;большой степени симптом);</p></li><li><p>Неправильное центрирование объектов (немного ограничение детекции, но&nbsp;есть способы обойти);</p></li><li><p>Размерность COCO;</p></li></ul><p>Начали экспериментировать, чтобы найти решения, при&nbsp;этом также экспериментируем с&nbsp;несколькими предметами, с&nbsp;которыми ранее уже хотели провести эксперимент. </p><p>Конкретно:</p><p>Работа матрицы преобразования на&nbsp;данный момент времени немного&nbsp;линейная. Зависимости по&nbsp;большей части&nbsp;линейные (то есть, независимые друг от&nbsp;друга). Это не&nbsp;хорошо, по&nbsp;понятным причинам, но&nbsp;в&nbsp;тоже самое время это помогло перейти к&nbsp;пониманию одного факта: в&nbsp;найденном нами подходе, о&nbsp;котором писали выше, есть как&nbsp;раз нелинейная зависимость коэффициентов друг от&nbsp;друга. Эту связь нужно выстраивать вручную, в&nbsp;зависимости от&nbsp;градиентного спуска и deep learning, но&nbsp;в&nbsp;нашем случае связи по&nbsp;TAPe известны заранее,<br>Дополнительно начинаем вторую фазу создания решения, чтобы можно&nbsp;было захватывать объекты любого размера. Это должно привести к&nbsp;намного более точным ответам, при&nbsp;этом ускорив модель.&nbsp;</p><p>Ну и решаем еще одну проблему: модель учится определять бэкграунд, но&nbsp;имеет сложности определять объекты со стороны классификации. То есть&nbsp;— большая часть тренировки потери идет в&nbsp;сторону тренировки хорошей точности в&nbsp;бэкграунд, что&nbsp;приводит к&nbsp;ложным срабатываниям, потому что&nbsp;текстуры на&nbsp;заднем плане превращаются для&nbsp;модели в&nbsp;что‑то напоминающие объект, пусть и с&nbsp;низкой точностью. </p><p>Дальше планируем продолжить работу с&nbsp;полным датасетом (используя 2% из&nbsp;него для&nbsp;быстрых тестов&nbsp;— это около 2400&nbsp;изображений). </p> <a href="https://habr.com/ru/posts/1010644/?utm_campaign=1010644&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 16 Mar 2026 06:20:05 GMT</pubDate>
    <dc:creator><![CDATA[oopatow]]></dc:creator>
      
      <category><![CDATA[датасет]]></category><category><![CDATA[разметка]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[пилотный проект]]></category><category><![CDATA[градиентный спуск]]></category><category><![CDATA[deep learning]]></category><category><![CDATA[развитие стартапа]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @oopatow — Машинное обучение (+3) — 15.03.2026 15:23]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1010464/</guid>
    <link>https://habr.com/ru/posts/1010464/?utm_campaign=1010464&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Как мы ушли от всем известного способа градиентного спуска</strong></p><p>Продолжаю дневник разработки «Суперраспознавалки» для&nbsp;демо/пилота.&nbsp;День третий. Основная задача:&nbsp;<a href="https://habr.com/ru/articles/1004788/" rel="noopener noreferrer nofollow">настроить TAPe‑модель</a>&nbsp;на&nbsp;датасет типа COCO под&nbsp;задачу detection. Вторая&nbsp;— дать клиентам возможность добавлять собственные классы к&nbsp;уже существующим. Ну и далее, при&nbsp;необходимости, полная адаптация модели под&nbsp;конкретного заказчика. Поскольку у&nbsp;нас есть Теория активного восприятия с&nbsp;ее методами, на&nbsp;выходе заказчик должен получить кратную эффективность и кратную экономию ресурсов.</p><p>В&nbsp;первые два дня настраивали базовую струтуру сегментации, детекции и классификации. Модель решает задачи на&nbsp;обучении уже 115&nbsp;тыс параметров&nbsp;— в&nbsp;отличии от&nbsp;YOLO, которой мало 2&nbsp;млн + параметров. </p><p>Начало <a href="https://habr.com/ru/posts/1009926/" rel="noopener noreferrer nofollow">здесь</a> </p><p>Второй день <a href="https://habr.com/ru/posts/1010182/" rel="noopener noreferrer nofollow">здесь</a></p><p>Про&nbsp;архитектуру TAPe+ML <a href="https://habr.com/p/1004788/%20TAPe%20+%20ML:%20%D1%83%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F%20%D0%B0%D1%80%D1%85%D0%B8%D1%82%D0%B5%D0%BA%D1%82%D1%83%D1%80%D0%B0%20%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B3%D0%BE%20%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D1%8F%20%D0%B2%D0%BC%D0%B5%D1%81%D1%82%D0%BE%20%D0%BF%D0%B0%D1%82%D1%87%D0%B5%D0%B9%20%D0%B8%20%C2%AB%D1%81%D1%8B%D1%80%D1%8B%D1%85%C2%BB%20%D0%BF%D0%B8%D0%BA%D1%81%D0%B5%D0%BB%D0%B5%D0%B9" rel="noopener noreferrer nofollow">здесь</a></p><p><a href="https://habr.com/p/1007128/%20%D0%9D%D0%B0%D1%88%20%C2%AB%D0%B4%D0%BE%D0%BC%D0%B0%D1%88%D0%BD%D0%B8%D0%B9%C2%BB%20%D0%9D%D0%98%D0%98%20%D0%BE%D0%B1%D0%BE%D1%88%D1%91%D0%BB%20DINOv2,%20ViT%20%D0%B8%20%D0%B4%D0%B5%D1%81%D1%8F%D1%82%D0%BA%D0%B8%20ML%E2%80%91%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B5%D0%B9%20%D0%B2%20%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D0%B8%20%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE" rel="noopener noreferrer nofollow">Тут</a> сравнение трех десятков кодировок в&nbsp;задаче сегментации видео в&nbsp;DBSCAN (включая ViT, DINO) с&nbsp;TAPe</p><p><strong>День 3</strong></p><p>Сегодня занимаемся исправлением количества ложных срабатываний. Проблема ложных срабатываний в&nbsp;целом в&nbsp;том, что&nbsp;мы смотрим в&nbsp;первую очередь на&nbsp;текстуру изображения (из‑за особенностей методов TAPe). Поэтому приходится прибегать к&nbsp;менее‑обычным способам для&nbsp;обучения разделения между текстурой заднего плана (в каком‑либо виде, будь это снег, или&nbsp;трава) и текстурой самого объекта.<br><br>Сейчас эта проблема решается условно через определенные движения области сбора данных для&nbsp;выявления текстур, которые, возможно, не&nbsp;были найдены в&nbsp;области, расположенной стандартным способом (то есть начальным разбиением изображения на&nbsp;патчи). Это позволяет сильно уменьшить количество ложных срабатываний. </p><p>На&nbsp;данный момент времени около 220&nbsp;объектов срабатывают без&nbsp;ложных срабатываний в&nbsp;целом. Проблема происходит только в&nbsp;изображениях с&nbsp;большим количеством маленьких деталей по&nbsp;типу гравия, или&nbsp;же травы, при&nbsp;этом не&nbsp;уменьшая общее количество правильных нахождений. </p><p>В&nbsp;целом, здесь помогают стандартные ML‑подходы по&nbsp;типу увеличения батчей, чтобы сгладить ошибки.&nbsp;Были эксперименты с&nbsp;проведением аугментаций, которые не&nbsp;привели к&nbsp;улучшению результатов: большая часть аугментаций просто повторяют уже существующие данные.</p><p>Также начали эксперименты с&nbsp;добавлением цветовых каналов. Однако проведенные эксперименты с&nbsp;цветами в&nbsp;простой схеме объединения features по&nbsp;каналам не&nbsp;дало&nbsp;желаемых результатов: даже с&nbsp;greyscale мы забираем столько информации, что&nbsp;цветовая гамма по&nbsp;большей части их просто дублирует. Это приводит к&nbsp;тому, что&nbsp;модель опирается слишком сильно на&nbsp;общие черты, не «видя» при&nbsp;этом выдающиеся черты разницы цвета. Что&nbsp;в&nbsp;то&nbsp;же самое время может и являться хорошей фичей, а&nbsp;не&nbsp;багом, потому что&nbsp;через разницу в&nbsp;текстуре мы, по&nbsp;идее, должны найти разницу в&nbsp;любом случае (если это реальное изображение). Поэтому мы не&nbsp;полагаемся в&nbsp;решении на&nbsp;конкретную задачу, где цвет более релевантен, а&nbsp;полагаемся на&nbsp;общее решение детекции в&nbsp;целом.<br><br>Также на&nbsp;заднем плане&nbsp;были закончены эксперименты с&nbsp;разными архитектурами (эксперименты продолжались параллельно несколько дней). Нашли самую лучшую архитектуру на&nbsp;данный момент (самая логичная по&nbsp;её смыслу, как&nbsp;нам кажется). Тут без&nbsp;подробностей, но&nbsp;мы ушли от&nbsp;всем известного способа градиентного спуска, что&nbsp;позволяет нам после тренировки модели прийти к&nbsp;глобальному минимуму решения (или к&nbsp;чему‑то очень близкому к&nbsp;этому&nbsp;— всё равно есть зависимость от&nbsp;задачи).</p><p>Мы собираем данные из&nbsp;патчей определенным образом, объединяем их в&nbsp;общее описание, а&nbsp;затем уже классифицируем конкретно эти объединения по&nbsp;тому, есть там объект или&nbsp;его нет. Классификация происходит за&nbsp;счет общих описаний каждого класса, который модель видит&nbsp;— и не&nbsp;тренируется отдельно, потому что&nbsp;исходит натурально из&nbsp;первичной тренировки векторов, а&nbsp;затем сводится к&nbsp;одному описанию через k‑means.<br><br>В&nbsp;результате выходит модель с&nbsp;очень малым количеством ложных срабатываний&nbsp;— с&nbsp;которыми, впрочем, мы все равно боремся. Плюс есть некие проблемы центровки, так что&nbsp;скорее всего количество параметров увеличится. Но&nbsp;все равно, модель работает чрезвычайно&nbsp;быстро. Тренировка как&nbsp;таковая проходит на&nbsp;CPU (так проще).</p> <a href="https://habr.com/ru/posts/1010464/?utm_campaign=1010464&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 15 Mar 2026 12:23:55 GMT</pubDate>
    <dc:creator><![CDATA[oopatow]]></dc:creator>
      
      <category><![CDATA[машинное обучение]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[распознавание образов]]></category><category><![CDATA[разметка датасета]]></category><category><![CDATA[градиентный спуск]]></category><category><![CDATA[патчи]]></category><category><![CDATA[развитие стартапа]]></category><category><![CDATA[пилот]]></category><category><![CDATA[пилотный проект]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @oopatow — Машинное обучение (+2) — 14.03.2026 14:12]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1010182/</guid>
    <link>https://habr.com/ru/posts/1010182/?utm_campaign=1010182&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>День 2. 115&nbsp;тыс параметров вместо 2&nbsp;млн+ у&nbsp;YOLO</strong></p><p>Продолжаю дневник разработки «Суперраспознавалки» для&nbsp;демо/пилота. Начало <a href="https://habr.com/ru/posts/1009926/" rel="noopener noreferrer nofollow">здесь</a>.</p><p>Сегодня начали углубляться в&nbsp;сторону самой по&nbsp;себе классификации, а&nbsp;также немного выходить из&nbsp;темы универсальности решения, чтобы решать уже задачу detection, а&nbsp;не&nbsp;только общую сегментацию.<br><br>Интересный момент, найденный в&nbsp;экспериментах&nbsp;— <a href="https://habr.com/ru/articles/1004788/" rel="noopener noreferrer nofollow">благодаря TAPe</a> получается использовать очень дешевые методы с&nbsp;тз ресурсов, при&nbsp;этом используя и методы ML. При&nbsp;этом все равно получаются очень хорошие результаты для&nbsp;этих методов.<br><br>Например, конкретно сейчас получается даже на&nbsp;более сложных примерах без&nbsp;проблем находить задний фон, используя при&nbsp;этом минимальные ресурсы и методы, которые на&nbsp;пикселях являлись релевантными 20&nbsp;лет назад.<br><br>Разбиение происходит за 100+ кадров в&nbsp;секунду, без&nbsp;оптимизации, с&nbsp;обработкой каждого кадра отдельно (то есть есть также overhead выгрузки изображения на&nbsp;GPU).</p><p>Также пришло понимание, что&nbsp;нужно переходить к&nbsp;этапу дополнительных действий, чтобы отбирать интересные места. В&nbsp;целом по&nbsp;результату вышло, что&nbsp;количество ложных срабатываний в&nbsp;разы уменьшилось, но&nbsp;при&nbsp;этом количество правильных ответов тоже немного снизилось (на пару процентов, но&nbsp;заметно в&nbsp;любом случае, тем более у&nbsp;нас цель получить условные 100% на&nbsp;тестовых данных). Это происходит как&nbsp;раз таки из‑за того, что&nbsp;нет правильной последовательности действий (что, впрочем, нами ожидалось, просто не&nbsp;думали, что&nbsp;это так&nbsp;быстро произойдет).</p><p>Перешли к&nbsp;более адаптированной под&nbsp;TAPe логике. Пока очень топорным способом (так легче тренировать и проверять работу), но&nbsp;выходят очень хорошие результаты. По&nbsp;поводу данных немного скажу для&nbsp;контекста:<br><br>Разбиение следующее:</p><p>Classes: 4; labeled: 1256, train: 879, test: 377, miss images: 559</p><p>То есть, 4&nbsp;класса, общее количество изображений объектов&nbsp;— 1256, из&nbsp;них в&nbsp;тренировку уходит 879, в&nbsp;тестирование&nbsp;— 377. Miss images&nbsp;— это изображения просто заднего фона, а&nbsp;также случайных объектов, не&nbsp;являющихся нужными объектами.<br><br>Для&nbsp;YOLO необходимо около 1500&nbsp;изображений на&nbsp;один класс. Мы&nbsp;же успешно используем около 220&nbsp;на&nbsp;класс + какие‑то изображения фона (которые есть только для&nbsp;травы и снега, например).</p><p>Результаты имеют точность определения того, где находится нужный объект (не её вид&nbsp;— это отдельный шаг) с&nbsp;точностью 98.94% (то есть правильно для 373&nbsp;из 377&nbsp;изображений). Ложные срабатывания ещё существуют, но&nbsp;их стремительно меньше.<br><br>Интересно, что&nbsp;модель «самостоятельно» находит правильно нужные объекты, даже если в&nbsp;тренировочных данных они не&nbsp;были обозначены (то есть тренировочные данные неправильные). Модели всё равно удаётся определить оба объекта, что&nbsp;показывает, что&nbsp;модель обучилась формам объектов успешно.</p><p>Чтобы добавить контекста&nbsp;— размер модели 115&nbsp;тысяч параметров. Самая маленькая из&nbsp;современных YOLO&nbsp;же имеет 2+ млн параметров, и при&nbsp;этом не&nbsp;справляется с&nbsp;задачей.</p> <a href="https://habr.com/ru/posts/1010182/?utm_campaign=1010182&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 14 Mar 2026 11:12:09 GMT</pubDate>
    <dc:creator><![CDATA[oopatow]]></dc:creator>
      
      <category><![CDATA[yolo]]></category><category><![CDATA[машинное обучениe]]></category><category><![CDATA[разметка]]></category><category><![CDATA[видео]]></category><category><![CDATA[распознавание образов]]></category><category><![CDATA[распознавание изображений]]></category><category><![CDATA[gpu]]></category><category><![CDATA[стартап]]></category><category><![CDATA[пилотный проект]]></category><category><![CDATA[искусственный интеллект]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @oopatow — Машинное обучение (+3) — 13.03.2026 16:17]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1009926/</guid>
    <link>https://habr.com/ru/posts/1009926/?utm_campaign=1009926&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Сейчас делаем пилот сразу для&nbsp;нескольких заказчиков. Рабочее название&nbsp;— «Суперраспознавалка» :))<br><br>Основная задача: <a href="https://habr.com/ru/articles/1004788/" rel="noopener noreferrer nofollow">настроить TAPe-модель</a> на датасет типа COCO под задачу detection. Вторая&nbsp;— дать клиентам возможность добавлять собственные классы к&nbsp;уже существующим. Ну и далее, при&nbsp;необходимости, полная адаптация модели под&nbsp;конкретного заказчика. Поскольку у&nbsp;нас есть Теория активного восприятия с&nbsp;ее методами, на&nbsp;выходе заказчик должен получить кратную эффективность и кратную экономию ресурсов.<br><br>Задача интересная, поэтому буду вести дневник разработки, а&nbsp;потом подготовлю подробную статью. </p><p>Некоторые проекты&nbsp;— NDA, когда буквально нельзя указывать точное название объектов, которые нужно детектировать. Поэтому не&nbsp;обессудьте. Ноу‑хау по‑прежнему не&nbsp;собираемся раскрывать. Только результаты и часть пути к этим результатам. </p><p><strong>День 1. TAPe и YOLO</strong></p><p>Закончили с&nbsp;базовой структурой для&nbsp;сегментации, то есть с&nbsp;тем, как&nbsp;за&nbsp;один «ход» получать необходимый набор патчей, чтобы дальше расчёты шли параллельно (и оттуда&nbsp;же&nbsp;быстро), что&nbsp;также немного подводит ближе к&nbsp;самой логике действий здесь. Сейчас за&nbsp;одно действие получается определить все точно‑неинтересные места, а&nbsp;также все возможно‑интересные места (то есть, где есть детали в&nbsp;целом).</p><p>Что&nbsp;интересно сейчас в&nbsp;самом подходе&nbsp;— это то, что&nbsp;благодаря TAPe получается избежать проблемы других сегментационных моделей&nbsp;— а&nbsp;именно:</p><ul><li><p>Необходимость классификации буквально каждого пикселя (как поступают стандартные современные модели семантической сегментации);</p></li></ul><p>Стандартные модели буквально классифицируют каждый пиксель (или каждый N‑ный пиксель, если сжимают разрешение) на&nbsp;отношение к&nbsp;тому или&nbsp;иному классу.&nbsp;</p><ul><li><p>Необходимость проверять каждый шаг в&nbsp;какой‑то ограниченной сетке размером N на&nbsp;N (так делает конкретно YOLO)</p></li></ul><p>YOLO обходит это использованием сил CNN, классифицируя только конечное количество патчей (зависит от&nbsp;версии YOLO, в&nbsp;первой их&nbsp;было 6400, что&nbsp;всё равно много). Методы TAPe&nbsp;же нам позволяют этого не&nbsp;делать, потому что&nbsp;единицы информации в&nbsp;TAPe (которые мы назвали T‑bit) несут в&nbsp;себе гораздо больше информации, чем бит. В&nbsp;данном случае&nbsp;— несут в&nbsp;себе нужную структуру для&nbsp;нахождения похожести&nbsp;— а&nbsp;значит для&nbsp;нахождения сегментов, в&nbsp;которых нужно что‑то классифицировать в&nbsp;целом. И даже здесь благодаря TAPe у&nbsp;нас есть преимущество: мы можем проводить классификацию на&nbsp;условном нулевом уровне, не&nbsp;уходя в&nbsp;глубину.</p><p>Используя даже простую версию такого подхода, мы уже можем приходить к&nbsp;такой сегментации на&nbsp;простых примерах (разные цвета показывают разные сегменты). Лавочка&nbsp;— один сегмент, урна&nbsp;— другой, всё остальное&nbsp;— разные неровности, которые также можем буквально отфильтровать, если не&nbsp;хотим проводить их классификацию их. То есть&nbsp;— объект находится условно одномоментно.</p> <a href="https://habr.com/ru/posts/1009926/?utm_campaign=1009926&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 13 Mar 2026 13:17:33 GMT</pubDate>
    <dc:creator><![CDATA[oopatow]]></dc:creator>
      
      <category><![CDATA[yolo]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[пилот]]></category><category><![CDATA[разработка]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[разметка]]></category><category><![CDATA[cnn]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+3) — 13.03.2026 07:14]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1009638/</guid>
    <link>https://habr.com/ru/posts/1009638/?utm_campaign=1009638&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>В&nbsp;Photoshop <a href="https://x.com/icreatelife/status/2032099581291348034?" rel="noopener noreferrer nofollow">анонсировали</a> функцию вращения 2D‑объектов&nbsp;— пока она доступна только в&nbsp;бета‑версии редактора. Инструмент Harmonize добавит свет и тени, чтобы объект выглядел естественно и вписался в&nbsp;окружение.</p><iframe id="69b38ece03cbcd57f14633fc" src="https://embedd.srv.habr.com/iframe/69b38ece03cbcd57f14633fc" class="embed_video embed__content" allowfullscreen="true"></iframe> <a href="https://habr.com/ru/posts/1009638/?utm_campaign=1009638&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 13 Mar 2026 04:14:27 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Photoshop]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Open source (+3) — 22.02.2026 12:27]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1002394/</guid>
    <link>https://habr.com/ru/posts/1002394/?utm_campaign=1002394&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен открытый проект <a href="https://github.com/danielgatis/rembg" rel="noopener noreferrer nofollow">rembg</a>&nbsp;— легковесный скрипт на&nbsp;Python, который поможет убрать фон даже с&nbsp;самых сложных картинок. Удаляет фон за секунды и не грузит ПК. </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/098/b2e/091/098b2e091269bc7d7ccf6d5d705a1efb.jpg" width="1754" height="1252"></figure> <a href="https://habr.com/ru/posts/1002394/?utm_campaign=1002394&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 22 Feb 2026 09:27:34 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[rembg]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Derrvish — Habr (+4) — 03.02.2026 14:26]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/992236/</guid>
    <link>https://habr.com/ru/posts/992236/?utm_campaign=992236&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<div class="floating-image"><figure class="float bordered full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/e90/d99/f74/e90d99f7428036d1043af273ca077b07.jpg" width="1122" height="1568"></figure><p><strong><em>Желтая майка лидера: о соревновании технологий, мастерстве и границах творчества.</em></strong></p></div><p>Я не фотограф. Я — человек с камерой. Именно так я себя позиционирую. Сколько себя помню, столько снимаю. Портретная съемка — мое особое предпочтение. Я почти не зарабатываю на этом поприще, поэтому можно говорить о чистом творчестве и сильном увлечении.</p><p>Мое знакомство с AI началось буквально два-три месяца назад, и оно практически сразу стало перекликаться и пересекаться с реальной фотографией. В этом параллельном пути двух разных технологий для меня кроется особый, захватывающий интерес. Изначально, по неопытности, я решил, что смогу творить, используя AI, и это будет полная аналогия настоящей фотографии. Достаточно быстро я понял, что это не так. По крайней мере, на сегодняшний день.</p><p>Однако это не ослабляет моего интереса. AI — всего лишь инструмент высокого уровня. Как и камера в руках — тоже просто инструмент. Результат, которого я добиваюсь с помощью своего мастерства, знаний и опыта — это всегда сумма факторов, где инструмент значит много, но далеко не всё. Я постоянно сравниваю глобальные возможности нейросетей и свои локальные навыки. Это соревнование, в котором нет постоянного лидера: «желтая майка» постоянно переходит из рук в руки.</p><p>Главным остается задача, которую я ставлю перед собой. Именно из нее вытекает необходимость в том или ином инструменте. На текущий момент ни один из них не является универсальным или исчерпывающим. И это соревнование технологий мне нравится. Оно дает как платные качественные возможности, так и бесплатные решения, не уступающие по качеству, но имеющие свои плюсы и минусы. Как и всё в этой непростой жизни.</p><p>Недавно я провел масштабный эксперимент. Изображение с женщиной на кубе, которое мне очень нравится, я опубликовал в десятках групп на Facebook, в том числе в профессиональных сообществах с многочисленной аудиторией. В начале эксперимента я никак не обозначал, что это результат генерации. Позже я добавил пояснение, указав инструменты, с помощью которых было получено изображение. Те, кто хотел, всегда могли удостовериться, что это генеративный контент.</p><p>Я получил и продолжаю получать сотни, если не тысячи восторженных комментариев и лайков. И только три или четыре человека написали: «Это же AI, зачем это здесь?». Это говорит о двух вещах. Во-первых, творчество есть творчество. Любуясь результатом, нам не особенно важно, как мастер его добился: водил кистью по полотну или просто вылил ведро краски на холст (утрирую).</p><p>Во-вторых, генерация изображения в сочетании с коррекцией в Photoshop сделали картинку настолько реалистичной, что большинство людей даже не задумались о ее происхождении, приняв за обычную фотографию. Я потратил на эту работу два рабочих дня: замысел, написание prompts, генерации, затем Photoshop, доводка, коррекция, многочисленные варианты и исправления. Этого не видно на конечном изображении — оно просто «вкусно» выглядит. Но для меня это безусловное творчество, а не просто нажатие кнопки «Generate».</p><p>Если поначалу я стремился к стопроцентной реалистичности, чтобы никто не догадался о вмешательстве нейросетей, то сейчас я к этому остыл. Возможно, через пару лет появятся инструменты, позволяющие добиться качества, абсолютно неотличимого от реальной фотографии, но сейчас это практически невозможно.</p><p>Поэтому остается просто творить. AI — это инструмент, который позволяет фантазировать, мечтать и создавать, практически не имея границ. Генеративная фотография — отдельный вид искусства, использующий современные, запредельные технологии, которые лишь обогащают наши возможности. «Черный квадрат» Малевича по сравнению с этим — просто результат неудачной генерации из-за неверного выбора text encoder. Шутка... :)</p> <a href="https://habr.com/ru/posts/992236/?utm_campaign=992236&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 03 Feb 2026 11:26:39 GMT</pubDate>
    <dc:creator><![CDATA[Derrvish]]></dc:creator>
      
      <category><![CDATA[ai]]></category><category><![CDATA[photoshop]]></category><category><![CDATA[generative art]]></category><category><![CDATA[image processing]]></category><category><![CDATA[art]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+3) — 26.01.2026 09:49]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/988930/</guid>
    <link>https://habr.com/ru/posts/988930/?utm_campaign=988930&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><a href="https://github.com/steffest/DPaint-js" rel="noopener noreferrer nofollow">Представлен</a> открытый веб-редактор изображений <a href="https://www.stef.be/dpaint/" rel="noopener noreferrer nofollow">DPaint.js</a> (онлайн-версия) на JavaScript, созданный по образцу легендарного Deluxe Paint, с упором на ретро-форматы файлов Amiga. Помимо современных форматов изображений, DPaint.js может читать и записывать файлы иконок Amiga и изображения IFF ILBM.</p><p>Основные возможности проекта: слои, выделение, маскирование, инструменты трансформации, эффекты и фильтры, множественная отмена/повтор действий, копирование/вставка из любой другой программы обработки изображений или источника изображений, настраиваемые инструменты дизеринга и циклическая смена цветов.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/17a/4a7/9df/17a4a79dffe1dc6bd4140185ba21f6e0.png" width="692" height="822"></figure> <a href="https://habr.com/ru/posts/988930/?utm_campaign=988930&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 26 Jan 2026 06:49:47 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[DPaint.js]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+4) — 26.01.2026 07:16]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/988896/</guid>
    <link>https://habr.com/ru/posts/988896/?utm_campaign=988896&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлена открытая ИИ-студия для работы с видео и лицами — <a href="https://github.com/VisoMasterFusion/VisoMaster-Fusion" rel="noopener noreferrer nofollow">VisoMaster Fusion</a>, включая замену лиц, обработку видео и редактирование изображений. Работает локально, без облаков и подписок. Возможности сервиса: реалистичная замена лиц в видео и фото, работа с несколькими персонажами в кадре, инструменты улучшения качества изображения и лица, контроль над параметрами генерации. Подойдёт тем, кто работает с видео, контентом, ИИ-инструментами или просто хочет попробовать современные технологии без ограничений и подписок. </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/261/1c6/24c/2611c624cae6bb7acbf3c18f4b259be2.jpg" width="1280" height="761"></figure><p> </p> <a href="https://habr.com/ru/posts/988896/?utm_campaign=988896&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 26 Jan 2026 04:16:43 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[VisoMaster Fusion]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Информационная безопасность (+4) — 16.01.2026 08:00]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/985712/</guid>
    <link>https://habr.com/ru/posts/985712/?utm_campaign=985712&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен открытый проект <a href="https://github.com/MehmetYukselSekeroglu/eye_of_web/" rel="noopener noreferrer nofollow">EyeOfWeb</a>. Это локальный OSINT-поисковик с точных распознаванием лиц на базе нейросети InsightFace, которая сканирует черты лица с фото и сравнивает с тысячами изображений в сети. Источники поиска можно задать вручную: сайты, форумы, соцсети, тематические порталы и другие ресурсы. Также можно добавить поиск по метаданным фото.&nbsp;Сервис помогает устроить даже мультипоиск нескольких людей с фото. Для работы нужно 8 ГБ памяти.&nbsp;</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/016/e44/4f0/016e444f09cdafcde133bf42d554a916.png" width="932" height="704"></figure> <a href="https://habr.com/ru/posts/985712/?utm_campaign=985712&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 16 Jan 2026 05:00:27 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[EyeOfWeb]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Dmitrii_DAK — Искусственный интеллект (+4) — 13.01.2026 20:09]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/984952/</guid>
    <link>https://habr.com/ru/posts/984952/?utm_campaign=984952&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Cloud vs Local: где сегодня реально генерируют изображения и видео</strong></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/157/f72/b66/157f72b66ab22af62b4a0838d579d040.jpg" alt="Генерация изображений в &quot;облаке&quot; и локально" title="Генерация изображений в &quot;облаке&quot; и локально" width="5504" height="4264"><div><figcaption>Генерация изображений в "облаке" и локально</figcaption></div></figure><p>За последний год генерация изображений и видео стала для многих повседневным инструментом - как в дизайне и маркетинге, так и в разработке, создании ивентов и выставок.</p><p>При этом индустрия явно разделилась на два подхода:</p><ul><li><p><strong>Облачные сервисы (Veo 3.1, Runway ML, Midjorney, Kling AI)</strong> - быстрый старт, минимальный порог входа, подписки, кредиты и токены, высокая стабильность.</p></li><li><p><strong>Локальная генерация</strong> <strong>(ComfyUI, InvokeAI, Forge и др.)</strong> - полный контроль над пайплайном, моделями (Flux 2, Z-Image, Wan 2.2, LTX 2), VRAM и качеством, но ценой времени на настройку и поддержку.</p></li></ul><p>На практике всё чаще видно, что это не «противостояние», а <strong>разные инструменты под разные задачи</strong>:</p><ul><li><p>быстрые концепты и презентации - чаще в облаке;</p></li><li><p>сложные пайплайны, кастомные модели, LoRA, видео и эксперименты - локально;</p></li><li><p>многие используют оба подхода параллельно.</p></li></ul><p>Интересно посмотреть на реальную картину в сообществе.</p><p>Буду рад, если в комментариях поделитесь почему выбрали именно такой подход: что для вас оказалось решающим - скорость, контроль, стоимость, стабильность или масштабируемость.</p> <a href="https://habr.com/ru/posts/984952/?utm_campaign=984952&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 13 Jan 2026 17:09:48 GMT</pubDate>
    <dc:creator><![CDATA[Dmitrii_DAK]]></dc:creator>
      
      <category><![CDATA[ai]]></category><category><![CDATA[generative ai]]></category><category><![CDATA[comfyui]]></category><category><![CDATA[cloud computing]]></category><category><![CDATA[computer vision]]></category><category><![CDATA[deeplearning]]></category><category><![CDATA[gpu]]></category><category><![CDATA[gpu вычисления]]></category><category><![CDATA[ml]]></category><category><![CDATA[stablediffusion]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Поисковые технологии (+2) — 09.01.2026 08:38]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/983720/</guid>
    <link>https://habr.com/ru/posts/983720/?utm_campaign=983720&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен открытый сервис <a href="https://github.com/Decimation/SmartImage" rel="noopener noreferrer nofollow">SmartImage</a>, который проверяет ресурсы в сети и ищет первоисточник картинки на базе нескольких алгоритмов поиска: SauceNao, IQDB, Ascii2D, trаce.mоe и других. Можно искать через перетаскивание и загрузку изображений, в текстовом поле, через буфер обмена, а также через командную строку.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/23d/276/f87/23d276f874cc2c5dde37aab63b941e5c.png" width="687" height="686"></figure> <a href="https://habr.com/ru/posts/983720/?utm_campaign=983720&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 09 Jan 2026 05:38:11 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[SmartImage]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Open source (+4) — 06.01.2026 16:29]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/983222/</guid>
    <link>https://habr.com/ru/posts/983222/?utm_campaign=983222&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен локальный и бесплатный сервис <a href="https://github.com/alam00000/bentopdf" rel="noopener noreferrer nofollow">BentoPDF</a> для работы с PDF. Вся обработка происходит в браузере. Умеет объединение, разделение, поворот, удаление страниц и кроппинг, а также в нём можно быстро добавить вотермарку, сделать нумерацию страниц и поменять текст в файлах. При этом бесплатно, без лимитов и даже регистрацию не просят.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/9af/1ba/8a9/9af1ba8a94a858ac5f7c7a708ef85ab6.png" width="693" height="760"></figure> <a href="https://habr.com/ru/posts/983222/?utm_campaign=983222&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 06 Jan 2026 13:29:27 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[BentoPDF]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+2) — 29.12.2025 05:41]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/981416/</guid>
    <link>https://habr.com/ru/posts/981416/?utm_campaign=981416&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Глава Apple Тим Кук <a href="https://x.com/tim_cook/status/2003873311504130173" rel="noopener noreferrer nofollow">создал</a> «праздничное оформление» в&nbsp;канун Рождества, «сделанное на&nbsp;MacBook Pro». Картинка с&nbsp;молоком и печеньем должна&nbsp;была подразнить фанатов финал 1&nbsp;сезона сериала «Из многих» (<em>Pluribus</em>) от&nbsp;Apple TV. Там написано «Счастливого сочельника, Кэрол...». Эксперты считают, что&nbsp;это странное изображение&nbsp;было создано искусственным интеллектом. </p><p>Технический блогер Джон Грубер <a href="https://daringfireball.net/linked/2025/12/27/slopibus" rel="noopener noreferrer nofollow">прямолинеен</a> по&nbsp;этой ситуации. «Тим Кук публикует ИИ‑слопы в&nbsp;рождественском послании в&nbsp;X, якобы для&nbsp;продвижения „Плюрибуса“». «Что&nbsp;касается неаккуратных деталей, то на&nbsp;упаковке написано как „Цельное молоко“, так и „Молоко с&nbsp;низким содержанием жира“, а&nbsp;лабиринт „Коровьи забавы“ просто нелепо оформлен. Я не&nbsp;могу припомнить, чтобы когда‑либо видел какую‑либо головоломку на&nbsp;упаковке из‑под молока, потому что&nbsp;они восковые и на&nbsp;них трудно писать. Это похоже на&nbsp;смешение упаковок из‑под молока и хлопьев»,&nbsp;— пояснил Грубер.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/ddf/257/59a/ddf25759afc931e04ebf2b12cf41e4bd.png" width="544" height="680"></figure> <a href="https://habr.com/ru/posts/981416/?utm_campaign=981416&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 29 Dec 2025 02:41:55 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[кук]]></category><category><![CDATA[печенье]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+4) — 17.12.2025 13:38]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/977700/</guid>
    <link>https://habr.com/ru/posts/977700/?utm_campaign=977700&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>OpenAI <a href="https://cookbook.openai.com/examples/multimodal/image-gen-1.5-prompting_guide" rel="noopener noreferrer nofollow">представила</a> гайд по созданию картинок в различных стилях в GPT-image-1.5, включая инфографику, карты, логотипы, копирование стиля и перенос на другие работы, создание карточек товаров и примерка одежды.</p><p>Ранее OpenAI <a href="https://habr.com/ru/posts/977538/" rel="noopener noreferrer nofollow">объявила</a> о запуске модели <a href="https://openai.com/index/new-chatgpt-images-is-here/" rel="noopener noreferrer nofollow">ChatGPT Images</a> на базе GPT-5.2, предназначенной для генерации изображений с использованием технологий искусственного интеллекта. Новая модель поддерживает широкий спектр функций редактирования, включая добавление и удаление элементов, комбинирование и смешивание изображений, а также их транспонирование. Обновление интегрировано в приложение ChatGPT и доступно пользователям во вкладке «Изображения». </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/556/6b5/92d/5566b592d2bb95c1ae6a7fd7ea31137a.png" width="1572" height="842"></figure> <a href="https://habr.com/ru/posts/977700/?utm_campaign=977700&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 17 Dec 2025 10:38:05 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[OpenAI]]></category><category><![CDATA[гайд]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @avsolovyev — Робототехника (+1) — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/973046/</guid>
    <link>https://habr.com/ru/posts/973046/?utm_campaign=973046&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>3D из 2D: Как получить карту глубины с одной камеры?</strong></p><p>Для построения карты глубины иногда достаточно одной камеры и алгоритма Depth from Focus (DfF).</p><p><strong>Как это работает:</strong></p><ol><li><p>Меняем фокус на камере несколько раз и делаем снимки.  Сначала фокус на переднем плане, потом в середине, потом на заднем.</p></li><li><p>Фиксируем «резкость» каждого элемента на каждом кадре </p></li><li><p>Строим карту. Для каждого элемента с «резкого» кадра, алгоритм вычисляет, на каком отделении от камеры находится эта точка. Всё вместе и даёт трёхмерную карту.</p></li></ol><p><strong>А как быстро менять фокус? </strong></p><p>Классический моторный привод слишком медленный. Поэтому в таких системах часто используют жидкие линзы.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/b72/929/ac7/b72929ac7b325ae6d89a9f8c3855b3c1.png" alt="Пример устройства жидкой линзы" title="Пример устройства жидкой линзы" width="1200" height="1021"><div><figcaption>Пример устройства жидкой линзы</figcaption></div></figure><p>Это не стекло, а капля в гибкой оболочке. Её кривизну (а значит, и фокусное расстояние) можно менять мгновенно, подавая напряжение.</p><p><strong>Где это применяют?</strong> </p><ul><li><p> Контроль пайки компонентов на платах (проверка высоты).</p></li><li><p>Контроль на производстве (например, закрутка винтов).</p></li><li><p>Навигация роботов, где важно понимать рельеф местности.</p></li></ul><p>Я использовал объективы с жидкими линзами в нескольких проектах, где это действительно было очень удобным и элегантным решением. Один из таких – была система контроля сборки блоков предохранителей для автомобилей. В ней за счёт технологии глубины из фокуса удалось бюджетно решить задачу контроля качества сборки и выявить ошибки установки предохранителей.</p> <a href="https://habr.com/ru/posts/973046/?utm_campaign=973046&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 17 Dec 2025 02:36:10 GMT</pubDate>
    <dc:creator><![CDATA[avsolovyev]]></dc:creator>
      
      <category><![CDATA[компьютерное зрение]]></category><category><![CDATA[робототехника]]></category><category><![CDATA[автоматизация процессов]]></category><category><![CDATA[оптика]]></category><category><![CDATA[автоматизация производства]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+3) — 17.12.2025 05:19]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/977538/</guid>
    <link>https://habr.com/ru/posts/977538/?utm_campaign=977538&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>OpenAI объявила о запуске модели <a href="https://openai.com/index/new-chatgpt-images-is-here/" rel="noopener noreferrer nofollow">ChatGPT Images</a> на базе GPT-5.2, предназначенной для генерации изображений с использованием технологий искусственного интеллекта. Новая модель поддерживает широкий спектр функций редактирования, включая добавление и удаление элементов, комбинирование и смешивание изображений, а также их транспонирование. Обновление будет интегрировано в приложение ChatGPT и станет доступно пользователям во вкладке «Изображения». </p><p>В ChatGPT появился новый раздел «Изображения», в котором собраны все ваши картинки, а также есть набор из нескольких стилей для быстрого редактирования без составления промта.</p><p>Новый генератор изображений уже доступен бесплатно всем пользователям ChatGPT.</p><p>Несколько ключевых улучшений:</p><ul><li><p>Теперь ИИ не искажает лица при редактировании изображений и точно следует инструкциям. </p></li><li><p>Улучшена работа с различными стилями. Например, можно сделать из своей фотографии новогоднюю игрушку. </p></li><li><p>Скорость работы выросла в 4 раза. Это реально заметно. </p></li><li><p>Улучшена работа с текстом. Генератор понимает Markdown и может добавлять код на картинки.</p></li></ul><figure class=""><img src="https://habrastorage.org/getpro/habr/upload_files/e0a/d5e/d3a/e0ad5ed3a239621cd540fbaea5270a2a.jpeg" width="512" height="512"></figure> <a href="https://habr.com/ru/posts/977538/?utm_campaign=977538&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 17 Dec 2025 02:19:33 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[ChatGPT Images]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Open source (+2) — 16.12.2025 05:39]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/977086/</guid>
    <link>https://habr.com/ru/posts/977086/?utm_campaign=977086&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Шифруем любой файл в PNG-картинку. Представлен открытый проект дешифратора <a href="https://github.com/archistico/ShadeOfColor2" rel="noopener noreferrer nofollow">ShadeofColor</a>. Возможности: обход фильтров и блокировок (вместе .exe, .zip или .docx присылаем обычные изображение), незаметная передача файлов (PNG не вызывает подозрений), удобная архивация для визуальной сортировки, предпросмотра и каталогов. Это наглядный пример, как можно кодировать данные в цвета.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/fc3/d77/5e7/fc3d775e79ce92699077f446d83926eb.jpg" width="800" height="483"></figure> <a href="https://habr.com/ru/posts/977086/?utm_campaign=977086&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 16 Dec 2025 02:39:57 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[ShadeofColor]]></category><category><![CDATA[png]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @severstal — Блог компании Северсталь (+2) — 12.12.2025 13:41]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/severstal/posts/976062/</guid>
    <link>https://habr.com/ru/companies/severstal/posts/976062/?utm_campaign=976062&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Киберстоматолог для экскаваторов: как мы следим за здоровьем зубов карьерной техники? </strong></p><p>Запускаем серию роликов о том, как применяем компьютерное зрение в «Северстали».</p><p>У нас в гостях Олег Карташев, руководитель отдела компьютерного зрения в «Северстали»! В этом ролике мы расскажем о стоматологии в добыче железной руды, и вы узнаете:<br> 💼 как сохранить здоровье зубов карьерной техники;<br> 💼 как следить за шатающимися, но уже не молочными зубами;<br> 💼 сколько зубов выпадает в месяц;<br> 💼 зачем на технике коронки и как за ними следить;<br> 💼 как мы искали зубья ковшей и погрузчиков.</p><p>Приятного просмотра. Увидимся в следующем ролике!</p><div class="embed_link"><div class="embed__thumb" style="background-image: url(&quot;https://i.mycdn.me/getVideoPreview?id=9723231865365&amp;idx=0&amp;type=39&amp;tkn=RIqsIvJfdkTImI8Myg4ls9U7M5w&amp;fn=vid_t&quot;);"></div><div class="embed__caption"><div class="embed__caption-title"><span>Северсталь on&nbsp;VK&nbsp;Clips</span></div><a href="https://vk.com/clip-51040185_456243513" target="_blank" rel="noopener noreferrer nofollow" class="embed__caption-host">vk.com</a></div></div> <a href="https://habr.com/ru/posts/976062/?utm_campaign=976062&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 12 Dec 2025 10:41:49 GMT</pubDate>
    <dc:creator><![CDATA[severstal (Северсталь)]]></dc:creator>
      
      <category><![CDATA[компьютерное зрение]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[машинное зрение]]></category><category><![CDATA[cv]]></category><category><![CDATA[computervision]]></category><category><![CDATA[ml]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @daniilshat — Обработка изображений (+2) — 10.11.2025 19:39]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/965028/</guid>
    <link>https://habr.com/ru/posts/965028/?utm_campaign=965028&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/def/92b/a8d/def92ba8dee0e686fb11c657f546b1e7.jpg" width="1280" height="720"></figure><p>На полках швейцарского супермаркета Migros <a href="https://www.reddit.com/r/ChatGPT/comments/1oquuau/in_switzerlands_largest_supermarket_chain_they/?utm_source=share&amp;utm_medium=web3x&amp;utm_name=web3xcss&amp;utm_term=1&amp;utm_content=share_button" rel="noopener noreferrer nofollow">нашли</a> упаковку рождественского печенья со сгенерированной иллюстрацией на коробке. У оленя на картинке пять ног. Пользователи Reddit детальнее рассмотрели изображение и нашли ещё несколько ошибок, которые допустила нейросеть:</p><ul><li><p>Рога оленя странной формы, либо их три.</p></li><li><p>Задние ноги оленя не касаются земли.</p></li><li><p>У Санта-Клауса непропорциональные ноги или он стоит на коленях.</p></li><li><p>Поводья крепятся к саням, а не удилам. Кроме того, они разорваны, и одна из частей стала частью пояса.</p></li><li><p>На задней части саней видны неразборчивые символы.</p></li><li><p>Руки Санты превратились в «кашу».</p></li><li><p>Все шары на ёлке красные, кроме одного слева — он жёлтый.</p></li></ul><p>В комментариях пользователи отмечают, что эти ошибки можно было исправить в графическом редакторе или даже с помощью нейросеть. Некоторые даже делятся отредактированными вариантами.</p><p>Представители сети Migros заявили, что получили упаковку с таким изображением от производителя в Азии. Товар сезонный, поэтому времени на изготовление пробной партии и правок не было. Руководство приняло решение выпустить в продажу то, что есть.</p><p>Комментарии на Reddit:</p><blockquote><p>Сегодня держал эту коробку в руках. Интересно, что вся поверхность тиснённая, то есть они сделали пресс-форму для изображения, включая пятую ногу. Никто во время производства не заметил, что она лишняя… Коробка сейчас на распродаже — 5 франков вместо 9. Может быть куплю одну завтра.</p></blockquote><blockquote><p>Меня бесит, что у нас есть такие крутые инструменты для создания классных изображений, но никто даже не удосуживается посмотреть на результат хотя бы 5 секунд перед тем, как его использовать.</p></blockquote><blockquote><p>Все люди, которые говорят о «контроле качестве», будто кому-то в компании вообще есть до этого дело. Скорее всего, племянник генерального директора сделал картинку бесплатно, и ни один человек даже не взглянул на неё перед тем, как отправить PNG в станок для печати. Это просто продукт, который они продают. Им всё равно. И вам тоже должно быть всё равно. Вы не собирались вешать это на стену.</p></blockquote> <a href="https://habr.com/ru/posts/965028/?utm_campaign=965028&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 10 Nov 2025 16:39:43 GMT</pubDate>
    <dc:creator><![CDATA[daniilshat]]></dc:creator>
      
      <category><![CDATA[швейцария]]></category><category><![CDATA[ии]]></category><category><![CDATA[нейросети]]></category><category><![CDATA[дизайн]]></category><category><![CDATA[печенья]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+4) — 03.11.2025 08:09]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/962720/</guid>
    <link>https://habr.com/ru/posts/962720/?utm_campaign=962720&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Команда Datalab выпустила бесплатную OCR модель Chandra, которая превращает любые PDF и картинки в обычные текстовые документы. Просто закидываем файл и получаем вывод в формате HTML, Markdown и JSON. Легко вытаскивает таблицы, формулы и диаграммы. Понимает 40+ языков. Можно пользоваться в браузере или поставить локально. Ставим локально с <a href="https://github.com/datalab-to/chandra" rel="noopener noreferrer nofollow">GitHub</a> или пользуемся онлайн — <a href="https://www.datalab.to/playground/documents/new" rel="noopener noreferrer nofollow">здесь</a>.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/646/55c/24b/64655c24b263eab47d38adf0c452bc95.png" width="784" height="539"></figure> <a href="https://habr.com/ru/posts/962720/?utm_campaign=962720&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 03 Nov 2025 05:09:10 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[OCR]]></category><category><![CDATA[Chandra]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Open source (+3) — 27.10.2025 05:11]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/960374/</guid>
    <link>https://habr.com/ru/posts/960374/?utm_campaign=960374&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Инструмент <a href="https://github.com/spipm/Depixelization_poc" rel="noopener noreferrer nofollow">Depixelization PoC</a> вытаскивает текст из скриншотов и фото, убирает пиксельный хаос и делает буквы читаемыми. Починит даже самые безнадёжные блоки текста. Использует метод De Bruijn sequence для точного восстановления букв. Подходит для документов, конспектов, рефератов и всего учебного.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/0e2/1e7/0aa/0e21e70aafa8ddf5d6648f68ab2d6ecd.jpg" width="673" height="655"></figure> <a href="https://habr.com/ru/posts/960374/?utm_campaign=960374&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 27 Oct 2025 02:11:36 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Depixelization PoC]]></category><category><![CDATA[Depixelization]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Облачные сервисы (+2) — 27.10.2025 05:08]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/960372/</guid>
    <link>https://habr.com/ru/posts/960372/?utm_campaign=960372&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен ресурс <a href="https://uchinoko-maker.jp/" rel="noopener noreferrer nofollow">Uchinoko, </a>который восстанавливает справедливость между пушистыми питомцами и людьми. Можно детально воссоздать своего кота/собакена в цифровом формате. Результат выгружается в SNS-иконку. </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/8fe/bc9/91f/8febc991f0d0577b3c20dd1b2bb0a590.jpg" width="903" height="1280"></figure> <a href="https://habr.com/ru/posts/960372/?utm_campaign=960372&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 27 Oct 2025 02:08:33 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Uchinoko]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @atomlib — Дизайн мобильных приложений (+4) — 20.10.2025 05:09]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/958090/</guid>
    <link>https://habr.com/ru/posts/958090/?utm_campaign=958090&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>В Кремниевой долине наступила эпоха трудоголизма, и в стартаперских кругах всё больше говорят про <a href="https://habr.com/ru/news/934246/" rel="noopener noreferrer nofollow">рабочую культуру 996</a>. Остаётся открытым вопрос, что это&nbsp;— просто интересная тема для светской беседы или реальность длиной 72&nbsp;часа в неделю. Тем не менее общий настрой&nbsp;— отсутствие отдыха и максимальная продолжительность рабочего дня.</p><p>Подобные веяния точно отразил Лоран Дель Рей, новый сотрудник Superintelligence Labs компании Meta¹. Продакт-дизайнер <a href="https://x.com/laurentdelrey/status/1975221173840679208" rel="noopener noreferrer nofollow">запустил</a> простенькое приложение-фоторедактор Endless Summer, где пользователь делает селфи, а затем генеративная модель встраивает человека в различные отпускные контексты. Пользователь получает фотки, где он гуляет по курорту или осматривает виды европейских городов с балкона.</p><iframe id="68f594bf3fd488e72a488477" src="https://embedd.srv.habr.com/iframe/68f594bf3fd488e72a488477" class="embed_video embed__content" allowfullscreen="true"></iframe><p>Конкретная модель внутри Endless Summer не указывается. В политике приватности <a href="https://laurent.fyi/privacy" rel="noopener noreferrer nofollow">написано</a> лишь, что запросы идут в API сервиса Replicate, то есть это может быть что угодно&nbsp;— от распространённых диффузионок уровня Stable Diffusion с LoRA-надстройками до более новых пайплайнов вроде FLUX или Playground. Однако издание TechCrunch с уверенностью <a href="https://techcrunch.com/2025/10/18/too-burned-out-to-travel-this-new-app-fakes-your-summer-vacation-photos-for-you/" rel="noopener noreferrer nofollow">пишет</a>, что это Nano-Banana компании Google.</p><p>Насколько необычно и грустно то, что люди вместо настоящего отпуска генерируют фальшивые фотки с него? На самом деле ничего уникального в этом нет.</p><p>Как <a href="https://x.com/itsTimWijaya/status/1979814111069553137" rel="noopener noreferrer nofollow">пишет</a> индонезийский стартапер Тим Виджая, для многих ИИ становится именно такой отдушиной. Тим рассказал, что в этом году он в роли консультанта помогал OpenAI проводить исследование, как индонезийцы используют ChatGPT. Там обнаружилось ровно такое же явление.</p><p>В рамках анализа Виджая была обнаружена целая группа на Facebook² на 30&nbsp;тысяч участников, где индонезийцы выкладывали сгенерированные ИИ фотографии с собственным участием, при этом значительно повышая уровень своего достатка. На картинках пользователи окружали себя атрибутами роскошной жизни: суперкары Lamborghini, жизнь в Париже, шопинг в магазине Guccci и так далее. При этом подобным эскапизмом занимались в основном люди среднего или низкого достатка из глубинки Индонезии, их заработок не превышал $400 в месяц.</p><p>Дель Рей со своим Endless Summer довёл это явление до логического завершения. В приложении есть даже опция Room Service (обслуживание в номер), которая будет присылать две отпускные фотки каждое утро.</p><p>Владеющая социальной сетью Facebook&nbsp;(2) транснациональная холдинговая компания Meta&nbsp;(1)&nbsp;— экстремистcкая организация, деятельность обеих запрещена.</p> <a href="https://habr.com/ru/posts/958090/?utm_campaign=958090&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 20 Oct 2025 02:09:18 GMT</pubDate>
    <dc:creator><![CDATA[atomlib]]></dc:creator>
      
      <category><![CDATA[Endless Summer]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[генерация изображений]]></category><category><![CDATA[фотоприложения]]></category><category><![CDATA[генерация фотографий]]></category><category><![CDATA[отпуск]]></category><category><![CDATA[организация труда]]></category><category><![CDATA[996]]></category><category><![CDATA[трудоголизм]]></category><category><![CDATA[Superintelligence Labs]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @titulusdesiderio — Искусственный интеллект (+2) — 22.09.2025 19:42]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/949500/</guid>
    <link>https://habr.com/ru/posts/949500/?utm_campaign=949500&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>ImageSorcery 06</strong> - MVP</p><blockquote><p>Это серия постов от идеи ImageSorcery до 100+ звёзд на гитхабе и ~100 ежедневных установок с PyPi.</p><p><strong>ImageSorcery 01</strong>&nbsp;-&nbsp;<a href="https://habr.com/ru/posts/942330/" rel="noopener noreferrer nofollow">Как я свой open source вайбкодил</a><br><strong>ImageSorcery 02</strong>&nbsp;-&nbsp;<a href="https://habr.com/ru/posts/942794/" rel="noopener noreferrer nofollow">Превращение ImageWizard в ImageSorcery</a><br><strong>ImageSorcery 03</strong>&nbsp;- <a href="https://habr.com/ru/posts/943416/" rel="noopener noreferrer nofollow">шаг за шагом: PoC, Initial commit</a>  <br><strong>ImageSorcery 04</strong> - <a href="https://habr.com/ru/posts/944368/" rel="noopener noreferrer nofollow">README.MD</a><br><strong>ImageSorcery 05</strong> - <a href="https://habr.com/ru/posts/945176" rel="noopener noreferrer nofollow">автотесты; просто покажи ему пример</a></p><p>По результатам предыдущих приседаний с ИИ у нас на руках прототипы <code>detect</code>, <code>crop</code> и <code>get_metainfo</code> - функций на python, которые понадобятся ИИ агенту чтобы выполнить задачу вроде “вырежи здание на этом фото”. Также у нас уже есть git репозиторий с работающим MCP сервером подключенным в Cline. С полным покрытием одного единственного tool <code>hello_world</code> тестами формата e2e на pytest. И линтер rufus. </p></blockquote><p>Приступаю к тулзам. По одной за шаг. С покрытием тестами и актуализацией README. От самой простой <code>get_metainfo</code> к самой сложной <code>detect</code>. Благо есть работающие реализации от PoC, которые нужны были как пример и подстраховка.</p><blockquote><p>“Изучи @README.MD и следуй правилам работы с кодом от туда. Прочитай код <code>hello_world</code> tool и тесты на него. Прочитай код прототипа <code>get_metainfo/crop/detect</code>. Реализуй соответствующий tool. Напиши тесты. Актуализируй README. <strong>Не завершай задачу пока все тесты не пройдут, а также линтер.</strong>”</p></blockquote><p>С реализацией проблем конечно уже не было, вот с тестами detect снова пришлось повозиться. Лентяй Gemini flash решил, что если <code>detect</code> tool запускается и возвращает хоть что-то - этого уже достаточно. Пришлось гонять его и в хвост и в гриву чтобы были написаны позитивные и негативные сценарии и прочие едж кейсы.</p><p>Каждый отдельный тул разумеется коммитил.</p><p>Где-то в процессе обнаружил что тесты на объявление tool могут быть также достаточно подробными. И самое главное - результаты <code>crop</code> (сохранение файла) оказывается есть в <code>/tmp/pytest/</code>.&nbsp; Это означало что я могу проверять тесты, которые работают с изображениями, а не слепо доверять их коду и статусу passed. Это меня в будущем много раз выручит. Например, когда при реализации <code>blur</code> для теста генерировался полностью черный квадрат и после выполнения <em>blur</em> контрольный пиксель проверялся на соответствие цвета заблюренному черному - черному 🤦. С точки зрения алгоритма всё идеально - не прикопаешься 😅 А я глядя на два одинаковых черных квадрата ржал в голосину. Пришлось заставить его тестировать на шахматке.</p><figure class=""><img src="https://habrastorage.org/getpro/habr/upload_files/59c/178/565/59c1785658e5ad08f7a00f95ed56866a.png" alt="blur области поверх шахматки" title="blur области поверх шахматки" width="400" height="300"><div><figcaption>blur области поверх шахматки</figcaption></div></figure><p>Шаг выполнен ✅</p><p>Теперь у меня был MCP сервер, который позволял подключенному к нему MCP клиенту вроде Cline выполнить заветное “вырежи с этого фото собаку”. Был ведь?&nbsp;...</p><p>В дев сборке всё работало. Но если я хотел публиковать это как MVP, мне нужно было убедиться, что те, кто найдут его на просторах гитхаба, смогут им воспользоваться. В будущем мне понадобится опубликовать пакет на pypi, но на данном этапе нужно было убедиться что хотя бы через клонирование репозитория всё заведётся.</p><p>Я удалил MCP из Cline, склонировал репу в новую директорию и попросил Cline доустановить, подключить и проверить.&nbsp;</p><p>🫠 Разумеется ничего не заработало в этом моем стейдже.</p><p>Оказывается <a href="https://docs.ultralytics.com/models" rel="noopener noreferrer nofollow">модели Ultralytics</a> не качаются по неведомой мне причине, когда MCP запущен как процесс(?). Пока я писал прототипы, и запускал detect как отдельный python скрипт, а не как модуль в составе сервера, все нужные мне модели скачались и могли переиспользоваться в последующем. А чистая установка доступа к ним не имела и всё падало.</p><p>Такую нетривиальную проблему конечно же не смогли решить никакие ИИ, но день плотного дебага и глубоких обсуждений с Gemini и параллельно Claude (на всякий случай. По факту ничего такого, чего не знал Gemini он не сказал) привёл меня к реализации <code>–post-installation</code> режима и архитектурному решению с выделением отдельно от tools директории scripts, куда попали скрипты установки и скачивания моделей.</p><p>Теперь ImageSorcery была готова к публикации как MVP!</p><p><em>P.S. если кто-то знает как обойти проблему со скачиванием моделей в рантайме - дайте знать. Я бы очень хотел найти альтернативные решения.</em></p> <a href="https://habr.com/ru/posts/949500/?utm_campaign=949500&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 22 Sep 2025 16:42:04 GMT</pubDate>
    <dc:creator><![CDATA[titulusdesiderio]]></dc:creator>
      
      <category><![CDATA[автоматизация]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[разработка]]></category><category><![CDATA[mcp]]></category><category><![CDATA[mvp]]></category><category><![CDATA[обработка изображений]]></category><category><![CDATA[blur]]></category><category><![CDATA[ultralytics]]></category><category><![CDATA[редактирование изображений]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Ekamelev — Искусственный интеллект (+2) — 21.09.2025 16:47]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/949076/</guid>
    <link>https://habr.com/ru/posts/949076/?utm_campaign=949076&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/ffe/de5/c0b/ffede5c0b28f897239226ad363564f21.png" width="1226" height="816"></figure><p><strong>Упрашивал ChatGPT нарисовать мне картинку с человеком. Ни в какую! Отказывается!</strong></p><p>Сегодня с помощью ChatGPT генерировал картинку к <a href="https://habr.com/ru/articles/931882/" rel="noopener noreferrer nofollow">Норм ЦРМ</a>.</p><p>Я добавил мета-теги, заголовки на двух языках. Ну и картинку, которая будет подтягиваться, когда кто-то будет делиться ссылкой на проект.</p><p>Попросил нарисовать фрилансера-одиночку за уютным домашним рабочим местом. И тут — хопа — отказ. Мол, это не соответствует нашим политикам.</p><p>Тогда попросил нарисовать человека, лица которого мы не видим. Просто фигуру. Снова отказ.</p><p>Затем попросил нарисовать антропоморфного кота. И тоже нельзя.</p><p>Я удивился. Раньше никаких подобных ограничений не было. В итоге попросил сгенерировать картинку без людей, а сам пошёл разбираться, какая нейронка мне теперь подойдёт для этих целей вместо ChatGPT.<br><br>Если что, использую пятую версию с подпиской Plus.</p><p>——<br>Апдейт:<br><br>В комментариях пишут, что никаких ограничений нет.<br><br>Я попробовал сгенерировать в новом диалоге — и тоже ограничений не оказалось.<br><br>А вот внутри папки с проектом — не разрешает по какой-то причине.<br><br>Буду разбираться дальше.</p> <a href="https://habr.com/ru/posts/949076/?utm_campaign=949076&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 21 Sep 2025 13:47:12 GMT</pubDate>
    <dc:creator><![CDATA[Ekamelev]]></dc:creator>
      
      <category><![CDATA[chatgpt]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Hedgehogues — Стандарты связи (+2) — 19.09.2025 16:41]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/948676/</guid>
    <link>https://habr.com/ru/posts/948676/?utm_campaign=948676&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>RFC 9828: стандарт, который, странным образом, опоздал лет на двадцать</strong></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/acc/979/20a/acc97920a02a80a5ad630d12c5593341.png" width="1352" height="1120"></figure><p>JPEG 2000, появившийся ещё в начале нулевых, давно используется в задачах, где требуется высокое качество изображения, а RTP как транспорт для данных реального времени уже более двадцати лет обеспечивает надёжность. Однако, и это удивительно, всё это время отсутствовал формализованный стандарт, позволяющий передавать JPEG 2000 с минимальной задержкой, по кускам кадра, не дожидаясь его полной готовности, — и лишь в 2025 году он был наконец принят. Можно только гадать, почему в мире, где запускают ракеты в космос по подписке, инженеры продолжали смиренно ждать, пока кадр целиком упадёт в буфер.</p><p>Теперь же, с появлением RFC 9828, ситуация меняется: простое на первый взгляд решение — передавать кадр частями, а не целиком, — становится официальной нормой. Как только кодер начинает производить данные, пакеты уже могут быть отправлены в сеть, а приёмник, не дожидаясь окончания всего кадра, начинает сборку изображения. И именно это означает, что впервые JPEG 2000 становится пригодным для таких сценариев, где маркетинговый термин «low latency» оборачивается критическим требованием: телевещание в прямом эфире, дистанционная хирургия или работа со сверхкачественным изображением в реальном времени.</p><p>Вместо прежнего порядка «сначала кадр, затем поток» появляется обратный — «сначала поток, затем кадр». Благодаря этому сеть получает ту самую гибкость, о которой раньше говорили как о недостижимой: лишние уровни разрешения и качества можно отбрасывать на лету, даже не вскрывая содержимое. Приёмник, в свою очередь, обретает resync-точки, благодаря которым потеря пары пакетов больше не превращается в катастрофу, а разработчики, наконец, могут избавиться от бесконечных костылей, изобретённых в обход RFC 5371.</p><p>Выгоды для бизнеса очевидны, хотя каждый сектор формулирует их по-своему. В телевидении по IP режиссёр теперь видит кадр практически сразу, а не спустя полсекунды, и значит — работа в реальном времени перестаёт быть фикцией. В медицине появляется возможность стримить эндоскопию или МРТ с качеством вплоть до lossless и при этом не терять драгоценные секунды, от которых зависит исход операции. Кинопроизводство перестаёт таскать гигабайты по дискам, потому что мастер-кадры наконец-то могут пересылаться по сети. Даже государственные сервисы, включая суды и видеоконференции, приобретают шанс выглядеть не как мем из 2008 года, а как инструмент XXI века.</p><p>Да, пока это лишь бумага. Но, как обычно бывает: сначала RFC, затем — первые SDK и FPGA-решения, а чуть позже — перепакованные в отраслевые документы SMPTE и ITU стандарты. В горизонте двух-трёх лет мы увидим первые реальные внедрения в телевидении и медицине, в горизонте пяти — широкое распространение. А дальше, возможно, даже lossless-видеозвонки без лагов перестанут казаться фантастикой.</p><p>RFC 9828 — это не просто ещё один формат. Это признание индустрии в том, что ждать конца кадра всё это время было, мягко говоря, глупо.</p><p>Ссылки, как обычно, в моём канале</p><p>——————<br><a href="https://t.me/man_and_business" rel="noopener noreferrer nofollow">Менеджер? Давай сюда!</a><br><a href="https://t.me/want_to_it" rel="noopener noreferrer nofollow">Ищи работу здесь</a><br><a href="https://t.me/tales_from_it" rel="noopener noreferrer nofollow">Технологии и архитектура</a></p> <a href="https://habr.com/ru/posts/948676/?utm_campaign=948676&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 19 Sep 2025 13:41:48 GMT</pubDate>
    <dc:creator><![CDATA[Hedgehogues]]></dc:creator>
      
      <category><![CDATA[rtp]]></category><category><![CDATA[бэкенд]]></category><category><![CDATA[стандарты]]></category><category><![CDATA[rfc]]></category><category><![CDATA[протоколы]]></category><category><![CDATA[jpeg]]></category><category><![CDATA[изображения]]></category><category><![CDATA[изображение]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @titulusdesiderio — Обработка изображений (+2) — 03.09.2025 10:17]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/943416/</guid>
    <link>https://habr.com/ru/posts/943416/?utm_campaign=943416&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>ImageSorcery 01</strong>&nbsp;-&nbsp;<a href="https://habr.com/ru/posts/942330/" rel="noopener noreferrer nofollow">Как я свой open source вайбкодил</a><br><strong>ImageSorcery 02</strong>&nbsp;- <a href="https://habr.com/ru/posts/942794/" rel="noopener noreferrer nofollow">Превращение ImageWizard в ImageSorcery</a><br><strong>ImageSorcery 03</strong> - шаг за шагом: PoC, Initial commit</p><blockquote><p>Это серия постов от идеи&nbsp;<a href="https://imagesorcery.net/?utm%5C%5C_source=habr" rel="noopener noreferrer nofollow">ImageSorcery</a>&nbsp;до 100+ звёзд на&nbsp;<a href="https://github.com/sunriseapps/imagesorcery-mcp" rel="noopener noreferrer nofollow">гитхабе</a>&nbsp;и 100+ ежедневных установок с&nbsp;<a href="https://pypi.org/project/imagesorcery-mcp" rel="noopener noreferrer nofollow">PyPI</a>. </p><p>В прошлый серии мы с Gemini 2.0 flash определили стек: python, OpenCV, Ultralytics и никакого ImageMagic.&nbsp;</p></blockquote><p>Начал я как обычно с малого. В Cline попросил своего любимого бесплатного друга Gemini накидать скрипт на python который получает данные о размере (ширина, высота в пикселях) изображения. Дальше больше - скрипт <code>crop</code> который обрезает изображение по указанным аргументам. С последним пришлось повозиться и даже переключиться на Pro версию, благо она тоже бесплатная, пусть и с жёсткими лимитами.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/e5c/9bf/c7a/e5c9bfc7ad89aa558b7a93e9a31a687d.png" alt="😎 one shot изи катка: detect_objects находит координаты объектов, а crop_objects их вырезает" title="😎 one shot изи катка: detect_objects находит координаты объектов, а crop_objects их вырезает" width="1864" height="1080"><div><figcaption>😎 one shot изи катка: detect_objects находит координаты объектов, а crop_objects их вырезает</figcaption></div></figure><p>PoC готов, можно приступать к реализации MVP.</p><p>Как вы помните, в python я тот ещё джун. Так что я не стал рисковать своим любимым бесплатным Gemini flash и даже pro, а сразу переключился в бесплатный браузерный Claude (лучший ии-кодер что тогда, что сейчас) и попросил дать мне подробнейшую инструкцию по разворачиванию проекта который будет имплементировать простейший hello world MCP сервер.</p><p>Нет смысла ваншотить такой проект за раз даже с Claude Opus 4.1. Что он не вывезет, что я не осилю осознать все нюансы за один заход. По этому предпочитаю действовать по комплиментарным шагам, на каждом из которых получать работающий продукт с небольшими изменениями, пока не получу финальный результат.</p><p>Написание инструкции - задача с нечётким ТЗ. Такую никогда нельзя пытаться делать ваншотом. Поэтому сперва получаю первую версию по максимально абстрактному промпту, но дав ей столько контекста сколько смог насобирать в интернете и своей голове. А затем по шагам вычитываю - прошу внести исправления - снова вычитываю - снова прошу исправить и так по кругу пока не получаю результат который я понимаю и к которому у меня нет претензий.</p><p>И так инструкция готова, закидываю её в Cline + Gemini flash и ... получаю ошибку активации. Вы же помните что в python я джун и понятия о venv не имею? Даю ему шанс исправить ошибку самостоятельно, но бесполезно - он не справляется.&nbsp;Откатываю всё назад, переключаю модель на Gemini Pro - результат тот же.&nbsp;Плюю на экономию, переключаю модель на Claude Sonnet - результат тот же, но оно сожрало 3 бакса 🤬</p><p>Плюю на этих бестолковых ИИ и беру дело в свои руки. Рано железякам нас ещё заменять!</p><p>Пол дня бесполезного рыскания по stack overflow и дебага, во время которого я случайно обнаружил, что venv активируется если git bash terminal открыт в отдельном окне, а не внутри VSCode. Оказывается эта шарманка будучи запущенной внутри IDE в пути <code>C:\Users\titulus\work</code> сочетание <code>\t</code> воспринимает как знак табуляции из-за чего пытается активировать venv в <code>C:\Users&nbsp; &nbsp; itulus\work</code> 😵‍💫</p><p>Очевидного решения или даже упоминания этого бага я не обнаружил, так что просто уехал со всем своим проектом в WSL, благо VSCode отлично с ним работает. В Linux окружении, разумеется, таких проблем не возникло. Cline Gemini flash ваншотом по той самой инструкции от Claude создал MCP сервер, самостоятельно к нему подключился (вот за это я его обожаю) и проверил.</p><p>Я завёл git репозиторий и закоммитил initial commit. Первый шаг сделан ✅</p> <a href="https://habr.com/ru/posts/943416/?utm_campaign=943416&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 03 Sep 2025 07:17:34 GMT</pubDate>
    <dc:creator><![CDATA[titulusdesiderio]]></dc:creator>
      
      <category><![CDATA[автоматизация]]></category><category><![CDATA[обработка изображений]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[computervision]]></category><category><![CDATA[computer vision]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[opencv]]></category><category><![CDATA[yolo]]></category><category><![CDATA[mcp]]></category><category><![CDATA[poc]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @titulusdesiderio — $mol — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/942794/</guid>
    <link>https://habr.com/ru/posts/942794/?utm_campaign=942794&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>ImageSorcery 01</strong>&nbsp;- <a href="https://habr.com/ru/posts/942330/" rel="noopener noreferrer nofollow">Как я свой open source вайбкодил</a><br><strong>ImageSorcery 02</strong> - Превращение ImageWizard в ImageSorcery</p><blockquote><p>Это серия постов от идеи <a href="https://imagesorcery.net/?utm%5C_source=habr" rel="noopener noreferrer nofollow">ImageSorcery</a> до 100+ звёзд на <a href="https://github.com/sunriseapps/imagesorcery-mcp" rel="noopener noreferrer nofollow">гитхабе</a> и 100+ ежедневных установок с <a href="https://pypi.org/project/imagesorcery-mcp" rel="noopener noreferrer nofollow">PyPI</a>.</p><p>В прошлый раз мы выяснили, что при правильной настройке бесплатных инструментов, бесплатная LLM Gemini может оказаться не хуже Claude в написании документации. И закончили на вопросе, почему никто раньше не привязал MCP к ImageMagic?</p></blockquote><p><strong>А вот почему</strong></p><p>Первым делом после звонка с Системным Аналитиком я дал Cline в своём VSCode право на запуск команд в терминале. Затем взял первый попавшийся скриншот мобильного приложения и попросил вырезать NavBar используя ImageMagic. Gemini flash вырезал какую-то случайную часть экрана.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/f79/10c/de1/f7910cde1b423332d016149a12337aca.png" alt="crop &quot;на глаз&quot;" title="crop &quot;на глаз&quot;" width="1864" height="1080"><div><figcaption>crop "на глаз"</figcaption></div></figure><p>Я переключился на Gemini pro - результат тот же. o3 от OpenAI и Sonnet от Anthropic также облажались.</p><p>Долго думал. Я знал что все эти модели мультимодальные и наверняка знают что такое NavBar. Тут явно что-то не сходилось. Я полез раскрывать свёрнутые секции их размышлений и обнаружил что:&nbsp;</p><ol><li><p>Все они понимают, что изображено и “видят” NavBar.&nbsp;</p></li><li><p>Никто из них не способен вычислить точные координаты этого NavBar.</p></li><li><p>Они даже размеров изображения не знают.&nbsp;</p></li></ol><p>Из-за чего все они действовали наугад.</p><blockquote><p>Оказывается <strong>LLM не умеют определять точные координаты объектов, которые они видят</strong>, не говоря уже про их точную геометрию.</p></blockquote><p>В этом и крылся ответ на вопрос “а чего раньше это никто не сделал?”.&nbsp;</p><p>С этой дилеммой я пошёл к Gemini. Сокращённая переписка:</p><blockquote><p><strong>👤</strong>: какой аналог <a href="http://npmjs.com" rel="noopener noreferrer nofollow">npmjs.com</a> для питона? <br><strong>🤖</strong>: PyPi</p><p><strong>👤</strong>: у него сайт есть?<br><strong>🤖</strong>: <a href="http://pypi.org" rel="noopener noreferrer nofollow">pypi.org</a> </p><p><strong>👤</strong>: порекомендуй мне 5 - 10 пакетов для распознавания изображений на python моя задача - определять координаты объектов для будущего crop<br><strong>ИИ</strong>: Pillow, OpenCV, scikit-image, TensorFlow Object Detection API, Detectron2, YOLO, Tesseract OCR, SimpleCV, imutils. Рекомендации:<br>1) Начните с OpenCV или scikit-image. <br>2) Если вам нужна более высокая точность или нужно распознавать определенные типы объектов, рассмотрите TensorFlow Object Detection API, Detectron2 или YOLO. <br>3) Используйте Pillow для загрузки, сохранения и предварительной обработки изображений.<br>4) Используйте imutils для упрощения работы с OpenCV.<br>5) Если вам нужно распознавать текст, используйте Tesseract OCR.</p><p><strong>👤</strong>: расскажи подробней про opencv imutils pytorch и yolo<br><strong>🤖</strong>: <br>- <strong>OpenCV</strong> - это фундаментальная библиотека для компьютерного зрения, предоставляющая широкий спектр алгоритмов для обработки изображений и обнаружения объектов.<br>- <strong>imutils</strong> - это набор удобных функций, которые упрощают работу с OpenCV.<br>- <strong>PyTorch</strong> - это мощный фреймворк машинного обучения, который можно использовать для построения и обучения сложных моделей обнаружения объектов.<br>- <strong>YOLO</strong> - это семейство алгоритмов обнаружения объектов в реальном времени, известных своей скоростью и точностью.</p><p><strong>👤</strong>: важный момент. я не хочу обучать модели сам. мне нужен готовый инструмент<br><strong>🤖</strong>: Начните с OpenCV + YOLO от Ultralytics</p></blockquote><p>Как можно заметить, я не силён в python от слова совсем 😅. Но я выбрал его, потому что осведомлён о его большой экосистеме инструментов ML в общем и компьютерного зрения в частности.&nbsp;</p><p>И так стек найден. И с удивлением для меня, места для ImageMagic в нём не нашлось, ведь все необходимые инструменты для обработки уже есть в OpenCV.</p><p><strong>А что стало с названием ImageWizard?</strong></p><p>Тут всё банально. Я погуглил - это название уже занято приложением в сфере обработки изображений с ИИ 🤷. Пришлось найти незанятое. Но постарался оставить отсылку на ImageMagic</p> <a href="https://habr.com/ru/posts/942794/?utm_campaign=942794&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 01 Sep 2025 12:48:37 GMT</pubDate>
    <dc:creator><![CDATA[titulusdesiderio]]></dc:creator>
      
      <category><![CDATA[автоматизация]]></category><category><![CDATA[обработка изображений]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[computervision]]></category><category><![CDATA[computer vision]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[opencv]]></category><category><![CDATA[yolo]]></category><category><![CDATA[imagemagick]]></category><category><![CDATA[mcp]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @titulusdesiderio — Искусственный интеллект (+4) — 30.08.2025 14:30]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/942330/</guid>
    <link>https://habr.com/ru/posts/942330/?utm_campaign=942330&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>ImageSorcery 01</strong> - Как я свой open source вайбкодил</p><p>Скажу честно, я хотел написать статью, для того чтобы рассказать о своём проекте ImageSorcery MCP. Но не хотелось писать рекламный BS о том какой он крутой. Хотелось сделать месседж более личным и искренним. Так статья превратилась в серию постов-заметок о всех тех <s>граблях</s> инструментах и практиках, которые мне удалось попробовать на пути от идеи до 100+ звёзд на гитхабе и ~100 ежедневных установок с pypi. А так как я фанатик экономии, весь стек в основном бесплатный (включая LLM) и часто не самый популярный.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/3e6/1bc/8b3/3e61bc8b37c0f399b13ab035395a02dc.png" alt="Рост звёзд на гитхабе" title="Рост звёзд на гитхабе" width="1832" height="1308"><div><figcaption>Рост звёзд на гитхабе</figcaption></div></figure><p>В компании где я работаю, у меня сложилась репутация, как это принято сейчас говорить, ИИ-энтузиаста. Из-за чего ко мне однажды обратилась Системный Аналитик, которая только начала внедрять RooCode и столкнулась с какой-то проблемой полнейшего тупняка ИИ. Бесплатная веб версия Claude на раз два превращала Верхнеуровневые Бизнес Требования заказчика в детально проработанное Техническое Задание. Но копировать туда-сюда - не продуктивно, а ещё лимиты эти… Решилась она попробовать рекомендованный мною RooCode с Gemini flash. Установила впервые IDE VSCode, запустила и поставила плагин RooCode, подключила Gemini модель и попыталась скормить ему ту же задачу, но в ответ получила какой-то откровенный бред. Вместе мы выяснили, что для адекватной работы RooCode (а ещё его предшественника Cline и, скорее всего, последователя Kilo Code) требуется не просто запустить VSCode, но ещё и создать в нём проект с соответствующей директорий где-то в системе. А если ещё и все материалы сложить в эту директорию - их можно не копипастить и даже не драгндропать, а меньшонить через @ что намного удобней. (Даже мне стало плохо от обилия англицизмов в этом предложении, извините). Кроме того, выяснилось, что промпт содержал помимо текста ещё ссылку на Figma дизайн. А RooCode, несмотря на то что может используя браузер, какую-то осмысленную деятельность с этой ссылкой вести. При наличии у него Figma MCP справляется гораздо эффективнее.</p><p>И теперь бесплатный Gemini flash под капотом RooCode засиял во всей красе. Промпты стали проще и читаемей. И благодаря доступу ко всем необходимым файлам (ВБТ и шаблон) и инструментам, RooCode ваншотом не просто создал качественное ТЗ в формате markdown (привет markdown preview плагин), но ещё и наполнил его нужными скриншотами прямо в теле документа, чего Claude не мог.&nbsp;</p><p>Вот только осталась одна проблема: он использовал скриншоты целых экранов, и не смог их порезать на кусочки для документирования соответствующих секций: шапка, меню т.п.</p><blockquote><p> Фигня война! - сказал я, — наверняка есть MCP который это делает.&nbsp;</p></blockquote><p>Погуглив вместе минут 15 мы обнаружили, что такого нет. Но так как нарезка экранов на скриншоты - привычная для системного аналитика задача, она поблагодарила меня за получившийся результат и убежала на другой звонок. А я остался сидеть глядя в пустой монитор с непониманием, почему такая простая и очевидная задача ещё не решена.</p><p>Так появилась идея <strong>ImageWizard</strong> - взять ImageMagic и прикрутить к нему MCP протокол.</p><p>А почему сейчас проект и называется иначе и никакой связи с ImageMagic не имеет, расскажу в следующей серии.</p><ul><li><p>Репозиторий: <a href="https://github.com/sunriseapps/imagesorcery-mcp" rel="noopener noreferrer nofollow">https://github.com/sunriseapps/imagesorcery-mcp</a></p></li><li><p>Сайт: <a href="https://imagesorcery.net/?utm%5C_source=habr" rel="noopener noreferrer nofollow">imagesorcery.net</a> </p></li></ul> <a href="https://habr.com/ru/posts/942330/?utm_campaign=942330&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 30 Aug 2025 11:30:35 GMT</pubDate>
    <dc:creator><![CDATA[titulusdesiderio]]></dc:creator>
      
      <category><![CDATA[автоматизация]]></category><category><![CDATA[изображения]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[cline]]></category><category><![CDATA[gemini ai]]></category><category><![CDATA[обрезка]]></category><category><![CDATA[редактирование изображений]]></category><category><![CDATA[обрезка изображений]]></category><category><![CDATA[mcp]]></category><category><![CDATA[imagemagick]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @GarantexAi — Искусственный интеллект (+2) — 30.08.2025 12:53]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/942312/</guid>
    <link>https://habr.com/ru/posts/942312/?utm_campaign=942312&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/c4a/b08/0ee/c4ab080ee1eb65d0f95806e069bb0fa5.png" width="1280" height="672"></figure><p><strong>AI-синхронизация губ: от Wav2Lip до коммерческих решений</strong></p><p>Технологии автоматической синхронизации движений губ с аудио перешли от исследовательских проектов к готовым продуктам. Современные сервисы создают реалистичное видео за секунды, где персонаж произносит любой текст с сохранением деталей лица.</p><p><strong>Ключевые прорывы</strong></p><p><strong>Wav2Lip</strong> (2020, IIT Hyderabad) стал первой моделью, работающей без предварительного обучения на конкретном человеке. <a href="https://arxiv.org/abs/2008.10010" rel="noopener noreferrer nofollow">Исследование</a> показало возможность генерации синхронизированного видео на основе GAN-архитектуры с дискриминатором, обученным отличать реальные движения губ от синтетических.</p><p><strong>FaceFormer</strong> от Microsoft Research (2022) применил трансформерную архитектуру. <a href="https://arxiv.org/abs/2112.05329" rel="noopener noreferrer nofollow">Модель</a> использует 6-слойный Transformer для обработки MFCC-признаков аудио и генерирует 768 3D-точек лицевых landmarks с учетом временных зависимостей.</p><p><strong>Коммерческие решения</strong></p><p><strong>Lipsync 2.0</strong> от Sync Labs работает как zero-shot модель без настройки. Поддерживает обработку видео с несколькими говорящими в кадре.</p><p><strong>D-ID Creative Reality Studio</strong> генерирует говорящие аватары из статичных фото, ограничен 5-минутными роликами в базовой версии.</p><p><strong>Synthesia</strong> ориентирована на корпоративный сегмент с готовыми AI-аватарами. Стоимость от $30/месяц за 10 минут видео.</p><p>Технические характеристики</p><p><strong>Производительность:</strong></p><ul><li><p>CPU Intel i7: 1 секунда видео за 30-45 секунд обработки</p></li><li><p>GPU RTX 3060: соотношение 1:3</p></li><li><p>GPU RTX 4090: близко к real-time (1:1.2)</p></li></ul><p><strong>Метрики качества:</strong></p><ul><li><p>LSE-D (точность синхронизации): лучшие модели &lt;8.0</p></li><li><p>SSIM (сохранение деталей): целевое значение &gt;0.85</p></li><li><p>FID (реалистичность): оценка качества генерации</p></li></ul><p>Практические применения</p><p><strong>Стриминговые платформы:</strong> Netflix автоматизирует дубляж сериалов, сокращая локализацию с 3-6 месяцев до 2-3 недель.</p><p><strong>Образование:</strong> Coursera тестирует многоязычные версии курсов с автоматической синхронизацией губ преподавателей.</p><p><strong>Соцсети:</strong> TikTok экспериментирует с автопереводом популярных роликов, YouTube Creator Studio планирует функцию автодубляжа к 2026 году.</p><p>Ограничения</p><p><strong>Качество исходного материала:</strong> требует четкого видео минимум 256×256px с углом поворота головы ±30° от фронтального.</p><p><strong>Языковые особенности:</strong> модели обучены на английском. Для агглютинативных языков (финский, турецкий) точность падает на 15-20%.</p><p><strong>Детекция артефактов:</strong> современные детекторы находят AI-генерацию с точностью до 95% (FakeSpotter — 94.2%, Microsoft Video Authenticator — 91.8%).</p><p>Открытые инструменты</p><ul><li><p><a href="https://github.com/Rudrabha/Wav2Lip" rel="noopener noreferrer nofollow">Wav2Lip GitHub</a> — базовая модель с предобученными весами</p></li><li><p><a href="https://github.com/EvelynFan/FaceFormer" rel="noopener noreferrer nofollow">FaceFormer</a> — трансформерная архитектура</p></li><li><p>Google Colab notebooks для экспериментов без установки зависимостей</p></li></ul><p>Следующее поколение моделей будет работать в реальном времени для видеозвонков и включать генерацию жестов, синхронизированных с речью.</p> <a href="https://habr.com/ru/posts/942312/?utm_campaign=942312&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 30 Aug 2025 09:53:55 GMT</pubDate>
    <dc:creator><![CDATA[GarantexAi]]></dc:creator>
      
      <category><![CDATA[ai]]></category><category><![CDATA[нейросети]]></category><category><![CDATA[Wav2Lip]]></category><category><![CDATA[FaceFormer]]></category><category><![CDATA[липсинк]]></category><category><![CDATA[синхронизация губ]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+3) — 30.08.2025 09:23]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/942238/</guid>
    <link>https://habr.com/ru/posts/942238/?utm_campaign=942238&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен сервис <a href="http://Kira.art" rel="noopener noreferrer nofollow">Kira.art</a>, который позволяет редактировать картинки прямо в чате. Все просто: грузим картинку и описываем, что хотим получить. Никаких кистей, слоёв и прочих инструментов. Можно поменять оттенок глаз на фото, добавить или удалить фон и другие предметы, создать арт или стилизовать пикчу, например, в аниме. Внутри также есть встроенный апскейлер — бустануть качество фото можно в несколько раз. Никаких сложных промптов, диалог идёт на естественном языке.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/e81/481/15b/e8148115b95799ca0a83965a42c20644.jpg" width="1240" height="912"></figure> <a href="https://habr.com/ru/posts/942238/?utm_campaign=942238&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 30 Aug 2025 06:23:43 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Kira.art]]></category><category><![CDATA[Kira]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @yadro_team — Блог компании YADRO (+4) — 28.07.2025 17:31]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/yadro/posts/931778/</guid>
    <link>https://habr.com/ru/companies/yadro/posts/931778/?utm_campaign=931778&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Как мы синхронизировали съемку для возрожденного проекта DPED</strong></p><p>Команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева продолжает рассказывать о работе по возрождению и улучшению DPED (Deep Photo Enhancement Dataset).&nbsp;  </p><p>Мы решили задачи автоматизации, но столкнулись с еще одной проблемой: фото на планшете и камере снимались с некоторой задержкой относительно друг друга. Использование простых пауз (time.sleep) оказалось ненадежно и неэффективно. Тогда мы реализовали многопоточное решение:</p><ul><li><p>Первый поток управляет съемкой с камеры с помощью библиотеки pyautogui.</p></li><li><p>Второй поток управляет съемкой с планшета через ADB.</p></li><li><p>Оба потока обмениваются информацией через очередь (queue.Queue() из стандартной библиотеки Python) — это потокобезопасная структура данных, которая позволяет одному потоку передать сигнал другому. В нашем случае очередь используется для передачи сигнала о начале съемки с камеры. Получив этот сигнал, планшет почти без задержки запускает захват изображения.</p></li></ul><p>В процессе тестирования среднее время задержки составило 50 мс, но разброс данных достигал 93 мс. То есть, существуют случаи, когда мы получаем изображения с непозволительной задержкой в 100 мс и более. Мы отметили этот момент, но продолжили собирать датасет, а изображения с большой задержкой — удалять.</p><p>Скрипт автоматизации съемки кадров:</p><pre><code class="python">import subprocess
from threading import Thread
import pyautogui
import time
from queue import Queue

# координаты для кликов мыши

CAMERA_SHUTTER_BUTTON = (329, 748)    # кнопка затвора в приложении

FOCUS_POINT = (1189, 204)            # точка фокуса или область кадра


def tablet(q):
    time.sleep(0.1)
    if q.get() == 1:
        p = subprocess.Popen(r'.\adb.exe shell', stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
        p.stdin.write(b'input keyevent 27')
        p.stdin.close()

def camera(q):
    pyautogui.click(*CAMERA_SHUTTER_BUTTON)
    pyautogui.moveTo(*FOCUS_POINT)
    q.put(1)
    pyautogui.mouseDown()
    time.sleep(0.02)
    pyautogui.mouseUp()

q = Queue()
thread1 = Thread(target=camera, args=(q,))
thread2 = Thread(target=tablet, args=(q,))
thread1.start()
thread2.start()</code></pre><p>В оригинальной работе DPED точные значения задержки не указывались: авторы фиксировали устройства на механическом стенде и выполняли съемку вручную, без программной синхронизации или последующего анализа временного лага между кадрами. Насколько нам удалось выяснить, синхронизация производилась «на глаз», что не позволяет оценить точность в миллисекундах. Таким образом, можно утверждать, что наша реализация обеспечивает более детерминированный и измеримый результат по синхронизации.</p><blockquote><p><a href="https://habr.com/ru/companies/yadro/articles/930266/" rel="noopener noreferrer nofollow">Читайте в статье</a>, как команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ доводит снимки с планшета&nbsp;YADRO KVADRA_T&nbsp;до качества полупрофессиональной камеры Sony Alpha ILCE 6600.  </p></blockquote> <a href="https://habr.com/ru/posts/931778/?utm_campaign=931778&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 28 Jul 2025 14:31:20 GMT</pubDate>
    <dc:creator><![CDATA[yadro_team (YADRO)]]></dc:creator>
      
      <category><![CDATA[DPED]]></category><category><![CDATA[KVADRA_T]]></category><category><![CDATA[автоматизация съемки]]></category><category><![CDATA[нейросети]]></category><category><![CDATA[улучшение фотографий]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Смартфоны (+3) — 19.07.2025 16:46]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/929196/</guid>
    <link>https://habr.com/ru/posts/929196/?utm_campaign=929196&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Apple выпустила рекламу своей ИИ‑опции Clean Up по&nbsp;стиранию с&nbsp;фото разных объектов. В&nbsp;ролике показано, как&nbsp;можно удалить кота с&nbsp;фото. Изменения можно отменить, что&nbsp;и пришлось сделать герою видео, который решил «стереть» кота со снимка с&nbsp;супругой.</p><iframe id="687ba1271831dee5d74209ca" src="https://embedd.srv.habr.com/iframe/687ba1271831dee5d74209ca" class="embed_video embed__content" allowfullscreen="true"></iframe> <a href="https://habr.com/ru/posts/929196/?utm_campaign=929196&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 19 Jul 2025 13:46:44 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Clean Up]]></category><category><![CDATA[кот]]></category><category><![CDATA[apple]]></category>
  </item>
  

	
  

  

  

      

      

      

    
  </channel>
</rss>
