<?xml version="1.0" encoding="UTF-8"?>

<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" >

  <channel>
    <title><![CDATA[Все посты подряд / Обработка изображений / Хабр]]></title>
    <link>https://habr.com/ru/hubs/image_processing/posts/</link>
    <description><![CDATA[Обработка изображений – работаем с фото и видео]]></description>
    <language>ru</language>
    <managingEditor>editor@habr.com</managingEditor>
    <generator>habr.com</generator>
    <pubDate>Sun, 03 May 2026 09:40:44 GMT</pubDate>
    
    
      <image>
        <link>https://habr.com/ru/</link>
        <url>https://habrastorage.org/webt/ym/el/wk/ymelwk3zy1gawz4nkejl_-ammtc.png</url>
        <title>Хабр</title>
      </image>
    

    
      
        
    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Open source (+4) — 27.04.2026 08:13]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1028318/</guid>
    <link>https://habr.com/ru/posts/1028318/?utm_campaign=1028318&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Дизайнер <a href="https://x.com/reactiive_/status/2048117664149848426" rel="noopener noreferrer nofollow">представил</a> открытый проект <a href="https://github.com/enzomanuelmangano/demos" rel="noopener noreferrer nofollow">Demos</a>. Решение с помощью умной сортировки по цветам позволяет создавать картины из фотографий в галерее пользователя. Например, 10 тыс. фото прогоняются через алгоритм: у каждой определяется доминирующий цвет, после чего они выстраиваются в плавный градиент. В итоге всего за 50 мс получается цельное визуальное полотно.</p><iframe id="69eeefb207a5a002303eb2bc" src="https://embedd.srv.habr.com/iframe/69eeefb207a5a002303eb2bc" class="embed_video embed__content" allowfullscreen="true"></iframe> <a href="https://habr.com/ru/posts/1028318/?utm_campaign=1028318&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 27 Apr 2026 05:13:17 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Demos]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+3) — 26.04.2026 17:53]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1028150/</guid>
    <link>https://habr.com/ru/posts/1028150/?utm_campaign=1028150&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен проект MeiGen&nbsp;— это Pinterest с&nbsp;промптами для&nbsp;ИИ‑изображений. Решение позволяет находить лучшие референсы и промпты для&nbsp;генератором картинок. Проект поддерживает GPT Image 2, Nano Banana 2, Seedance 2.0, Veo 3.1&nbsp;и Midjourney.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/eea/85b/d75/eea85bd75b0dd9cb1287867e6bc421a7.jpg" width="1885" height="858"></figure> <a href="https://habr.com/ru/posts/1028150/?utm_campaign=1028150&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 26 Apr 2026 14:53:24 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[MeiGen]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+4) — 23.04.2026 09:28]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1026846/</guid>
    <link>https://habr.com/ru/posts/1026846/?utm_campaign=1026846&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен открытый проект <a href="https://github.com/YouMind-OpenLab/awesome-gpt-image-2" rel="noopener noreferrer nofollow">Awesome GPT Image 2 Prompts</a> - сборник промптов для ChatGPT Images 2.0, включая сотни готовых запросов, шаблонов и стилей — для самых разных сфер: реклама, обложки, диаграммы, веб-дизайн, комиксы, концепт-арты, посты в соцсети и многое другое.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/b3f/e82/280/b3fe82280468b8e36911fc8c950ceb19.png" width="3024" height="2788"></figure> <a href="https://habr.com/ru/posts/1026846/?utm_campaign=1026846&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 23 Apr 2026 06:28:05 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[ChatGPT Images 2.0]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @atomlib — Смартфоны (+4) — 05.04.2026 05:44]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1019378/</guid>
    <link>https://habr.com/ru/posts/1019378/?utm_campaign=1019378&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>НАСА <a href="https://x.com/NASA/status/2040468080686424396" rel="noopener noreferrer nofollow">опубликовало</a> фотографии с борта полёта «Артемида-2», где астронавты вдохновлённо любуются на нашу планету. На двух снимках в иллюминатор корабля «Орион» смотрит командир корабля Рид Уайсмен, на ещё одной фотографии&nbsp;— специалист полёта Кристина Кук.</p><figure class=""><img src="https://habrastorage.org/webt/1d/4d/37/1d4d37116085c866774eb6f9d9dc91f0.jpg" alt="Рид Уайсмен смотрит на Землю. НАСА" title="Рид Уайсмен смотрит на Землю. НАСА"><div><figcaption>Рид Уайсмен смотрит на Землю. <a href="https://www.nasa.gov/image-detail/amf-art002e008486/" rel="noopener noreferrer nofollow">НАСА</a></figcaption></div></figure><p>С высокой степенью уверенности возможно утверждать, что этот снимок будет встречаться в следующей презентации компании Apple. Для подтверждения этого нужно заглянуть в EXIF файла.</p><p>Алгоритмы обработки и сжатия социальной сети X свойства EXIF вырезают. Оригинальный файл всё же можно получить, но незадокументированным путём. На сайте НАСА в разделе с галереей этот снимок <a href="https://www.nasa.gov/image-detail/amf-art002e008486/" rel="noopener noreferrer nofollow">выложен</a> с кнопкой скачивания, которая ведёт на адрес <code>https://images-assets.nasa.gov/image/art002e008486/art002e008486~large.jpg</code>. Очевидно, что оригинальный файл будет отдаваться по УРЛ <code>https://images-assets.nasa.gov/image/art002e008486/art002e008486~orig.jpg</code>. В последнем случае данные EXIF сохранены.</p><p>В качестве линзы указано <code>iPhone 17 Pro Max front camera 2.715mm f/1.9</code>. Легко догадаться, что астронавты к товарищу со спонтанной просьбой вида «щёлкни меня на память» не обращались, а быстро наделали (первый и третий снимок отстоят друг от друга во времени на 3&nbsp;минуты 15&nbsp;секунд) протокольные селфи на фронталку смартфона. Сцена яркая, поэтому ISO снимка всего 32, выдержка&nbsp;— 1/1000&nbsp;с. Ожидаемо, что геометок или ориентации в EXIF нет.</p><p>Привлекательность этих фотографий в качестве материала для рекламы портит лишь то, что фотку могли подкрутить в Adobe Lightroom, если верить тем же данным EXIF.</p> <a href="https://habr.com/ru/posts/1019378/?utm_campaign=1019378&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 05 Apr 2026 02:44:53 GMT</pubDate>
    <dc:creator><![CDATA[atomlib]]></dc:creator>
      
      <category><![CDATA[НАСА]]></category><category><![CDATA[Apple]]></category><category><![CDATA[EXIF]]></category><category><![CDATA[фотография]]></category><category><![CDATA[iPhone]]></category><category><![CDATA[iPhone 17]]></category><category><![CDATA[iPhone 17 Pro Max]]></category><category><![CDATA[себяшки]]></category><category><![CDATA[селфи]]></category><category><![CDATA[космонавтика]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @GarantexAi — Искусственный интеллект (+2) — 27.03.2026 17:11]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1016016/</guid>
    <link>https://habr.com/ru/posts/1016016/?utm_campaign=1016016&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Вышел новый генератор изображений Phota Studio и Phota API</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/b3e/498/ab4/b3e498ab4086ba9e17d70d2d9b779c68.png" width="1200" height="675"></figure><p>Lightricks выпустила Phota — модель для генерации и редактирования фотографий с акцентом на сохранение идентичности лиц. По заявлениям, это первый публичный инструмент такого уровня для работы с реальными людьми в кадре. Разберём, что здесь технически интересно, а что — маркетинговое упрощение.</p><p>Что заявлено и что это значит на практике</p><p>Phota Studio позиционируется как персонализированная модель. На деле речь идёт о fine-tuned диффузионной архитектуре с технологией сохранения identity — вероятно, на базе IP-Adapter или схожего подхода. Lightricks не раскрывает архитектуру полностью, но по результатам похоже на encoder-based face embedding.</p><p><strong>Три основных сценария:</strong></p><ul><li><p><strong>Редактирование композиции</strong> — изменение позы, освещения, фона при сохранении лица</p></li><li><p><strong>Стилизация портретов</strong> — журнальная эстетика, студийный свет</p></li><li><p><strong>Восстановление и коррекция</strong> — добавление человека на групповое фото, исправление выражения лица</p></li></ul><p>API отдельно — для разработчиков. Это принципиально: Lightricks явно целится в B2B-сегмент, а не только в мобильных пользователей.</p><p>Где реальный технический прогресс</p><p>Главная проблема генеративных моделей при работе с лицами — identity drift. Лицо «уплывает» при любом изменении: добавляешь шляпу — получаешь другого человека.</p><p>Судя по демо-примерам Phota, identity preservation работает существенно лучше, чем у Midjourney или SDXL с LoRA. Lightricks заявляют о возможности использования одной референсной фотографии — если это правда без оговорок, это серьёзное упрощение пайплайна по сравнению с обучением персонального LoRA (где нужно 10–20 фото).</p><p>Однако стоит учесть: Lightricks — разработчики Facetune и Videoleap, у них огромная база размеченных лиц для обучения. Это конкурентное преимущество, которое сложно воспроизвести.</p><p>Где стоит быть скептиком</p><p><strong>«Добавить человека на групповое фото»</strong> — технически это требует не только identity preservation, но и точного матчинга освещения, перспективы и разрешения. По опыту с аналогичными задачами через inpainting — без ручной доработки результат заметно «вклеенный» в 60–70% случаев.</p><p><strong>«Исправить выражение лица»</strong> — здесь ключевой вопрос: насколько сильное изменение? Убрать моргание — реалистично. Превратить недовольное лицо в радостное с сохранением идентичности — уже сложнее, особенно при наличии зубов, морщин и асимметрии.</p><p><strong>Маркетинговые материалы, свадебная фотография</strong> — звучит заманчиво, но в этих сценариях любой артефакт критичен. Пока не видел независимых тестов на edge cases: плохое освещение, профильные ракурсы, частичное перекрытие лица.</p><p>Что это означает для продакшена</p><p>Для контент-пайплайнов это потенциально полезный инструмент в связке:</p><ul><li><p>Быстрое прототипирование визуалов с конкретными людьми</p></li><li><p>Генерация вариаций для A/B-тестов (позы, фоны)</p></li><li><p>Восстановление архивных фото для презентаций</p></li></ul><p>Но заменить фотографа на съёмках, где важна точность — пока нет. Это инструмент для итераций и черновиков, не для финальных материалов с высокими требованиями к достоверности.</p><p>Если честно</p><p>Phota выглядит как серьёзный шаг вперёд в узкой нише — персонализированная генерация с одной референсной фото. Lightricks умеет делать качественные продукты для массового рынка.</p><p>Но между «демо выглядит круто» и «работает в продакшене» — всегда есть зазор. Особенно когда речь о лицах реальных людей, где каждый артефакт бросается в глаза.</p><p>Кто уже тестировал Phota на реальных задачах — насколько результат соответствует демо? Интересует конкретика: сколько итераций до приемлемого результата и на каких сценариях откровенно не работает?</p> <a href="https://habr.com/ru/posts/1016016/?utm_campaign=1016016&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 27 Mar 2026 14:11:59 GMT</pubDate>
    <dc:creator><![CDATA[GarantexAi]]></dc:creator>
      
      <category><![CDATA[lightricks]]></category><category><![CDATA[генерация фото]]></category><category><![CDATA[редактирование фотографий]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Беспроводные технологии (+4) — 24.03.2026 12:25]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1014216/</guid>
    <link>https://habr.com/ru/posts/1014216/?utm_campaign=1014216&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Китайская компания <a href="https://vidabay.net/" rel="noopener noreferrer nofollow">VidaBay</a> выпустила необычный&nbsp;аксессуар: компактный магнит-фоторамку&nbsp;Classic Plus NFC&nbsp;в форме Polaroid-снимка. Его особенностью стал встроенный экран E-Ink, на который можно многократно&nbsp;«распечатывать» изображения со смартфона. </p><p>Гаджет не имеет встроенной АКБ и разово подпитывается от NFC-чипа смартфона при передаче картинки, которая затем&nbsp;«застывает» на матрице.&nbsp;Для синхронизации используется мобильное приложение VidaBay. Подробные спецификации дисплея производитель не уточнил. Судя по изображениям из рекламы проекта, панель отображает около 4096 оттенков в сравнительно низком разрешении. На международном сайте бренда VidaBay Classic Plus NFC в белой, красной и жёлтой расцветке продаётся по цене $35 ($100 за набор из трёх штук).</p><iframe id="69c257fc42c0bc03ac184b2a" src="https://embedd.srv.habr.com/iframe/69c257fc42c0bc03ac184b2a" class="embed_video embed__content" allowfullscreen="true"></iframe> <a href="https://habr.com/ru/posts/1014216/?utm_campaign=1014216&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 24 Mar 2026 09:25:34 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Classic Plus NFC]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @oopatow — Искусственный интеллект (+4) — 16.03.2026 09:20]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1010644/</guid>
    <link>https://habr.com/ru/posts/1010644/?utm_campaign=1010644&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Переходим полностью к тестам датасета COCO. День 4. </strong></p><p><s>Пока Альтман рассуждает о бороздящих кораблях Вселенную и о моделях, которые будут после трансформеров, мы делаем. Такое вступление я придумал для статьи, когда мы закончим с экспериментами и доделаем пилот, а пока</s> продолжу дневник обучения TAPe-модели. Комуинтересно: начало <a href="https://habr.com/ru/posts/1009926/" rel="noopener noreferrer nofollow">тут</a>, <a href="https://habr.com/ru/posts/1010182/" rel="noopener noreferrer nofollow">здесь</a> и <a href="https://habr.com/ru/posts/1010464/" rel="noopener noreferrer nofollow">там</a>, а&nbsp;немного про&nbsp;методы TAPe (Теории активного восприятия) в&nbsp;области обработки информации&nbsp;— <a href="https://habr.com/p/1004788/%20TAPe%20+%20ML:%20%D1%83%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F%20%D0%B0%D1%80%D1%85%D0%B8%D1%82%D0%B5%D0%BA%D1%82%D1%83%D1%80%D0%B0%20%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B3%D0%BE%20%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D1%8F%20%D0%B2%D0%BC%D0%B5%D1%81%D1%82%D0%BE%20%D0%BF%D0%B0%D1%82%D1%87%D0%B5%D0%B9%20%D0%B8%20%C2%AB%D1%81%D1%8B%D1%80%D1%8B%D1%85%C2%BB%20%D0%BF%D0%B8%D0%BA%D1%81%D0%B5%D0%BB%D0%B5%D0%B9" rel="noopener noreferrer nofollow">здесь</a>.</p><p>Сначала протестировали эту&nbsp;же модель с&nbsp;тем&nbsp;же числом параметров на&nbsp;большом датасете COCO. <strong>Без&nbsp;оптимизации получили решение с&nbsp;точностью 60.59%, что&nbsp;является очень высоким для&nbsp;такой модели (невозможно высоким даже, такая модель по&nbsp;идее не&nbsp;должна сходиться и находить общее решение из&nbsp;количества параметров, но&nbsp;данные TAPe позволяют)</strong>. Пока сложно сравнить с&nbsp;конкретной метрикой других моделей, потому что&nbsp;мы не&nbsp;строим рамки вокруг предмета, но&nbsp;находим конкретно центр объекта. Это проведем позже.&nbsp;</p><p>Тренировка на&nbsp;процессоре как&nbsp;минимум не&nbsp;дольше, чем тренировка на&nbsp;видеокарте, поэтому мы ограничены только количеством данных на&nbsp;ОЗУ в&nbsp;TAPe‑формате&nbsp;— что&nbsp;не&nbsp;является ограничением в&nbsp;целом, можно весь датасет уместить одновременно там<br>Пока существуют несколько проблем:</p><ul><li><p>Количество ложных срабатываний (скорее симптом, но&nbsp;все&nbsp;же);</p></li><li><p>Не&nbsp;самая лучшая классификационная точность (тоже в&nbsp;большой степени симптом);</p></li><li><p>Неправильное центрирование объектов (немного ограничение детекции, но&nbsp;есть способы обойти);</p></li><li><p>Размерность COCO;</p></li></ul><p>Начали экспериментировать, чтобы найти решения, при&nbsp;этом также экспериментируем с&nbsp;несколькими предметами, с&nbsp;которыми ранее уже хотели провести эксперимент. </p><p>Конкретно:</p><p>Работа матрицы преобразования на&nbsp;данный момент времени немного&nbsp;линейная. Зависимости по&nbsp;большей части&nbsp;линейные (то есть, независимые друг от&nbsp;друга). Это не&nbsp;хорошо, по&nbsp;понятным причинам, но&nbsp;в&nbsp;тоже самое время это помогло перейти к&nbsp;пониманию одного факта: в&nbsp;найденном нами подходе, о&nbsp;котором писали выше, есть как&nbsp;раз нелинейная зависимость коэффициентов друг от&nbsp;друга. Эту связь нужно выстраивать вручную, в&nbsp;зависимости от&nbsp;градиентного спуска и deep learning, но&nbsp;в&nbsp;нашем случае связи по&nbsp;TAPe известны заранее,<br>Дополнительно начинаем вторую фазу создания решения, чтобы можно&nbsp;было захватывать объекты любого размера. Это должно привести к&nbsp;намного более точным ответам, при&nbsp;этом ускорив модель.&nbsp;</p><p>Ну и решаем еще одну проблему: модель учится определять бэкграунд, но&nbsp;имеет сложности определять объекты со стороны классификации. То есть&nbsp;— большая часть тренировки потери идет в&nbsp;сторону тренировки хорошей точности в&nbsp;бэкграунд, что&nbsp;приводит к&nbsp;ложным срабатываниям, потому что&nbsp;текстуры на&nbsp;заднем плане превращаются для&nbsp;модели в&nbsp;что‑то напоминающие объект, пусть и с&nbsp;низкой точностью. </p><p>Дальше планируем продолжить работу с&nbsp;полным датасетом (используя 2% из&nbsp;него для&nbsp;быстрых тестов&nbsp;— это около 2400&nbsp;изображений). </p> <a href="https://habr.com/ru/posts/1010644/?utm_campaign=1010644&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 16 Mar 2026 06:20:05 GMT</pubDate>
    <dc:creator><![CDATA[oopatow]]></dc:creator>
      
      <category><![CDATA[датасет]]></category><category><![CDATA[разметка]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[пилотный проект]]></category><category><![CDATA[градиентный спуск]]></category><category><![CDATA[deep learning]]></category><category><![CDATA[развитие стартапа]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @oopatow — Машинное обучение (+3) — 15.03.2026 15:23]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1010464/</guid>
    <link>https://habr.com/ru/posts/1010464/?utm_campaign=1010464&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Как мы ушли от всем известного способа градиентного спуска</strong></p><p>Продолжаю дневник разработки «Суперраспознавалки» для&nbsp;демо/пилота.&nbsp;День третий. Основная задача:&nbsp;<a href="https://habr.com/ru/articles/1004788/" rel="noopener noreferrer nofollow">настроить TAPe‑модель</a>&nbsp;на&nbsp;датасет типа COCO под&nbsp;задачу detection. Вторая&nbsp;— дать клиентам возможность добавлять собственные классы к&nbsp;уже существующим. Ну и далее, при&nbsp;необходимости, полная адаптация модели под&nbsp;конкретного заказчика. Поскольку у&nbsp;нас есть Теория активного восприятия с&nbsp;ее методами, на&nbsp;выходе заказчик должен получить кратную эффективность и кратную экономию ресурсов.</p><p>В&nbsp;первые два дня настраивали базовую струтуру сегментации, детекции и классификации. Модель решает задачи на&nbsp;обучении уже 115&nbsp;тыс параметров&nbsp;— в&nbsp;отличии от&nbsp;YOLO, которой мало 2&nbsp;млн + параметров. </p><p>Начало <a href="https://habr.com/ru/posts/1009926/" rel="noopener noreferrer nofollow">здесь</a> </p><p>Второй день <a href="https://habr.com/ru/posts/1010182/" rel="noopener noreferrer nofollow">здесь</a></p><p>Про&nbsp;архитектуру TAPe+ML <a href="https://habr.com/p/1004788/%20TAPe%20+%20ML:%20%D1%83%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F%20%D0%B0%D1%80%D1%85%D0%B8%D1%82%D0%B5%D0%BA%D1%82%D1%83%D1%80%D0%B0%20%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B3%D0%BE%20%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D1%8F%20%D0%B2%D0%BC%D0%B5%D1%81%D1%82%D0%BE%20%D0%BF%D0%B0%D1%82%D1%87%D0%B5%D0%B9%20%D0%B8%20%C2%AB%D1%81%D1%8B%D1%80%D1%8B%D1%85%C2%BB%20%D0%BF%D0%B8%D0%BA%D1%81%D0%B5%D0%BB%D0%B5%D0%B9" rel="noopener noreferrer nofollow">здесь</a></p><p><a href="https://habr.com/p/1007128/%20%D0%9D%D0%B0%D1%88%20%C2%AB%D0%B4%D0%BE%D0%BC%D0%B0%D1%88%D0%BD%D0%B8%D0%B9%C2%BB%20%D0%9D%D0%98%D0%98%20%D0%BE%D0%B1%D0%BE%D1%88%D1%91%D0%BB%20DINOv2,%20ViT%20%D0%B8%20%D0%B4%D0%B5%D1%81%D1%8F%D1%82%D0%BA%D0%B8%20ML%E2%80%91%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B5%D0%B9%20%D0%B2%20%D1%81%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D0%B8%20%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE" rel="noopener noreferrer nofollow">Тут</a> сравнение трех десятков кодировок в&nbsp;задаче сегментации видео в&nbsp;DBSCAN (включая ViT, DINO) с&nbsp;TAPe</p><p><strong>День 3</strong></p><p>Сегодня занимаемся исправлением количества ложных срабатываний. Проблема ложных срабатываний в&nbsp;целом в&nbsp;том, что&nbsp;мы смотрим в&nbsp;первую очередь на&nbsp;текстуру изображения (из‑за особенностей методов TAPe). Поэтому приходится прибегать к&nbsp;менее‑обычным способам для&nbsp;обучения разделения между текстурой заднего плана (в каком‑либо виде, будь это снег, или&nbsp;трава) и текстурой самого объекта.<br><br>Сейчас эта проблема решается условно через определенные движения области сбора данных для&nbsp;выявления текстур, которые, возможно, не&nbsp;были найдены в&nbsp;области, расположенной стандартным способом (то есть начальным разбиением изображения на&nbsp;патчи). Это позволяет сильно уменьшить количество ложных срабатываний. </p><p>На&nbsp;данный момент времени около 220&nbsp;объектов срабатывают без&nbsp;ложных срабатываний в&nbsp;целом. Проблема происходит только в&nbsp;изображениях с&nbsp;большим количеством маленьких деталей по&nbsp;типу гравия, или&nbsp;же травы, при&nbsp;этом не&nbsp;уменьшая общее количество правильных нахождений. </p><p>В&nbsp;целом, здесь помогают стандартные ML‑подходы по&nbsp;типу увеличения батчей, чтобы сгладить ошибки.&nbsp;Были эксперименты с&nbsp;проведением аугментаций, которые не&nbsp;привели к&nbsp;улучшению результатов: большая часть аугментаций просто повторяют уже существующие данные.</p><p>Также начали эксперименты с&nbsp;добавлением цветовых каналов. Однако проведенные эксперименты с&nbsp;цветами в&nbsp;простой схеме объединения features по&nbsp;каналам не&nbsp;дало&nbsp;желаемых результатов: даже с&nbsp;greyscale мы забираем столько информации, что&nbsp;цветовая гамма по&nbsp;большей части их просто дублирует. Это приводит к&nbsp;тому, что&nbsp;модель опирается слишком сильно на&nbsp;общие черты, не «видя» при&nbsp;этом выдающиеся черты разницы цвета. Что&nbsp;в&nbsp;то&nbsp;же самое время может и являться хорошей фичей, а&nbsp;не&nbsp;багом, потому что&nbsp;через разницу в&nbsp;текстуре мы, по&nbsp;идее, должны найти разницу в&nbsp;любом случае (если это реальное изображение). Поэтому мы не&nbsp;полагаемся в&nbsp;решении на&nbsp;конкретную задачу, где цвет более релевантен, а&nbsp;полагаемся на&nbsp;общее решение детекции в&nbsp;целом.<br><br>Также на&nbsp;заднем плане&nbsp;были закончены эксперименты с&nbsp;разными архитектурами (эксперименты продолжались параллельно несколько дней). Нашли самую лучшую архитектуру на&nbsp;данный момент (самая логичная по&nbsp;её смыслу, как&nbsp;нам кажется). Тут без&nbsp;подробностей, но&nbsp;мы ушли от&nbsp;всем известного способа градиентного спуска, что&nbsp;позволяет нам после тренировки модели прийти к&nbsp;глобальному минимуму решения (или к&nbsp;чему‑то очень близкому к&nbsp;этому&nbsp;— всё равно есть зависимость от&nbsp;задачи).</p><p>Мы собираем данные из&nbsp;патчей определенным образом, объединяем их в&nbsp;общее описание, а&nbsp;затем уже классифицируем конкретно эти объединения по&nbsp;тому, есть там объект или&nbsp;его нет. Классификация происходит за&nbsp;счет общих описаний каждого класса, который модель видит&nbsp;— и не&nbsp;тренируется отдельно, потому что&nbsp;исходит натурально из&nbsp;первичной тренировки векторов, а&nbsp;затем сводится к&nbsp;одному описанию через k‑means.<br><br>В&nbsp;результате выходит модель с&nbsp;очень малым количеством ложных срабатываний&nbsp;— с&nbsp;которыми, впрочем, мы все равно боремся. Плюс есть некие проблемы центровки, так что&nbsp;скорее всего количество параметров увеличится. Но&nbsp;все равно, модель работает чрезвычайно&nbsp;быстро. Тренировка как&nbsp;таковая проходит на&nbsp;CPU (так проще).</p> <a href="https://habr.com/ru/posts/1010464/?utm_campaign=1010464&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 15 Mar 2026 12:23:55 GMT</pubDate>
    <dc:creator><![CDATA[oopatow]]></dc:creator>
      
      <category><![CDATA[машинное обучение]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[распознавание образов]]></category><category><![CDATA[разметка датасета]]></category><category><![CDATA[градиентный спуск]]></category><category><![CDATA[патчи]]></category><category><![CDATA[развитие стартапа]]></category><category><![CDATA[пилот]]></category><category><![CDATA[пилотный проект]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @oopatow — Машинное обучение (+2) — 14.03.2026 14:12]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1010182/</guid>
    <link>https://habr.com/ru/posts/1010182/?utm_campaign=1010182&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>День 2. 115&nbsp;тыс параметров вместо 2&nbsp;млн+ у&nbsp;YOLO</strong></p><p>Продолжаю дневник разработки «Суперраспознавалки» для&nbsp;демо/пилота. Начало <a href="https://habr.com/ru/posts/1009926/" rel="noopener noreferrer nofollow">здесь</a>.</p><p>Сегодня начали углубляться в&nbsp;сторону самой по&nbsp;себе классификации, а&nbsp;также немного выходить из&nbsp;темы универсальности решения, чтобы решать уже задачу detection, а&nbsp;не&nbsp;только общую сегментацию.<br><br>Интересный момент, найденный в&nbsp;экспериментах&nbsp;— <a href="https://habr.com/ru/articles/1004788/" rel="noopener noreferrer nofollow">благодаря TAPe</a> получается использовать очень дешевые методы с&nbsp;тз ресурсов, при&nbsp;этом используя и методы ML. При&nbsp;этом все равно получаются очень хорошие результаты для&nbsp;этих методов.<br><br>Например, конкретно сейчас получается даже на&nbsp;более сложных примерах без&nbsp;проблем находить задний фон, используя при&nbsp;этом минимальные ресурсы и методы, которые на&nbsp;пикселях являлись релевантными 20&nbsp;лет назад.<br><br>Разбиение происходит за 100+ кадров в&nbsp;секунду, без&nbsp;оптимизации, с&nbsp;обработкой каждого кадра отдельно (то есть есть также overhead выгрузки изображения на&nbsp;GPU).</p><p>Также пришло понимание, что&nbsp;нужно переходить к&nbsp;этапу дополнительных действий, чтобы отбирать интересные места. В&nbsp;целом по&nbsp;результату вышло, что&nbsp;количество ложных срабатываний в&nbsp;разы уменьшилось, но&nbsp;при&nbsp;этом количество правильных ответов тоже немного снизилось (на пару процентов, но&nbsp;заметно в&nbsp;любом случае, тем более у&nbsp;нас цель получить условные 100% на&nbsp;тестовых данных). Это происходит как&nbsp;раз таки из‑за того, что&nbsp;нет правильной последовательности действий (что, впрочем, нами ожидалось, просто не&nbsp;думали, что&nbsp;это так&nbsp;быстро произойдет).</p><p>Перешли к&nbsp;более адаптированной под&nbsp;TAPe логике. Пока очень топорным способом (так легче тренировать и проверять работу), но&nbsp;выходят очень хорошие результаты. По&nbsp;поводу данных немного скажу для&nbsp;контекста:<br><br>Разбиение следующее:</p><p>Classes: 4; labeled: 1256, train: 879, test: 377, miss images: 559</p><p>То есть, 4&nbsp;класса, общее количество изображений объектов&nbsp;— 1256, из&nbsp;них в&nbsp;тренировку уходит 879, в&nbsp;тестирование&nbsp;— 377. Miss images&nbsp;— это изображения просто заднего фона, а&nbsp;также случайных объектов, не&nbsp;являющихся нужными объектами.<br><br>Для&nbsp;YOLO необходимо около 1500&nbsp;изображений на&nbsp;один класс. Мы&nbsp;же успешно используем около 220&nbsp;на&nbsp;класс + какие‑то изображения фона (которые есть только для&nbsp;травы и снега, например).</p><p>Результаты имеют точность определения того, где находится нужный объект (не её вид&nbsp;— это отдельный шаг) с&nbsp;точностью 98.94% (то есть правильно для 373&nbsp;из 377&nbsp;изображений). Ложные срабатывания ещё существуют, но&nbsp;их стремительно меньше.<br><br>Интересно, что&nbsp;модель «самостоятельно» находит правильно нужные объекты, даже если в&nbsp;тренировочных данных они не&nbsp;были обозначены (то есть тренировочные данные неправильные). Модели всё равно удаётся определить оба объекта, что&nbsp;показывает, что&nbsp;модель обучилась формам объектов успешно.</p><p>Чтобы добавить контекста&nbsp;— размер модели 115&nbsp;тысяч параметров. Самая маленькая из&nbsp;современных YOLO&nbsp;же имеет 2+ млн параметров, и при&nbsp;этом не&nbsp;справляется с&nbsp;задачей.</p> <a href="https://habr.com/ru/posts/1010182/?utm_campaign=1010182&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 14 Mar 2026 11:12:09 GMT</pubDate>
    <dc:creator><![CDATA[oopatow]]></dc:creator>
      
      <category><![CDATA[yolo]]></category><category><![CDATA[машинное обучениe]]></category><category><![CDATA[разметка]]></category><category><![CDATA[видео]]></category><category><![CDATA[распознавание образов]]></category><category><![CDATA[распознавание изображений]]></category><category><![CDATA[gpu]]></category><category><![CDATA[стартап]]></category><category><![CDATA[пилотный проект]]></category><category><![CDATA[искусственный интеллект]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @oopatow — Машинное обучение (+3) — 13.03.2026 16:17]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1009926/</guid>
    <link>https://habr.com/ru/posts/1009926/?utm_campaign=1009926&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Сейчас делаем пилот сразу для&nbsp;нескольких заказчиков. Рабочее название&nbsp;— «Суперраспознавалка» :))<br><br>Основная задача: <a href="https://habr.com/ru/articles/1004788/" rel="noopener noreferrer nofollow">настроить TAPe-модель</a> на датасет типа COCO под задачу detection. Вторая&nbsp;— дать клиентам возможность добавлять собственные классы к&nbsp;уже существующим. Ну и далее, при&nbsp;необходимости, полная адаптация модели под&nbsp;конкретного заказчика. Поскольку у&nbsp;нас есть Теория активного восприятия с&nbsp;ее методами, на&nbsp;выходе заказчик должен получить кратную эффективность и кратную экономию ресурсов.<br><br>Задача интересная, поэтому буду вести дневник разработки, а&nbsp;потом подготовлю подробную статью. </p><p>Некоторые проекты&nbsp;— NDA, когда буквально нельзя указывать точное название объектов, которые нужно детектировать. Поэтому не&nbsp;обессудьте. Ноу‑хау по‑прежнему не&nbsp;собираемся раскрывать. Только результаты и часть пути к этим результатам. </p><p><strong>День 1. TAPe и YOLO</strong></p><p>Закончили с&nbsp;базовой структурой для&nbsp;сегментации, то есть с&nbsp;тем, как&nbsp;за&nbsp;один «ход» получать необходимый набор патчей, чтобы дальше расчёты шли параллельно (и оттуда&nbsp;же&nbsp;быстро), что&nbsp;также немного подводит ближе к&nbsp;самой логике действий здесь. Сейчас за&nbsp;одно действие получается определить все точно‑неинтересные места, а&nbsp;также все возможно‑интересные места (то есть, где есть детали в&nbsp;целом).</p><p>Что&nbsp;интересно сейчас в&nbsp;самом подходе&nbsp;— это то, что&nbsp;благодаря TAPe получается избежать проблемы других сегментационных моделей&nbsp;— а&nbsp;именно:</p><ul><li><p>Необходимость классификации буквально каждого пикселя (как поступают стандартные современные модели семантической сегментации);</p></li></ul><p>Стандартные модели буквально классифицируют каждый пиксель (или каждый N‑ный пиксель, если сжимают разрешение) на&nbsp;отношение к&nbsp;тому или&nbsp;иному классу.&nbsp;</p><ul><li><p>Необходимость проверять каждый шаг в&nbsp;какой‑то ограниченной сетке размером N на&nbsp;N (так делает конкретно YOLO)</p></li></ul><p>YOLO обходит это использованием сил CNN, классифицируя только конечное количество патчей (зависит от&nbsp;версии YOLO, в&nbsp;первой их&nbsp;было 6400, что&nbsp;всё равно много). Методы TAPe&nbsp;же нам позволяют этого не&nbsp;делать, потому что&nbsp;единицы информации в&nbsp;TAPe (которые мы назвали T‑bit) несут в&nbsp;себе гораздо больше информации, чем бит. В&nbsp;данном случае&nbsp;— несут в&nbsp;себе нужную структуру для&nbsp;нахождения похожести&nbsp;— а&nbsp;значит для&nbsp;нахождения сегментов, в&nbsp;которых нужно что‑то классифицировать в&nbsp;целом. И даже здесь благодаря TAPe у&nbsp;нас есть преимущество: мы можем проводить классификацию на&nbsp;условном нулевом уровне, не&nbsp;уходя в&nbsp;глубину.</p><p>Используя даже простую версию такого подхода, мы уже можем приходить к&nbsp;такой сегментации на&nbsp;простых примерах (разные цвета показывают разные сегменты). Лавочка&nbsp;— один сегмент, урна&nbsp;— другой, всё остальное&nbsp;— разные неровности, которые также можем буквально отфильтровать, если не&nbsp;хотим проводить их классификацию их. То есть&nbsp;— объект находится условно одномоментно.</p> <a href="https://habr.com/ru/posts/1009926/?utm_campaign=1009926&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 13 Mar 2026 13:17:33 GMT</pubDate>
    <dc:creator><![CDATA[oopatow]]></dc:creator>
      
      <category><![CDATA[yolo]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[пилот]]></category><category><![CDATA[разработка]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[разметка]]></category><category><![CDATA[cnn]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+3) — 13.03.2026 07:14]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1009638/</guid>
    <link>https://habr.com/ru/posts/1009638/?utm_campaign=1009638&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>В&nbsp;Photoshop <a href="https://x.com/icreatelife/status/2032099581291348034?" rel="noopener noreferrer nofollow">анонсировали</a> функцию вращения 2D‑объектов&nbsp;— пока она доступна только в&nbsp;бета‑версии редактора. Инструмент Harmonize добавит свет и тени, чтобы объект выглядел естественно и вписался в&nbsp;окружение.</p><iframe id="69b38ece03cbcd57f14633fc" src="https://embedd.srv.habr.com/iframe/69b38ece03cbcd57f14633fc" class="embed_video embed__content" allowfullscreen="true"></iframe> <a href="https://habr.com/ru/posts/1009638/?utm_campaign=1009638&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 13 Mar 2026 04:14:27 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Photoshop]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Open source (+3) — 22.02.2026 12:27]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/1002394/</guid>
    <link>https://habr.com/ru/posts/1002394/?utm_campaign=1002394&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен открытый проект <a href="https://github.com/danielgatis/rembg" rel="noopener noreferrer nofollow">rembg</a>&nbsp;— легковесный скрипт на&nbsp;Python, который поможет убрать фон даже с&nbsp;самых сложных картинок. Удаляет фон за секунды и не грузит ПК. </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/098/b2e/091/098b2e091269bc7d7ccf6d5d705a1efb.jpg" width="1754" height="1252"></figure> <a href="https://habr.com/ru/posts/1002394/?utm_campaign=1002394&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 22 Feb 2026 09:27:34 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[rembg]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Derrvish — Habr (+4) — 03.02.2026 14:26]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/992236/</guid>
    <link>https://habr.com/ru/posts/992236/?utm_campaign=992236&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<div class="floating-image"><figure class="float bordered full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/e90/d99/f74/e90d99f7428036d1043af273ca077b07.jpg" width="1122" height="1568"></figure><p><strong><em>Желтая майка лидера: о соревновании технологий, мастерстве и границах творчества.</em></strong></p></div><p>Я не фотограф. Я — человек с камерой. Именно так я себя позиционирую. Сколько себя помню, столько снимаю. Портретная съемка — мое особое предпочтение. Я почти не зарабатываю на этом поприще, поэтому можно говорить о чистом творчестве и сильном увлечении.</p><p>Мое знакомство с AI началось буквально два-три месяца назад, и оно практически сразу стало перекликаться и пересекаться с реальной фотографией. В этом параллельном пути двух разных технологий для меня кроется особый, захватывающий интерес. Изначально, по неопытности, я решил, что смогу творить, используя AI, и это будет полная аналогия настоящей фотографии. Достаточно быстро я понял, что это не так. По крайней мере, на сегодняшний день.</p><p>Однако это не ослабляет моего интереса. AI — всего лишь инструмент высокого уровня. Как и камера в руках — тоже просто инструмент. Результат, которого я добиваюсь с помощью своего мастерства, знаний и опыта — это всегда сумма факторов, где инструмент значит много, но далеко не всё. Я постоянно сравниваю глобальные возможности нейросетей и свои локальные навыки. Это соревнование, в котором нет постоянного лидера: «желтая майка» постоянно переходит из рук в руки.</p><p>Главным остается задача, которую я ставлю перед собой. Именно из нее вытекает необходимость в том или ином инструменте. На текущий момент ни один из них не является универсальным или исчерпывающим. И это соревнование технологий мне нравится. Оно дает как платные качественные возможности, так и бесплатные решения, не уступающие по качеству, но имеющие свои плюсы и минусы. Как и всё в этой непростой жизни.</p><p>Недавно я провел масштабный эксперимент. Изображение с женщиной на кубе, которое мне очень нравится, я опубликовал в десятках групп на Facebook, в том числе в профессиональных сообществах с многочисленной аудиторией. В начале эксперимента я никак не обозначал, что это результат генерации. Позже я добавил пояснение, указав инструменты, с помощью которых было получено изображение. Те, кто хотел, всегда могли удостовериться, что это генеративный контент.</p><p>Я получил и продолжаю получать сотни, если не тысячи восторженных комментариев и лайков. И только три или четыре человека написали: «Это же AI, зачем это здесь?». Это говорит о двух вещах. Во-первых, творчество есть творчество. Любуясь результатом, нам не особенно важно, как мастер его добился: водил кистью по полотну или просто вылил ведро краски на холст (утрирую).</p><p>Во-вторых, генерация изображения в сочетании с коррекцией в Photoshop сделали картинку настолько реалистичной, что большинство людей даже не задумались о ее происхождении, приняв за обычную фотографию. Я потратил на эту работу два рабочих дня: замысел, написание prompts, генерации, затем Photoshop, доводка, коррекция, многочисленные варианты и исправления. Этого не видно на конечном изображении — оно просто «вкусно» выглядит. Но для меня это безусловное творчество, а не просто нажатие кнопки «Generate».</p><p>Если поначалу я стремился к стопроцентной реалистичности, чтобы никто не догадался о вмешательстве нейросетей, то сейчас я к этому остыл. Возможно, через пару лет появятся инструменты, позволяющие добиться качества, абсолютно неотличимого от реальной фотографии, но сейчас это практически невозможно.</p><p>Поэтому остается просто творить. AI — это инструмент, который позволяет фантазировать, мечтать и создавать, практически не имея границ. Генеративная фотография — отдельный вид искусства, использующий современные, запредельные технологии, которые лишь обогащают наши возможности. «Черный квадрат» Малевича по сравнению с этим — просто результат неудачной генерации из-за неверного выбора text encoder. Шутка... :)</p> <a href="https://habr.com/ru/posts/992236/?utm_campaign=992236&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 03 Feb 2026 11:26:39 GMT</pubDate>
    <dc:creator><![CDATA[Derrvish]]></dc:creator>
      
      <category><![CDATA[ai]]></category><category><![CDATA[photoshop]]></category><category><![CDATA[generative art]]></category><category><![CDATA[image processing]]></category><category><![CDATA[art]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+3) — 26.01.2026 09:49]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/988930/</guid>
    <link>https://habr.com/ru/posts/988930/?utm_campaign=988930&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><a href="https://github.com/steffest/DPaint-js" rel="noopener noreferrer nofollow">Представлен</a> открытый веб-редактор изображений <a href="https://www.stef.be/dpaint/" rel="noopener noreferrer nofollow">DPaint.js</a> (онлайн-версия) на JavaScript, созданный по образцу легендарного Deluxe Paint, с упором на ретро-форматы файлов Amiga. Помимо современных форматов изображений, DPaint.js может читать и записывать файлы иконок Amiga и изображения IFF ILBM.</p><p>Основные возможности проекта: слои, выделение, маскирование, инструменты трансформации, эффекты и фильтры, множественная отмена/повтор действий, копирование/вставка из любой другой программы обработки изображений или источника изображений, настраиваемые инструменты дизеринга и циклическая смена цветов.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/17a/4a7/9df/17a4a79dffe1dc6bd4140185ba21f6e0.png" width="692" height="822"></figure> <a href="https://habr.com/ru/posts/988930/?utm_campaign=988930&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 26 Jan 2026 06:49:47 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[DPaint.js]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+4) — 26.01.2026 07:16]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/988896/</guid>
    <link>https://habr.com/ru/posts/988896/?utm_campaign=988896&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлена открытая ИИ-студия для работы с видео и лицами — <a href="https://github.com/VisoMasterFusion/VisoMaster-Fusion" rel="noopener noreferrer nofollow">VisoMaster Fusion</a>, включая замену лиц, обработку видео и редактирование изображений. Работает локально, без облаков и подписок. Возможности сервиса: реалистичная замена лиц в видео и фото, работа с несколькими персонажами в кадре, инструменты улучшения качества изображения и лица, контроль над параметрами генерации. Подойдёт тем, кто работает с видео, контентом, ИИ-инструментами или просто хочет попробовать современные технологии без ограничений и подписок. </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/261/1c6/24c/2611c624cae6bb7acbf3c18f4b259be2.jpg" width="1280" height="761"></figure><p> </p> <a href="https://habr.com/ru/posts/988896/?utm_campaign=988896&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 26 Jan 2026 04:16:43 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[VisoMaster Fusion]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Информационная безопасность (+4) — 16.01.2026 08:00]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/985712/</guid>
    <link>https://habr.com/ru/posts/985712/?utm_campaign=985712&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен открытый проект <a href="https://github.com/MehmetYukselSekeroglu/eye_of_web/" rel="noopener noreferrer nofollow">EyeOfWeb</a>. Это локальный OSINT-поисковик с точных распознаванием лиц на базе нейросети InsightFace, которая сканирует черты лица с фото и сравнивает с тысячами изображений в сети. Источники поиска можно задать вручную: сайты, форумы, соцсети, тематические порталы и другие ресурсы. Также можно добавить поиск по метаданным фото.&nbsp;Сервис помогает устроить даже мультипоиск нескольких людей с фото. Для работы нужно 8 ГБ памяти.&nbsp;</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/016/e44/4f0/016e444f09cdafcde133bf42d554a916.png" width="932" height="704"></figure> <a href="https://habr.com/ru/posts/985712/?utm_campaign=985712&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 16 Jan 2026 05:00:27 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[EyeOfWeb]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Dmitrii_DAK — Искусственный интеллект (+4) — 13.01.2026 20:09]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/984952/</guid>
    <link>https://habr.com/ru/posts/984952/?utm_campaign=984952&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Cloud vs Local: где сегодня реально генерируют изображения и видео</strong></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/157/f72/b66/157f72b66ab22af62b4a0838d579d040.jpg" alt="Генерация изображений в &quot;облаке&quot; и локально" title="Генерация изображений в &quot;облаке&quot; и локально" width="5504" height="4264"><div><figcaption>Генерация изображений в "облаке" и локально</figcaption></div></figure><p>За последний год генерация изображений и видео стала для многих повседневным инструментом - как в дизайне и маркетинге, так и в разработке, создании ивентов и выставок.</p><p>При этом индустрия явно разделилась на два подхода:</p><ul><li><p><strong>Облачные сервисы (Veo 3.1, Runway ML, Midjorney, Kling AI)</strong> - быстрый старт, минимальный порог входа, подписки, кредиты и токены, высокая стабильность.</p></li><li><p><strong>Локальная генерация</strong> <strong>(ComfyUI, InvokeAI, Forge и др.)</strong> - полный контроль над пайплайном, моделями (Flux 2, Z-Image, Wan 2.2, LTX 2), VRAM и качеством, но ценой времени на настройку и поддержку.</p></li></ul><p>На практике всё чаще видно, что это не «противостояние», а <strong>разные инструменты под разные задачи</strong>:</p><ul><li><p>быстрые концепты и презентации - чаще в облаке;</p></li><li><p>сложные пайплайны, кастомные модели, LoRA, видео и эксперименты - локально;</p></li><li><p>многие используют оба подхода параллельно.</p></li></ul><p>Интересно посмотреть на реальную картину в сообществе.</p><p>Буду рад, если в комментариях поделитесь почему выбрали именно такой подход: что для вас оказалось решающим - скорость, контроль, стоимость, стабильность или масштабируемость.</p> <a href="https://habr.com/ru/posts/984952/?utm_campaign=984952&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 13 Jan 2026 17:09:48 GMT</pubDate>
    <dc:creator><![CDATA[Dmitrii_DAK]]></dc:creator>
      
      <category><![CDATA[ai]]></category><category><![CDATA[generative ai]]></category><category><![CDATA[comfyui]]></category><category><![CDATA[cloud computing]]></category><category><![CDATA[computer vision]]></category><category><![CDATA[deeplearning]]></category><category><![CDATA[gpu]]></category><category><![CDATA[gpu вычисления]]></category><category><![CDATA[ml]]></category><category><![CDATA[stablediffusion]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Поисковые технологии (+2) — 09.01.2026 08:38]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/983720/</guid>
    <link>https://habr.com/ru/posts/983720/?utm_campaign=983720&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен открытый сервис <a href="https://github.com/Decimation/SmartImage" rel="noopener noreferrer nofollow">SmartImage</a>, который проверяет ресурсы в сети и ищет первоисточник картинки на базе нескольких алгоритмов поиска: SauceNao, IQDB, Ascii2D, trаce.mоe и других. Можно искать через перетаскивание и загрузку изображений, в текстовом поле, через буфер обмена, а также через командную строку.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/23d/276/f87/23d276f874cc2c5dde37aab63b941e5c.png" width="687" height="686"></figure> <a href="https://habr.com/ru/posts/983720/?utm_campaign=983720&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 09 Jan 2026 05:38:11 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[SmartImage]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Open source (+4) — 06.01.2026 16:29]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/983222/</guid>
    <link>https://habr.com/ru/posts/983222/?utm_campaign=983222&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен локальный и бесплатный сервис <a href="https://github.com/alam00000/bentopdf" rel="noopener noreferrer nofollow">BentoPDF</a> для работы с PDF. Вся обработка происходит в браузере. Умеет объединение, разделение, поворот, удаление страниц и кроппинг, а также в нём можно быстро добавить вотермарку, сделать нумерацию страниц и поменять текст в файлах. При этом бесплатно, без лимитов и даже регистрацию не просят.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/9af/1ba/8a9/9af1ba8a94a858ac5f7c7a708ef85ab6.png" width="693" height="760"></figure> <a href="https://habr.com/ru/posts/983222/?utm_campaign=983222&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 06 Jan 2026 13:29:27 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[BentoPDF]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+2) — 29.12.2025 05:41]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/981416/</guid>
    <link>https://habr.com/ru/posts/981416/?utm_campaign=981416&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Глава Apple Тим Кук <a href="https://x.com/tim_cook/status/2003873311504130173" rel="noopener noreferrer nofollow">создал</a> «праздничное оформление» в&nbsp;канун Рождества, «сделанное на&nbsp;MacBook Pro». Картинка с&nbsp;молоком и печеньем должна&nbsp;была подразнить фанатов финал 1&nbsp;сезона сериала «Из многих» (<em>Pluribus</em>) от&nbsp;Apple TV. Там написано «Счастливого сочельника, Кэрол...». Эксперты считают, что&nbsp;это странное изображение&nbsp;было создано искусственным интеллектом. </p><p>Технический блогер Джон Грубер <a href="https://daringfireball.net/linked/2025/12/27/slopibus" rel="noopener noreferrer nofollow">прямолинеен</a> по&nbsp;этой ситуации. «Тим Кук публикует ИИ‑слопы в&nbsp;рождественском послании в&nbsp;X, якобы для&nbsp;продвижения „Плюрибуса“». «Что&nbsp;касается неаккуратных деталей, то на&nbsp;упаковке написано как „Цельное молоко“, так и „Молоко с&nbsp;низким содержанием жира“, а&nbsp;лабиринт „Коровьи забавы“ просто нелепо оформлен. Я не&nbsp;могу припомнить, чтобы когда‑либо видел какую‑либо головоломку на&nbsp;упаковке из‑под молока, потому что&nbsp;они восковые и на&nbsp;них трудно писать. Это похоже на&nbsp;смешение упаковок из‑под молока и хлопьев»,&nbsp;— пояснил Грубер.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/ddf/257/59a/ddf25759afc931e04ebf2b12cf41e4bd.png" width="544" height="680"></figure> <a href="https://habr.com/ru/posts/981416/?utm_campaign=981416&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 29 Dec 2025 02:41:55 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[кук]]></category><category><![CDATA[печенье]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+4) — 17.12.2025 13:38]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/977700/</guid>
    <link>https://habr.com/ru/posts/977700/?utm_campaign=977700&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>OpenAI <a href="https://cookbook.openai.com/examples/multimodal/image-gen-1.5-prompting_guide" rel="noopener noreferrer nofollow">представила</a> гайд по созданию картинок в различных стилях в GPT-image-1.5, включая инфографику, карты, логотипы, копирование стиля и перенос на другие работы, создание карточек товаров и примерка одежды.</p><p>Ранее OpenAI <a href="https://habr.com/ru/posts/977538/" rel="noopener noreferrer nofollow">объявила</a> о запуске модели <a href="https://openai.com/index/new-chatgpt-images-is-here/" rel="noopener noreferrer nofollow">ChatGPT Images</a> на базе GPT-5.2, предназначенной для генерации изображений с использованием технологий искусственного интеллекта. Новая модель поддерживает широкий спектр функций редактирования, включая добавление и удаление элементов, комбинирование и смешивание изображений, а также их транспонирование. Обновление интегрировано в приложение ChatGPT и доступно пользователям во вкладке «Изображения». </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/556/6b5/92d/5566b592d2bb95c1ae6a7fd7ea31137a.png" width="1572" height="842"></figure> <a href="https://habr.com/ru/posts/977700/?utm_campaign=977700&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 17 Dec 2025 10:38:05 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[OpenAI]]></category><category><![CDATA[гайд]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @avsolovyev — Робототехника (+1) — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/973046/</guid>
    <link>https://habr.com/ru/posts/973046/?utm_campaign=973046&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>3D из 2D: Как получить карту глубины с одной камеры?</strong></p><p>Для построения карты глубины иногда достаточно одной камеры и алгоритма Depth from Focus (DfF).</p><p><strong>Как это работает:</strong></p><ol><li><p>Меняем фокус на камере несколько раз и делаем снимки.  Сначала фокус на переднем плане, потом в середине, потом на заднем.</p></li><li><p>Фиксируем «резкость» каждого элемента на каждом кадре </p></li><li><p>Строим карту. Для каждого элемента с «резкого» кадра, алгоритм вычисляет, на каком отделении от камеры находится эта точка. Всё вместе и даёт трёхмерную карту.</p></li></ol><p><strong>А как быстро менять фокус? </strong></p><p>Классический моторный привод слишком медленный. Поэтому в таких системах часто используют жидкие линзы.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/b72/929/ac7/b72929ac7b325ae6d89a9f8c3855b3c1.png" alt="Пример устройства жидкой линзы" title="Пример устройства жидкой линзы" width="1200" height="1021"><div><figcaption>Пример устройства жидкой линзы</figcaption></div></figure><p>Это не стекло, а капля в гибкой оболочке. Её кривизну (а значит, и фокусное расстояние) можно менять мгновенно, подавая напряжение.</p><p><strong>Где это применяют?</strong> </p><ul><li><p> Контроль пайки компонентов на платах (проверка высоты).</p></li><li><p>Контроль на производстве (например, закрутка винтов).</p></li><li><p>Навигация роботов, где важно понимать рельеф местности.</p></li></ul><p>Я использовал объективы с жидкими линзами в нескольких проектах, где это действительно было очень удобным и элегантным решением. Один из таких – была система контроля сборки блоков предохранителей для автомобилей. В ней за счёт технологии глубины из фокуса удалось бюджетно решить задачу контроля качества сборки и выявить ошибки установки предохранителей.</p> <a href="https://habr.com/ru/posts/973046/?utm_campaign=973046&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 17 Dec 2025 02:36:10 GMT</pubDate>
    <dc:creator><![CDATA[avsolovyev]]></dc:creator>
      
      <category><![CDATA[компьютерное зрение]]></category><category><![CDATA[робототехника]]></category><category><![CDATA[автоматизация процессов]]></category><category><![CDATA[оптика]]></category><category><![CDATA[автоматизация производства]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+3) — 17.12.2025 05:19]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/977538/</guid>
    <link>https://habr.com/ru/posts/977538/?utm_campaign=977538&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>OpenAI объявила о запуске модели <a href="https://openai.com/index/new-chatgpt-images-is-here/" rel="noopener noreferrer nofollow">ChatGPT Images</a> на базе GPT-5.2, предназначенной для генерации изображений с использованием технологий искусственного интеллекта. Новая модель поддерживает широкий спектр функций редактирования, включая добавление и удаление элементов, комбинирование и смешивание изображений, а также их транспонирование. Обновление будет интегрировано в приложение ChatGPT и станет доступно пользователям во вкладке «Изображения». </p><p>В ChatGPT появился новый раздел «Изображения», в котором собраны все ваши картинки, а также есть набор из нескольких стилей для быстрого редактирования без составления промта.</p><p>Новый генератор изображений уже доступен бесплатно всем пользователям ChatGPT.</p><p>Несколько ключевых улучшений:</p><ul><li><p>Теперь ИИ не искажает лица при редактировании изображений и точно следует инструкциям. </p></li><li><p>Улучшена работа с различными стилями. Например, можно сделать из своей фотографии новогоднюю игрушку. </p></li><li><p>Скорость работы выросла в 4 раза. Это реально заметно. </p></li><li><p>Улучшена работа с текстом. Генератор понимает Markdown и может добавлять код на картинки.</p></li></ul><figure class=""><img src="https://habrastorage.org/getpro/habr/upload_files/e0a/d5e/d3a/e0ad5ed3a239621cd540fbaea5270a2a.jpeg" width="512" height="512"></figure> <a href="https://habr.com/ru/posts/977538/?utm_campaign=977538&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 17 Dec 2025 02:19:33 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[ChatGPT Images]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Open source (+2) — 16.12.2025 05:39]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/977086/</guid>
    <link>https://habr.com/ru/posts/977086/?utm_campaign=977086&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Шифруем любой файл в PNG-картинку. Представлен открытый проект дешифратора <a href="https://github.com/archistico/ShadeOfColor2" rel="noopener noreferrer nofollow">ShadeofColor</a>. Возможности: обход фильтров и блокировок (вместе .exe, .zip или .docx присылаем обычные изображение), незаметная передача файлов (PNG не вызывает подозрений), удобная архивация для визуальной сортировки, предпросмотра и каталогов. Это наглядный пример, как можно кодировать данные в цвета.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/fc3/d77/5e7/fc3d775e79ce92699077f446d83926eb.jpg" width="800" height="483"></figure> <a href="https://habr.com/ru/posts/977086/?utm_campaign=977086&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 16 Dec 2025 02:39:57 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[ShadeofColor]]></category><category><![CDATA[png]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @severstal — Блог компании Северсталь (+2) — 12.12.2025 13:41]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/severstal/posts/976062/</guid>
    <link>https://habr.com/ru/companies/severstal/posts/976062/?utm_campaign=976062&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Киберстоматолог для экскаваторов: как мы следим за здоровьем зубов карьерной техники? </strong></p><p>Запускаем серию роликов о том, как применяем компьютерное зрение в «Северстали».</p><p>У нас в гостях Олег Карташев, руководитель отдела компьютерного зрения в «Северстали»! В этом ролике мы расскажем о стоматологии в добыче железной руды, и вы узнаете:<br> 💼 как сохранить здоровье зубов карьерной техники;<br> 💼 как следить за шатающимися, но уже не молочными зубами;<br> 💼 сколько зубов выпадает в месяц;<br> 💼 зачем на технике коронки и как за ними следить;<br> 💼 как мы искали зубья ковшей и погрузчиков.</p><p>Приятного просмотра. Увидимся в следующем ролике!</p><div class="embed_link"><div class="embed__thumb" style="background-image: url(&quot;https://i.mycdn.me/getVideoPreview?id=9723231865365&amp;idx=0&amp;type=39&amp;tkn=RIqsIvJfdkTImI8Myg4ls9U7M5w&amp;fn=vid_t&quot;);"></div><div class="embed__caption"><div class="embed__caption-title"><span>Северсталь on&nbsp;VK&nbsp;Clips</span></div><a href="https://vk.com/clip-51040185_456243513" target="_blank" rel="noopener noreferrer nofollow" class="embed__caption-host">vk.com</a></div></div> <a href="https://habr.com/ru/posts/976062/?utm_campaign=976062&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 12 Dec 2025 10:41:49 GMT</pubDate>
    <dc:creator><![CDATA[severstal (Северсталь)]]></dc:creator>
      
      <category><![CDATA[компьютерное зрение]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[машинное зрение]]></category><category><![CDATA[cv]]></category><category><![CDATA[computervision]]></category><category><![CDATA[ml]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @daniilshat — Обработка изображений (+2) — 10.11.2025 19:39]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/965028/</guid>
    <link>https://habr.com/ru/posts/965028/?utm_campaign=965028&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/def/92b/a8d/def92ba8dee0e686fb11c657f546b1e7.jpg" width="1280" height="720"></figure><p>На полках швейцарского супермаркета Migros <a href="https://www.reddit.com/r/ChatGPT/comments/1oquuau/in_switzerlands_largest_supermarket_chain_they/?utm_source=share&amp;utm_medium=web3x&amp;utm_name=web3xcss&amp;utm_term=1&amp;utm_content=share_button" rel="noopener noreferrer nofollow">нашли</a> упаковку рождественского печенья со сгенерированной иллюстрацией на коробке. У оленя на картинке пять ног. Пользователи Reddit детальнее рассмотрели изображение и нашли ещё несколько ошибок, которые допустила нейросеть:</p><ul><li><p>Рога оленя странной формы, либо их три.</p></li><li><p>Задние ноги оленя не касаются земли.</p></li><li><p>У Санта-Клауса непропорциональные ноги или он стоит на коленях.</p></li><li><p>Поводья крепятся к саням, а не удилам. Кроме того, они разорваны, и одна из частей стала частью пояса.</p></li><li><p>На задней части саней видны неразборчивые символы.</p></li><li><p>Руки Санты превратились в «кашу».</p></li><li><p>Все шары на ёлке красные, кроме одного слева — он жёлтый.</p></li></ul><p>В комментариях пользователи отмечают, что эти ошибки можно было исправить в графическом редакторе или даже с помощью нейросеть. Некоторые даже делятся отредактированными вариантами.</p><p>Представители сети Migros заявили, что получили упаковку с таким изображением от производителя в Азии. Товар сезонный, поэтому времени на изготовление пробной партии и правок не было. Руководство приняло решение выпустить в продажу то, что есть.</p><p>Комментарии на Reddit:</p><blockquote><p>Сегодня держал эту коробку в руках. Интересно, что вся поверхность тиснённая, то есть они сделали пресс-форму для изображения, включая пятую ногу. Никто во время производства не заметил, что она лишняя… Коробка сейчас на распродаже — 5 франков вместо 9. Может быть куплю одну завтра.</p></blockquote><blockquote><p>Меня бесит, что у нас есть такие крутые инструменты для создания классных изображений, но никто даже не удосуживается посмотреть на результат хотя бы 5 секунд перед тем, как его использовать.</p></blockquote><blockquote><p>Все люди, которые говорят о «контроле качестве», будто кому-то в компании вообще есть до этого дело. Скорее всего, племянник генерального директора сделал картинку бесплатно, и ни один человек даже не взглянул на неё перед тем, как отправить PNG в станок для печати. Это просто продукт, который они продают. Им всё равно. И вам тоже должно быть всё равно. Вы не собирались вешать это на стену.</p></blockquote> <a href="https://habr.com/ru/posts/965028/?utm_campaign=965028&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 10 Nov 2025 16:39:43 GMT</pubDate>
    <dc:creator><![CDATA[daniilshat]]></dc:creator>
      
      <category><![CDATA[швейцария]]></category><category><![CDATA[ии]]></category><category><![CDATA[нейросети]]></category><category><![CDATA[дизайн]]></category><category><![CDATA[печенья]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+4) — 03.11.2025 08:09]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/962720/</guid>
    <link>https://habr.com/ru/posts/962720/?utm_campaign=962720&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Команда Datalab выпустила бесплатную OCR модель Chandra, которая превращает любые PDF и картинки в обычные текстовые документы. Просто закидываем файл и получаем вывод в формате HTML, Markdown и JSON. Легко вытаскивает таблицы, формулы и диаграммы. Понимает 40+ языков. Можно пользоваться в браузере или поставить локально. Ставим локально с <a href="https://github.com/datalab-to/chandra" rel="noopener noreferrer nofollow">GitHub</a> или пользуемся онлайн — <a href="https://www.datalab.to/playground/documents/new" rel="noopener noreferrer nofollow">здесь</a>.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/646/55c/24b/64655c24b263eab47d38adf0c452bc95.png" width="784" height="539"></figure> <a href="https://habr.com/ru/posts/962720/?utm_campaign=962720&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 03 Nov 2025 05:09:10 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[OCR]]></category><category><![CDATA[Chandra]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Open source (+3) — 27.10.2025 05:11]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/960374/</guid>
    <link>https://habr.com/ru/posts/960374/?utm_campaign=960374&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Инструмент <a href="https://github.com/spipm/Depixelization_poc" rel="noopener noreferrer nofollow">Depixelization PoC</a> вытаскивает текст из скриншотов и фото, убирает пиксельный хаос и делает буквы читаемыми. Починит даже самые безнадёжные блоки текста. Использует метод De Bruijn sequence для точного восстановления букв. Подходит для документов, конспектов, рефератов и всего учебного.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/0e2/1e7/0aa/0e21e70aafa8ddf5d6648f68ab2d6ecd.jpg" width="673" height="655"></figure> <a href="https://habr.com/ru/posts/960374/?utm_campaign=960374&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 27 Oct 2025 02:11:36 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Depixelization PoC]]></category><category><![CDATA[Depixelization]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Облачные сервисы (+2) — 27.10.2025 05:08]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/960372/</guid>
    <link>https://habr.com/ru/posts/960372/?utm_campaign=960372&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен ресурс <a href="https://uchinoko-maker.jp/" rel="noopener noreferrer nofollow">Uchinoko, </a>который восстанавливает справедливость между пушистыми питомцами и людьми. Можно детально воссоздать своего кота/собакена в цифровом формате. Результат выгружается в SNS-иконку. </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/8fe/bc9/91f/8febc991f0d0577b3c20dd1b2bb0a590.jpg" width="903" height="1280"></figure> <a href="https://habr.com/ru/posts/960372/?utm_campaign=960372&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 27 Oct 2025 02:08:33 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Uchinoko]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @atomlib — Дизайн мобильных приложений (+4) — 20.10.2025 05:09]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/958090/</guid>
    <link>https://habr.com/ru/posts/958090/?utm_campaign=958090&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>В Кремниевой долине наступила эпоха трудоголизма, и в стартаперских кругах всё больше говорят про <a href="https://habr.com/ru/news/934246/" rel="noopener noreferrer nofollow">рабочую культуру 996</a>. Остаётся открытым вопрос, что это&nbsp;— просто интересная тема для светской беседы или реальность длиной 72&nbsp;часа в неделю. Тем не менее общий настрой&nbsp;— отсутствие отдыха и максимальная продолжительность рабочего дня.</p><p>Подобные веяния точно отразил Лоран Дель Рей, новый сотрудник Superintelligence Labs компании Meta¹. Продакт-дизайнер <a href="https://x.com/laurentdelrey/status/1975221173840679208" rel="noopener noreferrer nofollow">запустил</a> простенькое приложение-фоторедактор Endless Summer, где пользователь делает селфи, а затем генеративная модель встраивает человека в различные отпускные контексты. Пользователь получает фотки, где он гуляет по курорту или осматривает виды европейских городов с балкона.</p><iframe id="68f594bf3fd488e72a488477" src="https://embedd.srv.habr.com/iframe/68f594bf3fd488e72a488477" class="embed_video embed__content" allowfullscreen="true"></iframe><p>Конкретная модель внутри Endless Summer не указывается. В политике приватности <a href="https://laurent.fyi/privacy" rel="noopener noreferrer nofollow">написано</a> лишь, что запросы идут в API сервиса Replicate, то есть это может быть что угодно&nbsp;— от распространённых диффузионок уровня Stable Diffusion с LoRA-надстройками до более новых пайплайнов вроде FLUX или Playground. Однако издание TechCrunch с уверенностью <a href="https://techcrunch.com/2025/10/18/too-burned-out-to-travel-this-new-app-fakes-your-summer-vacation-photos-for-you/" rel="noopener noreferrer nofollow">пишет</a>, что это Nano-Banana компании Google.</p><p>Насколько необычно и грустно то, что люди вместо настоящего отпуска генерируют фальшивые фотки с него? На самом деле ничего уникального в этом нет.</p><p>Как <a href="https://x.com/itsTimWijaya/status/1979814111069553137" rel="noopener noreferrer nofollow">пишет</a> индонезийский стартапер Тим Виджая, для многих ИИ становится именно такой отдушиной. Тим рассказал, что в этом году он в роли консультанта помогал OpenAI проводить исследование, как индонезийцы используют ChatGPT. Там обнаружилось ровно такое же явление.</p><p>В рамках анализа Виджая была обнаружена целая группа на Facebook² на 30&nbsp;тысяч участников, где индонезийцы выкладывали сгенерированные ИИ фотографии с собственным участием, при этом значительно повышая уровень своего достатка. На картинках пользователи окружали себя атрибутами роскошной жизни: суперкары Lamborghini, жизнь в Париже, шопинг в магазине Guccci и так далее. При этом подобным эскапизмом занимались в основном люди среднего или низкого достатка из глубинки Индонезии, их заработок не превышал $400 в месяц.</p><p>Дель Рей со своим Endless Summer довёл это явление до логического завершения. В приложении есть даже опция Room Service (обслуживание в номер), которая будет присылать две отпускные фотки каждое утро.</p><p>Владеющая социальной сетью Facebook&nbsp;(2) транснациональная холдинговая компания Meta&nbsp;(1)&nbsp;— экстремистcкая организация, деятельность обеих запрещена.</p> <a href="https://habr.com/ru/posts/958090/?utm_campaign=958090&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 20 Oct 2025 02:09:18 GMT</pubDate>
    <dc:creator><![CDATA[atomlib]]></dc:creator>
      
      <category><![CDATA[Endless Summer]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[генерация изображений]]></category><category><![CDATA[фотоприложения]]></category><category><![CDATA[генерация фотографий]]></category><category><![CDATA[отпуск]]></category><category><![CDATA[организация труда]]></category><category><![CDATA[996]]></category><category><![CDATA[трудоголизм]]></category><category><![CDATA[Superintelligence Labs]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @titulusdesiderio — Искусственный интеллект (+2) — 22.09.2025 19:42]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/949500/</guid>
    <link>https://habr.com/ru/posts/949500/?utm_campaign=949500&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>ImageSorcery 06</strong> - MVP</p><blockquote><p>Это серия постов от идеи ImageSorcery до 100+ звёзд на гитхабе и ~100 ежедневных установок с PyPi.</p><p><strong>ImageSorcery 01</strong>&nbsp;-&nbsp;<a href="https://habr.com/ru/posts/942330/" rel="noopener noreferrer nofollow">Как я свой open source вайбкодил</a><br><strong>ImageSorcery 02</strong>&nbsp;-&nbsp;<a href="https://habr.com/ru/posts/942794/" rel="noopener noreferrer nofollow">Превращение ImageWizard в ImageSorcery</a><br><strong>ImageSorcery 03</strong>&nbsp;- <a href="https://habr.com/ru/posts/943416/" rel="noopener noreferrer nofollow">шаг за шагом: PoC, Initial commit</a>  <br><strong>ImageSorcery 04</strong> - <a href="https://habr.com/ru/posts/944368/" rel="noopener noreferrer nofollow">README.MD</a><br><strong>ImageSorcery 05</strong> - <a href="https://habr.com/ru/posts/945176" rel="noopener noreferrer nofollow">автотесты; просто покажи ему пример</a></p><p>По результатам предыдущих приседаний с ИИ у нас на руках прототипы <code>detect</code>, <code>crop</code> и <code>get_metainfo</code> - функций на python, которые понадобятся ИИ агенту чтобы выполнить задачу вроде “вырежи здание на этом фото”. Также у нас уже есть git репозиторий с работающим MCP сервером подключенным в Cline. С полным покрытием одного единственного tool <code>hello_world</code> тестами формата e2e на pytest. И линтер rufus. </p></blockquote><p>Приступаю к тулзам. По одной за шаг. С покрытием тестами и актуализацией README. От самой простой <code>get_metainfo</code> к самой сложной <code>detect</code>. Благо есть работающие реализации от PoC, которые нужны были как пример и подстраховка.</p><blockquote><p>“Изучи @README.MD и следуй правилам работы с кодом от туда. Прочитай код <code>hello_world</code> tool и тесты на него. Прочитай код прототипа <code>get_metainfo/crop/detect</code>. Реализуй соответствующий tool. Напиши тесты. Актуализируй README. <strong>Не завершай задачу пока все тесты не пройдут, а также линтер.</strong>”</p></blockquote><p>С реализацией проблем конечно уже не было, вот с тестами detect снова пришлось повозиться. Лентяй Gemini flash решил, что если <code>detect</code> tool запускается и возвращает хоть что-то - этого уже достаточно. Пришлось гонять его и в хвост и в гриву чтобы были написаны позитивные и негативные сценарии и прочие едж кейсы.</p><p>Каждый отдельный тул разумеется коммитил.</p><p>Где-то в процессе обнаружил что тесты на объявление tool могут быть также достаточно подробными. И самое главное - результаты <code>crop</code> (сохранение файла) оказывается есть в <code>/tmp/pytest/</code>.&nbsp; Это означало что я могу проверять тесты, которые работают с изображениями, а не слепо доверять их коду и статусу passed. Это меня в будущем много раз выручит. Например, когда при реализации <code>blur</code> для теста генерировался полностью черный квадрат и после выполнения <em>blur</em> контрольный пиксель проверялся на соответствие цвета заблюренному черному - черному 🤦. С точки зрения алгоритма всё идеально - не прикопаешься 😅 А я глядя на два одинаковых черных квадрата ржал в голосину. Пришлось заставить его тестировать на шахматке.</p><figure class=""><img src="https://habrastorage.org/getpro/habr/upload_files/59c/178/565/59c1785658e5ad08f7a00f95ed56866a.png" alt="blur области поверх шахматки" title="blur области поверх шахматки" width="400" height="300"><div><figcaption>blur области поверх шахматки</figcaption></div></figure><p>Шаг выполнен ✅</p><p>Теперь у меня был MCP сервер, который позволял подключенному к нему MCP клиенту вроде Cline выполнить заветное “вырежи с этого фото собаку”. Был ведь?&nbsp;...</p><p>В дев сборке всё работало. Но если я хотел публиковать это как MVP, мне нужно было убедиться, что те, кто найдут его на просторах гитхаба, смогут им воспользоваться. В будущем мне понадобится опубликовать пакет на pypi, но на данном этапе нужно было убедиться что хотя бы через клонирование репозитория всё заведётся.</p><p>Я удалил MCP из Cline, склонировал репу в новую директорию и попросил Cline доустановить, подключить и проверить.&nbsp;</p><p>🫠 Разумеется ничего не заработало в этом моем стейдже.</p><p>Оказывается <a href="https://docs.ultralytics.com/models" rel="noopener noreferrer nofollow">модели Ultralytics</a> не качаются по неведомой мне причине, когда MCP запущен как процесс(?). Пока я писал прототипы, и запускал detect как отдельный python скрипт, а не как модуль в составе сервера, все нужные мне модели скачались и могли переиспользоваться в последующем. А чистая установка доступа к ним не имела и всё падало.</p><p>Такую нетривиальную проблему конечно же не смогли решить никакие ИИ, но день плотного дебага и глубоких обсуждений с Gemini и параллельно Claude (на всякий случай. По факту ничего такого, чего не знал Gemini он не сказал) привёл меня к реализации <code>–post-installation</code> режима и архитектурному решению с выделением отдельно от tools директории scripts, куда попали скрипты установки и скачивания моделей.</p><p>Теперь ImageSorcery была готова к публикации как MVP!</p><p><em>P.S. если кто-то знает как обойти проблему со скачиванием моделей в рантайме - дайте знать. Я бы очень хотел найти альтернативные решения.</em></p> <a href="https://habr.com/ru/posts/949500/?utm_campaign=949500&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 22 Sep 2025 16:42:04 GMT</pubDate>
    <dc:creator><![CDATA[titulusdesiderio]]></dc:creator>
      
      <category><![CDATA[автоматизация]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[разработка]]></category><category><![CDATA[mcp]]></category><category><![CDATA[mvp]]></category><category><![CDATA[обработка изображений]]></category><category><![CDATA[blur]]></category><category><![CDATA[ultralytics]]></category><category><![CDATA[редактирование изображений]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Ekamelev — Искусственный интеллект (+2) — 21.09.2025 16:47]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/949076/</guid>
    <link>https://habr.com/ru/posts/949076/?utm_campaign=949076&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/ffe/de5/c0b/ffede5c0b28f897239226ad363564f21.png" width="1226" height="816"></figure><p><strong>Упрашивал ChatGPT нарисовать мне картинку с человеком. Ни в какую! Отказывается!</strong></p><p>Сегодня с помощью ChatGPT генерировал картинку к <a href="https://habr.com/ru/articles/931882/" rel="noopener noreferrer nofollow">Норм ЦРМ</a>.</p><p>Я добавил мета-теги, заголовки на двух языках. Ну и картинку, которая будет подтягиваться, когда кто-то будет делиться ссылкой на проект.</p><p>Попросил нарисовать фрилансера-одиночку за уютным домашним рабочим местом. И тут — хопа — отказ. Мол, это не соответствует нашим политикам.</p><p>Тогда попросил нарисовать человека, лица которого мы не видим. Просто фигуру. Снова отказ.</p><p>Затем попросил нарисовать антропоморфного кота. И тоже нельзя.</p><p>Я удивился. Раньше никаких подобных ограничений не было. В итоге попросил сгенерировать картинку без людей, а сам пошёл разбираться, какая нейронка мне теперь подойдёт для этих целей вместо ChatGPT.<br><br>Если что, использую пятую версию с подпиской Plus.</p><p>——<br>Апдейт:<br><br>В комментариях пишут, что никаких ограничений нет.<br><br>Я попробовал сгенерировать в новом диалоге — и тоже ограничений не оказалось.<br><br>А вот внутри папки с проектом — не разрешает по какой-то причине.<br><br>Буду разбираться дальше.</p> <a href="https://habr.com/ru/posts/949076/?utm_campaign=949076&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 21 Sep 2025 13:47:12 GMT</pubDate>
    <dc:creator><![CDATA[Ekamelev]]></dc:creator>
      
      <category><![CDATA[chatgpt]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Hedgehogues — Стандарты связи (+2) — 19.09.2025 16:41]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/948676/</guid>
    <link>https://habr.com/ru/posts/948676/?utm_campaign=948676&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>RFC 9828: стандарт, который, странным образом, опоздал лет на двадцать</strong></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/acc/979/20a/acc97920a02a80a5ad630d12c5593341.png" width="1352" height="1120"></figure><p>JPEG 2000, появившийся ещё в начале нулевых, давно используется в задачах, где требуется высокое качество изображения, а RTP как транспорт для данных реального времени уже более двадцати лет обеспечивает надёжность. Однако, и это удивительно, всё это время отсутствовал формализованный стандарт, позволяющий передавать JPEG 2000 с минимальной задержкой, по кускам кадра, не дожидаясь его полной готовности, — и лишь в 2025 году он был наконец принят. Можно только гадать, почему в мире, где запускают ракеты в космос по подписке, инженеры продолжали смиренно ждать, пока кадр целиком упадёт в буфер.</p><p>Теперь же, с появлением RFC 9828, ситуация меняется: простое на первый взгляд решение — передавать кадр частями, а не целиком, — становится официальной нормой. Как только кодер начинает производить данные, пакеты уже могут быть отправлены в сеть, а приёмник, не дожидаясь окончания всего кадра, начинает сборку изображения. И именно это означает, что впервые JPEG 2000 становится пригодным для таких сценариев, где маркетинговый термин «low latency» оборачивается критическим требованием: телевещание в прямом эфире, дистанционная хирургия или работа со сверхкачественным изображением в реальном времени.</p><p>Вместо прежнего порядка «сначала кадр, затем поток» появляется обратный — «сначала поток, затем кадр». Благодаря этому сеть получает ту самую гибкость, о которой раньше говорили как о недостижимой: лишние уровни разрешения и качества можно отбрасывать на лету, даже не вскрывая содержимое. Приёмник, в свою очередь, обретает resync-точки, благодаря которым потеря пары пакетов больше не превращается в катастрофу, а разработчики, наконец, могут избавиться от бесконечных костылей, изобретённых в обход RFC 5371.</p><p>Выгоды для бизнеса очевидны, хотя каждый сектор формулирует их по-своему. В телевидении по IP режиссёр теперь видит кадр практически сразу, а не спустя полсекунды, и значит — работа в реальном времени перестаёт быть фикцией. В медицине появляется возможность стримить эндоскопию или МРТ с качеством вплоть до lossless и при этом не терять драгоценные секунды, от которых зависит исход операции. Кинопроизводство перестаёт таскать гигабайты по дискам, потому что мастер-кадры наконец-то могут пересылаться по сети. Даже государственные сервисы, включая суды и видеоконференции, приобретают шанс выглядеть не как мем из 2008 года, а как инструмент XXI века.</p><p>Да, пока это лишь бумага. Но, как обычно бывает: сначала RFC, затем — первые SDK и FPGA-решения, а чуть позже — перепакованные в отраслевые документы SMPTE и ITU стандарты. В горизонте двух-трёх лет мы увидим первые реальные внедрения в телевидении и медицине, в горизонте пяти — широкое распространение. А дальше, возможно, даже lossless-видеозвонки без лагов перестанут казаться фантастикой.</p><p>RFC 9828 — это не просто ещё один формат. Это признание индустрии в том, что ждать конца кадра всё это время было, мягко говоря, глупо.</p><p>Ссылки, как обычно, в моём канале</p><p>——————<br><a href="https://t.me/man_and_business" rel="noopener noreferrer nofollow">Менеджер? Давай сюда!</a><br><a href="https://t.me/want_to_it" rel="noopener noreferrer nofollow">Ищи работу здесь</a><br><a href="https://t.me/tales_from_it" rel="noopener noreferrer nofollow">Технологии и архитектура</a></p> <a href="https://habr.com/ru/posts/948676/?utm_campaign=948676&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 19 Sep 2025 13:41:48 GMT</pubDate>
    <dc:creator><![CDATA[Hedgehogues]]></dc:creator>
      
      <category><![CDATA[rtp]]></category><category><![CDATA[бэкенд]]></category><category><![CDATA[стандарты]]></category><category><![CDATA[rfc]]></category><category><![CDATA[протоколы]]></category><category><![CDATA[jpeg]]></category><category><![CDATA[изображения]]></category><category><![CDATA[изображение]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @titulusdesiderio — Обработка изображений (+2) — 03.09.2025 10:17]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/943416/</guid>
    <link>https://habr.com/ru/posts/943416/?utm_campaign=943416&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>ImageSorcery 01</strong>&nbsp;-&nbsp;<a href="https://habr.com/ru/posts/942330/" rel="noopener noreferrer nofollow">Как я свой open source вайбкодил</a><br><strong>ImageSorcery 02</strong>&nbsp;- <a href="https://habr.com/ru/posts/942794/" rel="noopener noreferrer nofollow">Превращение ImageWizard в ImageSorcery</a><br><strong>ImageSorcery 03</strong> - шаг за шагом: PoC, Initial commit</p><blockquote><p>Это серия постов от идеи&nbsp;<a href="https://imagesorcery.net/?utm%5C%5C_source=habr" rel="noopener noreferrer nofollow">ImageSorcery</a>&nbsp;до 100+ звёзд на&nbsp;<a href="https://github.com/sunriseapps/imagesorcery-mcp" rel="noopener noreferrer nofollow">гитхабе</a>&nbsp;и 100+ ежедневных установок с&nbsp;<a href="https://pypi.org/project/imagesorcery-mcp" rel="noopener noreferrer nofollow">PyPI</a>. </p><p>В прошлый серии мы с Gemini 2.0 flash определили стек: python, OpenCV, Ultralytics и никакого ImageMagic.&nbsp;</p></blockquote><p>Начал я как обычно с малого. В Cline попросил своего любимого бесплатного друга Gemini накидать скрипт на python который получает данные о размере (ширина, высота в пикселях) изображения. Дальше больше - скрипт <code>crop</code> который обрезает изображение по указанным аргументам. С последним пришлось повозиться и даже переключиться на Pro версию, благо она тоже бесплатная, пусть и с жёсткими лимитами.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/e5c/9bf/c7a/e5c9bfc7ad89aa558b7a93e9a31a687d.png" alt="😎 one shot изи катка: detect_objects находит координаты объектов, а crop_objects их вырезает" title="😎 one shot изи катка: detect_objects находит координаты объектов, а crop_objects их вырезает" width="1864" height="1080"><div><figcaption>😎 one shot изи катка: detect_objects находит координаты объектов, а crop_objects их вырезает</figcaption></div></figure><p>PoC готов, можно приступать к реализации MVP.</p><p>Как вы помните, в python я тот ещё джун. Так что я не стал рисковать своим любимым бесплатным Gemini flash и даже pro, а сразу переключился в бесплатный браузерный Claude (лучший ии-кодер что тогда, что сейчас) и попросил дать мне подробнейшую инструкцию по разворачиванию проекта который будет имплементировать простейший hello world MCP сервер.</p><p>Нет смысла ваншотить такой проект за раз даже с Claude Opus 4.1. Что он не вывезет, что я не осилю осознать все нюансы за один заход. По этому предпочитаю действовать по комплиментарным шагам, на каждом из которых получать работающий продукт с небольшими изменениями, пока не получу финальный результат.</p><p>Написание инструкции - задача с нечётким ТЗ. Такую никогда нельзя пытаться делать ваншотом. Поэтому сперва получаю первую версию по максимально абстрактному промпту, но дав ей столько контекста сколько смог насобирать в интернете и своей голове. А затем по шагам вычитываю - прошу внести исправления - снова вычитываю - снова прошу исправить и так по кругу пока не получаю результат который я понимаю и к которому у меня нет претензий.</p><p>И так инструкция готова, закидываю её в Cline + Gemini flash и ... получаю ошибку активации. Вы же помните что в python я джун и понятия о venv не имею? Даю ему шанс исправить ошибку самостоятельно, но бесполезно - он не справляется.&nbsp;Откатываю всё назад, переключаю модель на Gemini Pro - результат тот же.&nbsp;Плюю на экономию, переключаю модель на Claude Sonnet - результат тот же, но оно сожрало 3 бакса 🤬</p><p>Плюю на этих бестолковых ИИ и беру дело в свои руки. Рано железякам нас ещё заменять!</p><p>Пол дня бесполезного рыскания по stack overflow и дебага, во время которого я случайно обнаружил, что venv активируется если git bash terminal открыт в отдельном окне, а не внутри VSCode. Оказывается эта шарманка будучи запущенной внутри IDE в пути <code>C:\Users\titulus\work</code> сочетание <code>\t</code> воспринимает как знак табуляции из-за чего пытается активировать venv в <code>C:\Users&nbsp; &nbsp; itulus\work</code> 😵‍💫</p><p>Очевидного решения или даже упоминания этого бага я не обнаружил, так что просто уехал со всем своим проектом в WSL, благо VSCode отлично с ним работает. В Linux окружении, разумеется, таких проблем не возникло. Cline Gemini flash ваншотом по той самой инструкции от Claude создал MCP сервер, самостоятельно к нему подключился (вот за это я его обожаю) и проверил.</p><p>Я завёл git репозиторий и закоммитил initial commit. Первый шаг сделан ✅</p> <a href="https://habr.com/ru/posts/943416/?utm_campaign=943416&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 03 Sep 2025 07:17:34 GMT</pubDate>
    <dc:creator><![CDATA[titulusdesiderio]]></dc:creator>
      
      <category><![CDATA[автоматизация]]></category><category><![CDATA[обработка изображений]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[computervision]]></category><category><![CDATA[computer vision]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[opencv]]></category><category><![CDATA[yolo]]></category><category><![CDATA[mcp]]></category><category><![CDATA[poc]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @titulusdesiderio — $mol — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/942794/</guid>
    <link>https://habr.com/ru/posts/942794/?utm_campaign=942794&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>ImageSorcery 01</strong>&nbsp;- <a href="https://habr.com/ru/posts/942330/" rel="noopener noreferrer nofollow">Как я свой open source вайбкодил</a><br><strong>ImageSorcery 02</strong> - Превращение ImageWizard в ImageSorcery</p><blockquote><p>Это серия постов от идеи <a href="https://imagesorcery.net/?utm%5C_source=habr" rel="noopener noreferrer nofollow">ImageSorcery</a> до 100+ звёзд на <a href="https://github.com/sunriseapps/imagesorcery-mcp" rel="noopener noreferrer nofollow">гитхабе</a> и 100+ ежедневных установок с <a href="https://pypi.org/project/imagesorcery-mcp" rel="noopener noreferrer nofollow">PyPI</a>.</p><p>В прошлый раз мы выяснили, что при правильной настройке бесплатных инструментов, бесплатная LLM Gemini может оказаться не хуже Claude в написании документации. И закончили на вопросе, почему никто раньше не привязал MCP к ImageMagic?</p></blockquote><p><strong>А вот почему</strong></p><p>Первым делом после звонка с Системным Аналитиком я дал Cline в своём VSCode право на запуск команд в терминале. Затем взял первый попавшийся скриншот мобильного приложения и попросил вырезать NavBar используя ImageMagic. Gemini flash вырезал какую-то случайную часть экрана.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/f79/10c/de1/f7910cde1b423332d016149a12337aca.png" alt="crop &quot;на глаз&quot;" title="crop &quot;на глаз&quot;" width="1864" height="1080"><div><figcaption>crop "на глаз"</figcaption></div></figure><p>Я переключился на Gemini pro - результат тот же. o3 от OpenAI и Sonnet от Anthropic также облажались.</p><p>Долго думал. Я знал что все эти модели мультимодальные и наверняка знают что такое NavBar. Тут явно что-то не сходилось. Я полез раскрывать свёрнутые секции их размышлений и обнаружил что:&nbsp;</p><ol><li><p>Все они понимают, что изображено и “видят” NavBar.&nbsp;</p></li><li><p>Никто из них не способен вычислить точные координаты этого NavBar.</p></li><li><p>Они даже размеров изображения не знают.&nbsp;</p></li></ol><p>Из-за чего все они действовали наугад.</p><blockquote><p>Оказывается <strong>LLM не умеют определять точные координаты объектов, которые они видят</strong>, не говоря уже про их точную геометрию.</p></blockquote><p>В этом и крылся ответ на вопрос “а чего раньше это никто не сделал?”.&nbsp;</p><p>С этой дилеммой я пошёл к Gemini. Сокращённая переписка:</p><blockquote><p><strong>👤</strong>: какой аналог <a href="http://npmjs.com" rel="noopener noreferrer nofollow">npmjs.com</a> для питона? <br><strong>🤖</strong>: PyPi</p><p><strong>👤</strong>: у него сайт есть?<br><strong>🤖</strong>: <a href="http://pypi.org" rel="noopener noreferrer nofollow">pypi.org</a> </p><p><strong>👤</strong>: порекомендуй мне 5 - 10 пакетов для распознавания изображений на python моя задача - определять координаты объектов для будущего crop<br><strong>ИИ</strong>: Pillow, OpenCV, scikit-image, TensorFlow Object Detection API, Detectron2, YOLO, Tesseract OCR, SimpleCV, imutils. Рекомендации:<br>1) Начните с OpenCV или scikit-image. <br>2) Если вам нужна более высокая точность или нужно распознавать определенные типы объектов, рассмотрите TensorFlow Object Detection API, Detectron2 или YOLO. <br>3) Используйте Pillow для загрузки, сохранения и предварительной обработки изображений.<br>4) Используйте imutils для упрощения работы с OpenCV.<br>5) Если вам нужно распознавать текст, используйте Tesseract OCR.</p><p><strong>👤</strong>: расскажи подробней про opencv imutils pytorch и yolo<br><strong>🤖</strong>: <br>- <strong>OpenCV</strong> - это фундаментальная библиотека для компьютерного зрения, предоставляющая широкий спектр алгоритмов для обработки изображений и обнаружения объектов.<br>- <strong>imutils</strong> - это набор удобных функций, которые упрощают работу с OpenCV.<br>- <strong>PyTorch</strong> - это мощный фреймворк машинного обучения, который можно использовать для построения и обучения сложных моделей обнаружения объектов.<br>- <strong>YOLO</strong> - это семейство алгоритмов обнаружения объектов в реальном времени, известных своей скоростью и точностью.</p><p><strong>👤</strong>: важный момент. я не хочу обучать модели сам. мне нужен готовый инструмент<br><strong>🤖</strong>: Начните с OpenCV + YOLO от Ultralytics</p></blockquote><p>Как можно заметить, я не силён в python от слова совсем 😅. Но я выбрал его, потому что осведомлён о его большой экосистеме инструментов ML в общем и компьютерного зрения в частности.&nbsp;</p><p>И так стек найден. И с удивлением для меня, места для ImageMagic в нём не нашлось, ведь все необходимые инструменты для обработки уже есть в OpenCV.</p><p><strong>А что стало с названием ImageWizard?</strong></p><p>Тут всё банально. Я погуглил - это название уже занято приложением в сфере обработки изображений с ИИ 🤷. Пришлось найти незанятое. Но постарался оставить отсылку на ImageMagic</p> <a href="https://habr.com/ru/posts/942794/?utm_campaign=942794&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 01 Sep 2025 12:48:37 GMT</pubDate>
    <dc:creator><![CDATA[titulusdesiderio]]></dc:creator>
      
      <category><![CDATA[автоматизация]]></category><category><![CDATA[обработка изображений]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[computervision]]></category><category><![CDATA[computer vision]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[opencv]]></category><category><![CDATA[yolo]]></category><category><![CDATA[imagemagick]]></category><category><![CDATA[mcp]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @titulusdesiderio — Искусственный интеллект (+4) — 30.08.2025 14:30]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/942330/</guid>
    <link>https://habr.com/ru/posts/942330/?utm_campaign=942330&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>ImageSorcery 01</strong> - Как я свой open source вайбкодил</p><p>Скажу честно, я хотел написать статью, для того чтобы рассказать о своём проекте ImageSorcery MCP. Но не хотелось писать рекламный BS о том какой он крутой. Хотелось сделать месседж более личным и искренним. Так статья превратилась в серию постов-заметок о всех тех <s>граблях</s> инструментах и практиках, которые мне удалось попробовать на пути от идеи до 100+ звёзд на гитхабе и ~100 ежедневных установок с pypi. А так как я фанатик экономии, весь стек в основном бесплатный (включая LLM) и часто не самый популярный.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/3e6/1bc/8b3/3e61bc8b37c0f399b13ab035395a02dc.png" alt="Рост звёзд на гитхабе" title="Рост звёзд на гитхабе" width="1832" height="1308"><div><figcaption>Рост звёзд на гитхабе</figcaption></div></figure><p>В компании где я работаю, у меня сложилась репутация, как это принято сейчас говорить, ИИ-энтузиаста. Из-за чего ко мне однажды обратилась Системный Аналитик, которая только начала внедрять RooCode и столкнулась с какой-то проблемой полнейшего тупняка ИИ. Бесплатная веб версия Claude на раз два превращала Верхнеуровневые Бизнес Требования заказчика в детально проработанное Техническое Задание. Но копировать туда-сюда - не продуктивно, а ещё лимиты эти… Решилась она попробовать рекомендованный мною RooCode с Gemini flash. Установила впервые IDE VSCode, запустила и поставила плагин RooCode, подключила Gemini модель и попыталась скормить ему ту же задачу, но в ответ получила какой-то откровенный бред. Вместе мы выяснили, что для адекватной работы RooCode (а ещё его предшественника Cline и, скорее всего, последователя Kilo Code) требуется не просто запустить VSCode, но ещё и создать в нём проект с соответствующей директорий где-то в системе. А если ещё и все материалы сложить в эту директорию - их можно не копипастить и даже не драгндропать, а меньшонить через @ что намного удобней. (Даже мне стало плохо от обилия англицизмов в этом предложении, извините). Кроме того, выяснилось, что промпт содержал помимо текста ещё ссылку на Figma дизайн. А RooCode, несмотря на то что может используя браузер, какую-то осмысленную деятельность с этой ссылкой вести. При наличии у него Figma MCP справляется гораздо эффективнее.</p><p>И теперь бесплатный Gemini flash под капотом RooCode засиял во всей красе. Промпты стали проще и читаемей. И благодаря доступу ко всем необходимым файлам (ВБТ и шаблон) и инструментам, RooCode ваншотом не просто создал качественное ТЗ в формате markdown (привет markdown preview плагин), но ещё и наполнил его нужными скриншотами прямо в теле документа, чего Claude не мог.&nbsp;</p><p>Вот только осталась одна проблема: он использовал скриншоты целых экранов, и не смог их порезать на кусочки для документирования соответствующих секций: шапка, меню т.п.</p><blockquote><p> Фигня война! - сказал я, — наверняка есть MCP который это делает.&nbsp;</p></blockquote><p>Погуглив вместе минут 15 мы обнаружили, что такого нет. Но так как нарезка экранов на скриншоты - привычная для системного аналитика задача, она поблагодарила меня за получившийся результат и убежала на другой звонок. А я остался сидеть глядя в пустой монитор с непониманием, почему такая простая и очевидная задача ещё не решена.</p><p>Так появилась идея <strong>ImageWizard</strong> - взять ImageMagic и прикрутить к нему MCP протокол.</p><p>А почему сейчас проект и называется иначе и никакой связи с ImageMagic не имеет, расскажу в следующей серии.</p><ul><li><p>Репозиторий: <a href="https://github.com/sunriseapps/imagesorcery-mcp" rel="noopener noreferrer nofollow">https://github.com/sunriseapps/imagesorcery-mcp</a></p></li><li><p>Сайт: <a href="https://imagesorcery.net/?utm%5C_source=habr" rel="noopener noreferrer nofollow">imagesorcery.net</a> </p></li></ul> <a href="https://habr.com/ru/posts/942330/?utm_campaign=942330&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 30 Aug 2025 11:30:35 GMT</pubDate>
    <dc:creator><![CDATA[titulusdesiderio]]></dc:creator>
      
      <category><![CDATA[автоматизация]]></category><category><![CDATA[изображения]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[cline]]></category><category><![CDATA[gemini ai]]></category><category><![CDATA[обрезка]]></category><category><![CDATA[редактирование изображений]]></category><category><![CDATA[обрезка изображений]]></category><category><![CDATA[mcp]]></category><category><![CDATA[imagemagick]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @GarantexAi — Искусственный интеллект (+2) — 30.08.2025 12:53]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/942312/</guid>
    <link>https://habr.com/ru/posts/942312/?utm_campaign=942312&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/c4a/b08/0ee/c4ab080ee1eb65d0f95806e069bb0fa5.png" width="1280" height="672"></figure><p><strong>AI-синхронизация губ: от Wav2Lip до коммерческих решений</strong></p><p>Технологии автоматической синхронизации движений губ с аудио перешли от исследовательских проектов к готовым продуктам. Современные сервисы создают реалистичное видео за секунды, где персонаж произносит любой текст с сохранением деталей лица.</p><p><strong>Ключевые прорывы</strong></p><p><strong>Wav2Lip</strong> (2020, IIT Hyderabad) стал первой моделью, работающей без предварительного обучения на конкретном человеке. <a href="https://arxiv.org/abs/2008.10010" rel="noopener noreferrer nofollow">Исследование</a> показало возможность генерации синхронизированного видео на основе GAN-архитектуры с дискриминатором, обученным отличать реальные движения губ от синтетических.</p><p><strong>FaceFormer</strong> от Microsoft Research (2022) применил трансформерную архитектуру. <a href="https://arxiv.org/abs/2112.05329" rel="noopener noreferrer nofollow">Модель</a> использует 6-слойный Transformer для обработки MFCC-признаков аудио и генерирует 768 3D-точек лицевых landmarks с учетом временных зависимостей.</p><p><strong>Коммерческие решения</strong></p><p><strong>Lipsync 2.0</strong> от Sync Labs работает как zero-shot модель без настройки. Поддерживает обработку видео с несколькими говорящими в кадре.</p><p><strong>D-ID Creative Reality Studio</strong> генерирует говорящие аватары из статичных фото, ограничен 5-минутными роликами в базовой версии.</p><p><strong>Synthesia</strong> ориентирована на корпоративный сегмент с готовыми AI-аватарами. Стоимость от $30/месяц за 10 минут видео.</p><p>Технические характеристики</p><p><strong>Производительность:</strong></p><ul><li><p>CPU Intel i7: 1 секунда видео за 30-45 секунд обработки</p></li><li><p>GPU RTX 3060: соотношение 1:3</p></li><li><p>GPU RTX 4090: близко к real-time (1:1.2)</p></li></ul><p><strong>Метрики качества:</strong></p><ul><li><p>LSE-D (точность синхронизации): лучшие модели &lt;8.0</p></li><li><p>SSIM (сохранение деталей): целевое значение &gt;0.85</p></li><li><p>FID (реалистичность): оценка качества генерации</p></li></ul><p>Практические применения</p><p><strong>Стриминговые платформы:</strong> Netflix автоматизирует дубляж сериалов, сокращая локализацию с 3-6 месяцев до 2-3 недель.</p><p><strong>Образование:</strong> Coursera тестирует многоязычные версии курсов с автоматической синхронизацией губ преподавателей.</p><p><strong>Соцсети:</strong> TikTok экспериментирует с автопереводом популярных роликов, YouTube Creator Studio планирует функцию автодубляжа к 2026 году.</p><p>Ограничения</p><p><strong>Качество исходного материала:</strong> требует четкого видео минимум 256×256px с углом поворота головы ±30° от фронтального.</p><p><strong>Языковые особенности:</strong> модели обучены на английском. Для агглютинативных языков (финский, турецкий) точность падает на 15-20%.</p><p><strong>Детекция артефактов:</strong> современные детекторы находят AI-генерацию с точностью до 95% (FakeSpotter — 94.2%, Microsoft Video Authenticator — 91.8%).</p><p>Открытые инструменты</p><ul><li><p><a href="https://github.com/Rudrabha/Wav2Lip" rel="noopener noreferrer nofollow">Wav2Lip GitHub</a> — базовая модель с предобученными весами</p></li><li><p><a href="https://github.com/EvelynFan/FaceFormer" rel="noopener noreferrer nofollow">FaceFormer</a> — трансформерная архитектура</p></li><li><p>Google Colab notebooks для экспериментов без установки зависимостей</p></li></ul><p>Следующее поколение моделей будет работать в реальном времени для видеозвонков и включать генерацию жестов, синхронизированных с речью.</p> <a href="https://habr.com/ru/posts/942312/?utm_campaign=942312&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 30 Aug 2025 09:53:55 GMT</pubDate>
    <dc:creator><![CDATA[GarantexAi]]></dc:creator>
      
      <category><![CDATA[ai]]></category><category><![CDATA[нейросети]]></category><category><![CDATA[Wav2Lip]]></category><category><![CDATA[FaceFormer]]></category><category><![CDATA[липсинк]]></category><category><![CDATA[синхронизация губ]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+3) — 30.08.2025 09:23]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/942238/</guid>
    <link>https://habr.com/ru/posts/942238/?utm_campaign=942238&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен сервис <a href="http://Kira.art" rel="noopener noreferrer nofollow">Kira.art</a>, который позволяет редактировать картинки прямо в чате. Все просто: грузим картинку и описываем, что хотим получить. Никаких кистей, слоёв и прочих инструментов. Можно поменять оттенок глаз на фото, добавить или удалить фон и другие предметы, создать арт или стилизовать пикчу, например, в аниме. Внутри также есть встроенный апскейлер — бустануть качество фото можно в несколько раз. Никаких сложных промптов, диалог идёт на естественном языке.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/e81/481/15b/e8148115b95799ca0a83965a42c20644.jpg" width="1240" height="912"></figure> <a href="https://habr.com/ru/posts/942238/?utm_campaign=942238&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 30 Aug 2025 06:23:43 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Kira.art]]></category><category><![CDATA[Kira]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @yadro_team — Блог компании YADRO (+4) — 28.07.2025 17:31]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/yadro/posts/931778/</guid>
    <link>https://habr.com/ru/companies/yadro/posts/931778/?utm_campaign=931778&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Как мы синхронизировали съемку для возрожденного проекта DPED</strong></p><p>Команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева продолжает рассказывать о работе по возрождению и улучшению DPED (Deep Photo Enhancement Dataset).&nbsp;  </p><p>Мы решили задачи автоматизации, но столкнулись с еще одной проблемой: фото на планшете и камере снимались с некоторой задержкой относительно друг друга. Использование простых пауз (time.sleep) оказалось ненадежно и неэффективно. Тогда мы реализовали многопоточное решение:</p><ul><li><p>Первый поток управляет съемкой с камеры с помощью библиотеки pyautogui.</p></li><li><p>Второй поток управляет съемкой с планшета через ADB.</p></li><li><p>Оба потока обмениваются информацией через очередь (queue.Queue() из стандартной библиотеки Python) — это потокобезопасная структура данных, которая позволяет одному потоку передать сигнал другому. В нашем случае очередь используется для передачи сигнала о начале съемки с камеры. Получив этот сигнал, планшет почти без задержки запускает захват изображения.</p></li></ul><p>В процессе тестирования среднее время задержки составило 50 мс, но разброс данных достигал 93 мс. То есть, существуют случаи, когда мы получаем изображения с непозволительной задержкой в 100 мс и более. Мы отметили этот момент, но продолжили собирать датасет, а изображения с большой задержкой — удалять.</p><p>Скрипт автоматизации съемки кадров:</p><pre><code class="python">import subprocess
from threading import Thread
import pyautogui
import time
from queue import Queue

# координаты для кликов мыши

CAMERA_SHUTTER_BUTTON = (329, 748)    # кнопка затвора в приложении

FOCUS_POINT = (1189, 204)            # точка фокуса или область кадра


def tablet(q):
    time.sleep(0.1)
    if q.get() == 1:
        p = subprocess.Popen(r'.\adb.exe shell', stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
        p.stdin.write(b'input keyevent 27')
        p.stdin.close()

def camera(q):
    pyautogui.click(*CAMERA_SHUTTER_BUTTON)
    pyautogui.moveTo(*FOCUS_POINT)
    q.put(1)
    pyautogui.mouseDown()
    time.sleep(0.02)
    pyautogui.mouseUp()

q = Queue()
thread1 = Thread(target=camera, args=(q,))
thread2 = Thread(target=tablet, args=(q,))
thread1.start()
thread2.start()</code></pre><p>В оригинальной работе DPED точные значения задержки не указывались: авторы фиксировали устройства на механическом стенде и выполняли съемку вручную, без программной синхронизации или последующего анализа временного лага между кадрами. Насколько нам удалось выяснить, синхронизация производилась «на глаз», что не позволяет оценить точность в миллисекундах. Таким образом, можно утверждать, что наша реализация обеспечивает более детерминированный и измеримый результат по синхронизации.</p><blockquote><p><a href="https://habr.com/ru/companies/yadro/articles/930266/" rel="noopener noreferrer nofollow">Читайте в статье</a>, как команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ доводит снимки с планшета&nbsp;YADRO KVADRA_T&nbsp;до качества полупрофессиональной камеры Sony Alpha ILCE 6600.  </p></blockquote> <a href="https://habr.com/ru/posts/931778/?utm_campaign=931778&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 28 Jul 2025 14:31:20 GMT</pubDate>
    <dc:creator><![CDATA[yadro_team (YADRO)]]></dc:creator>
      
      <category><![CDATA[DPED]]></category><category><![CDATA[KVADRA_T]]></category><category><![CDATA[автоматизация съемки]]></category><category><![CDATA[нейросети]]></category><category><![CDATA[улучшение фотографий]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Смартфоны (+3) — 19.07.2025 16:46]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/929196/</guid>
    <link>https://habr.com/ru/posts/929196/?utm_campaign=929196&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Apple выпустила рекламу своей ИИ‑опции Clean Up по&nbsp;стиранию с&nbsp;фото разных объектов. В&nbsp;ролике показано, как&nbsp;можно удалить кота с&nbsp;фото. Изменения можно отменить, что&nbsp;и пришлось сделать герою видео, который решил «стереть» кота со снимка с&nbsp;супругой.</p><iframe id="687ba1271831dee5d74209ca" src="https://embedd.srv.habr.com/iframe/687ba1271831dee5d74209ca" class="embed_video embed__content" allowfullscreen="true"></iframe> <a href="https://habr.com/ru/posts/929196/?utm_campaign=929196&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 19 Jul 2025 13:46:44 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Clean Up]]></category><category><![CDATA[кот]]></category><category><![CDATA[apple]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @yadro_team — Блог компании YADRO (+3) — 15.07.2025 10:19]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/yadro/posts/927798/</guid>
    <link>https://habr.com/ru/companies/yadro/posts/927798/?utm_campaign=927798&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Как улучшить режим ночной съемки с помощью нейросети на примере MEFNet</strong></p><p>Смешивание экспозиций обычно применяют для улучшения изображений при дневной съемке, особенно в условиях яркого солнца. Но мы решили проверить: можно ли адаптировать этот способ для съемки в темноте? Он поможет осветлить изображение и заметно снизить уровень шумов.</p><p>MEFNet — это подход к слиянию изображений с разной экспозицией. Он создан для работы со статическими последовательностями кадров произвольного разрешения и в произвольном количестве. Название MEFNet происходит от термина Multi-Exposure Fusion, то есть «многоэкспозиционное смешивание». Отсюда и сокращение MEF.</p><p>Главная цель MEFNet — извлекать полезные детали как из темных, так и из пересвеченных областей, чтобы сформировать итоговое изображение с хорошим балансом яркости и контраста. При этом метод должен избегать артефактов, характерных для классических алгоритмов.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/1d6/bd2/efb/1d6bd2efbd841afd594925d193a97df5.png" alt="Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., &amp; Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819" title="Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., &amp; Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819" width="1285" height="445"><div><figcaption>Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., &amp; Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819</figcaption></div></figure><p>Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., &amp; Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819</p><p>Алгоритм MEFNet работает следующим образом. На вход подается серия изображений с разной экспозицией — они сначала переводятся в YUV-формат. Далее основная обработка выполняется только по Y-каналу, который отвечает за яркость. Дело в том, что именно яркостный компонент в наибольшей степени определяет структуру и детализацию сцены.</p><p>Затем нужно уменьшить разрешение всех изображений — так сокращаются вычислительные затраты. Полученные кадры поступают в нейросеть, которая генерирует весовые карты для каждого изображения, также в пониженном разрешении. Она обрабатывает серии произвольного пространственного размера и числа экспозиций, а также генерирует карты соответствующего размера и количества. Сеть состоит из семи сверточных слоев с расширенными свертками, которые увеличивают поле восприятия (receptive field) без потери разрешения:&nbsp;</p><ul><li><p>Слои 1–6 используют ядра размером 3×3 с разными коэффициентами расширения (dilation rates): 1, 2, 4, 8, 16, 1. Это позволяет захватывать контекст на разных масштабах.</p></li><li><p>Слой 7 — финальный слой с ядром 1×1, который преобразует фичи в весовые карты.</p></li><li><p>Нормализация — после каждого сверточного слоя (кроме последнего) применяется адаптивная нормализация (AN), сочетающая нормализацию по экземпляру (instance normalization) с обучаемыми параметрами.</p></li><li><p>Активация — используется Leaky ReLU (LReLU) для сохранения структурной информации.</p></li></ul><blockquote><p>Подробнее о MEFNet и других алгоритмах улучшения режима ночной съемки в мобильных устройствах на примере планшета KVADRA_T <a href="https://habr.com/ru/companies/yadro/articles/921980/" rel="noopener noreferrer nofollow">читайте в статье</a> Полины Лукичевой из команды AI ML Kit в YADRO.   </p></blockquote> <a href="https://habr.com/ru/posts/927798/?utm_campaign=927798&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 15 Jul 2025 07:19:07 GMT</pubDate>
    <dc:creator><![CDATA[yadro_team (YADRO)]]></dc:creator>
      
      <category><![CDATA[mefnet]]></category><category><![CDATA[мобильная фотография]]></category><category><![CDATA[ночной режим]]></category><category><![CDATA[kvadra_t]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @DFA-14 — Блог компании Tevian (+4) — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/tevian/posts/927534/</guid>
    <link>https://habr.com/ru/companies/tevian/posts/927534/?utm_campaign=927534&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>В системах видеонаблюдения и видеоаналитики часто приходится иметь дело с кадрами низкого качества. Объект съемки далеко, плохое освещение, ограниченные возможности камеры – и вместо четкой картинки мы получаем лишь набор пикселей. Знакомая ситуация?<br></p><figure class="bordered full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/a7e/031/c3a/a7e031c3a362ee919eb456b601f10356.jpg" alt="&quot;Что тут происходит? 😑&quot;" title="&quot;Что тут происходит? 😑&quot;" width="1878" height="1039"><div><figcaption>"Что тут происходит? 😑"</figcaption></div></figure><div class="floating-image"><p><br><br>Почему это большая проблема?<br><br>Распознать что-либо по такому "размытому квадратику" – серьезный вызов для алгоритмов. Стандартные модели, обученные на четких изображениях, часто теряют эффективность, когда объект занимает по высоте всего 32 пикселя (а то и 10!). Это напрямую влияет на точность работы систем в реальных условиях – будь то поиск автомобиля, предмета или <strong>распознавание лиц</strong>.</p></div><p>В чем сложность?<br><br>Главная трудность – "пропасть" между миром четких картинок (на которых обычно учатся модели) и миром размытых кадров. Алгоритмы плохо переносят знания из одного "мира" в другой.</p><p>Как с этим бороться? </p><p>В <a href="https://habr.com/ru/companies/tevian/articles/921660/" rel="noopener noreferrer nofollow">нашей новой (и первой) статье</a> мы подробно разобрали ключевые подходы к решению такой проблемы в контексте распознавания лиц:</p><p>1. "Дорисовка" деталей: специальные нейросети пытаются увеличить и улучшить размытое изображение <em>перед</em> анализом. Работает, но есть риск "придумать" несуществующие детали.</p><p>2. Адаптация модели: как "подружить" алгоритм с плохим качеством?</p><ul><li><p>Трюки с данными: искусственно ухудшаем хорошие изображения при обучении (сжатие, шум), чтобы модель привыкла к помехам.</p></li><li><p>Дообучение: учим модель на реальных размытых данных. Важно делать это аккуратно, чтобы она не забыла, как работать с четкими изображениями. Помогают методы вроде <a href="https://arxiv.org/pdf/2106.09685" rel="noopener noreferrer nofollow">LoRA</a> (дообучение только маленькой части сети).</p></li><li><p>"Учитель" для "ученика": мощная модель, видящая четкие картинки, учит компактную модель работать с размытыми, передавая свои "знания".</p></li></ul><p>3. <a href="https://kartik-3004.github.io/PETALface/" rel="noopener noreferrer nofollow">PETALface</a>: новый подход, который динамически <em>комбинирует</em> разные "настройки" (<a href="https://arxiv.org/pdf/2106.09685" rel="noopener noreferrer nofollow">LoRA</a>-адаптеры) в модели в зависимости от качества <em>конкретного</em> входящего кадра. Перспективно, но требует дальнейшего изучения.</p><p>Хотите разобраться глубже?<br><br>В <a href="https://habr.com/ru/companies/tevian/articles/921660/" rel="noopener noreferrer nofollow">статье</a> мы подробно разбираем плюсы и минусы каждого подхода, рассматриваем специализированные датасеты (<a href="https://arxiv.org/pdf/1811.08965" rel="noopener noreferrer nofollow">TinyFace</a>, <a href="https://openaccess.thecvf.com/content/WACV2023W/LRR/papers/Cornett_Expanding_Accurate_Person_Recognition_to_New_Altitudes_and_Ranges_The_WACVW_2023_paper.pdf" rel="noopener noreferrer nofollow">BRIAR</a>) и анализируем нюансы свежего метода <a href="https://kartik-3004.github.io/PETALface/" rel="noopener noreferrer nofollow">PETALface</a>.</p><p>Сталкивались ли вы с проблемой низкого разрешения в своих проектах? Какие методы оказались эффективными? Делитесь опытом в комментариях!</p> <a href="https://habr.com/ru/posts/927534/?utm_campaign=927534&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 14 Jul 2025 15:04:30 GMT</pubDate>
    <dc:creator><![CDATA[DFA-14 (Tevian)]]></dc:creator>
      
      <category><![CDATA[низкое качество]]></category><category><![CDATA[низкое разрешение]]></category><category><![CDATA[распознавание лиц]]></category><category><![CDATA[глубокое обучение]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[обработка изображений]]></category><category><![CDATA[deep learning]]></category><category><![CDATA[computer vision]]></category><category><![CDATA[face recognition]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @yadro_team — Блог компании YADRO (+4) — 16.06.2025 15:20]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/yadro/posts/918824/</guid>
    <link>https://habr.com/ru/companies/yadro/posts/918824/?utm_campaign=918824&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Осваиваем азы компьютерного зрения с библиотекой Pillow на одноплатном компьютере Lichee Pi 4A</strong></p><p>Наш первый шаг — загрузить изображение, определить его цветовую модель и получить информацию о размере и границах.</p><pre><code class="python">from PIL import Image
from PIL import ImageFilter
img = Image.open(“flower.jpg”)
print(img.size, img.format, img.mode)</code></pre><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/0a6/862/923/0a68629239d1bd6ccdb97f9f9c18c730.png" width="971" height="777"></figure><p>Эта базовая информация пригодится для дальнейшей работы с изображением.</p><p><strong>Меняем цвет пикселя</strong></p><p>К отдельным пикселям можно обращаться с помощью метода <code>load()</code> из библиотеки Pillow. Так мы сможем изменять цветовые значения точечно, а это основа для различных операций по обработке изображений.</p><p>Открываем white.jpg с помощью Pillow:</p><pre><code class="python">from PIL import Image
img = Image.open("white.jpg")
obj = img.load()</code></pre><p>Выбираем пиксель с координатами (25, 45) и меняем его цвет:</p><p><code>obj[25, 45] = (0, 0, 0)&nbsp; # Новый цвет: черный (RGB: 0, 0, 0)</code></p><p>Сохраняем отредактированное изображение:</p><p><code>img.save("image3.jpg")</code></p><p>Визуально проверяем, что цвет пикселя изменился.&nbsp;</p><p>Метод <code>load()</code> позволяет напрямую работать с массивом пикселей изображения: читать, модифицировать и анализировать отдельные элементы, не копируя данные в отдельные структуры. Это особенно важно для задач, которые требуют высокую производительность при обработке больших изображений.</p><blockquote><p>Почему был выбран Lichee Pi 4A, как создать виртуальное окружение Python, установить подходящую среду разработки и научиться базовым приемам работы с изображениями — <a href="https://habr.com/ru/companies/yadro/articles/912872/" rel="noopener noreferrer nofollow">читайте в подробном туториале</a>. </p></blockquote> <a href="https://habr.com/ru/posts/918824/?utm_campaign=918824&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 16 Jun 2025 12:20:00 GMT</pubDate>
    <dc:creator><![CDATA[yadro_team (YADRO)]]></dc:creator>
      
      <category><![CDATA[lichee pi 4a]]></category><category><![CDATA[pillow]]></category><category><![CDATA[обработка изображений]]></category><category><![CDATA[python]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[risc-v]]></category><category><![CDATA[yolox]]></category><category><![CDATA[одноплатный компьютер]]></category><category><![CDATA[sbc]]></category><category><![CDATA[matplotlib]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+2) — 11.06.2025 23:13]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/917776/</guid>
    <link>https://habr.com/ru/posts/917776/?utm_campaign=917776&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен сервис для удаления фона с необычным дизайном — ваша фотка буквально отправляется в стирку. Работает просто: закидываете картинку в машину, пару секунд наблюдаете за гипнотизирующим барабаном и забираете PNG-шку. Дизайнеры познают дзен — <a href="https://tools.dverso.io/bgremove/" rel="noopener noreferrer nofollow">здесь</a>.</p><iframe id="6849e31c324f0deba45e3291" src="https://embedd.srv.habr.com/iframe/6849e31c324f0deba45e3291" class="embed_video embed__content" allowfullscreen="true"></iframe> <a href="https://habr.com/ru/posts/917776/?utm_campaign=917776&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 11 Jun 2025 20:13:46 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[сервис]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+2) — 01.05.2025 14:43]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/906292/</guid>
    <link>https://habr.com/ru/posts/906292/?utm_campaign=906292&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен <a href="https://www.hirox-europe.com/gigapixel/girl-with-a-pearl-earring/" rel="noopener noreferrer nofollow">проект сканирования</a> в&nbsp;разрешении 108B (108 Gigapixel) одной из&nbsp;наиболее известных картин нидерландского художника Яна Вермеера&nbsp;— «Девушка с&nbsp;жемчужной серёжкой» (нидерл. Het meisje met de parel). На скане картины можо рассмотреть каждый небольшой мазок и саму мелкую трещинку.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/dbb/e89/da8/dbbe89da81f10ba00f448c7ce2a3aa95.png" width="1862" height="898"></figure> <a href="https://habr.com/ru/posts/906292/?utm_campaign=906292&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 01 May 2025 11:43:38 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Девушка с жемчужной серёжкой]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Capitan_grach — Открытые данные (+4) — 25.04.2025 16:40]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/904496/</guid>
    <link>https://habr.com/ru/posts/904496/?utm_campaign=904496&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Как автоматизировать распознавание текста с изображений?</strong></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/707/e27/314/707e2731432c9c6de377676386c25df3.jpg" width="1280" height="375"></figure><p>В открытых источниках часто встречаются изображения с ценным текстом — скриншоты рабочих столов и приложений, фотографии таблиц, чеков, рукописных заметок и т.д. Сбор обычного текста автоматизировать легко, но с текстом на картинках начинаются сложности.</p><p>Раньше в моём арсенале был только <strong>pytesseract </strong>(Python-библиотека для распознавания текста). Она работала, но с серьёзными ограничениями:<br> ➖Плохо справлялась с разными шрифтами<br> ➖Теряла точность на низкокачественных изображениях<br> ➖Путала языки, если текст был мультиязычным</p><p>Сейчас появились <strong>LLM-модели</strong>, которые справляются с этой задачей гораздо лучше, но если у вас нет мощного железа, запустить их локально не получится.</p><p>В профильных каналах регулярно пишут: <em>«Вышла модель Х, которая показывает отличные результаты. OSINT-еры больше не нужны!»</em>, но никто не дает гайдов, как с этими моделями работать. Сегодня я это исправлю.</p><p><strong>Обзор моделей для OCR</strong><br>Прошерстив не один десяток источников, я выделил две наиболее популярные на текущий момент модели:<br> 1️⃣ GPT-4 mini — высокая точность, но платная.<br> 2️⃣ Google Gemini 2.0 Flash — высокая точность + бесплатный лимит.</p><p>Выбор без раздумий пал на <strong>Gemini</strong>. На момент публикации бесплатные лимиты от Google следующие:<br> ✔️ 15 запросов в минуту<br> ✔️ 1 млн токенов в минуту (ввод + вывод)<br> ✔️ 1 500 запросов в сутки</p><p><strong>Как взаимодействовать с Gemini?</strong><br> 1️⃣ Получаем API-ключ в <a href="https://aistudio.google.com/" rel="noopener noreferrer nofollow">Google AI Studio</a><a href="https://aistudio.google.com/)%EF%BF%BC" rel="noopener noreferrer nofollow"><br></a> 2️⃣ Через API отправляем изображение в base64 + промпт<br> 3️⃣ Получаем распознанный текст в ответе</p><p>Но есть важный нюанс: сервис <strong>не работает с российскими IP</strong></p><p><strong>Что делать, если Gemini недоступна?</strong><br>Если у вас по какой-то причине нет возможности получить доступ к серверам  Google AI Studio, то можно воспользоваться сервисами, которые предоставляют доступ к различным open-source моделям. Например, <a href="https://deepinfra.com/" rel="noopener noreferrer nofollow">DeepInfra</a>.<a href="https://deepinfra.com/)%EF%BF%BC" rel="noopener noreferrer nofollow"><br></a> Плюсы:<br> ✔️ Нет блокировок по геолокации<br> ✔️ Гибкая тарификация<br> Минусы:<br> ✖️ Нет бесплатного тарифа</p><p>Примеры скриптов выложил на github (<a href="https://github.com/vmtest439/britalb_ocr" rel="noopener noreferrer nofollow">https://github.com/vmtest439/britalb_ocr</a>)</p><p>Если вам понравился пост и вы хотите читать больше подобного контента, то можете подписаться на мой&nbsp;<strong><a href="https://t.me/ru_vm" rel="noopener noreferrer nofollow">авторский Telegram-канал BritLab</a></strong>!  </p> <a href="https://habr.com/ru/posts/904496/?utm_campaign=904496&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 25 Apr 2025 13:40:08 GMT</pubDate>
    <dc:creator><![CDATA[Capitan_grach]]></dc:creator>
      
      <category><![CDATA[анализ изображений]]></category><category><![CDATA[osint]]></category><category><![CDATA[osint tools]]></category><category><![CDATA[изображения]]></category><category><![CDATA[llm]]></category><category><![CDATA[python]]></category><category><![CDATA[ocr]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @yadro_team — Блог компании YADRO (+2) — 10.04.2025 18:19]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/yadro/posts/899700/</guid>
    <link>https://habr.com/ru/companies/yadro/posts/899700/?utm_campaign=899700&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Верните мой 2007-й: превращаем старые фотки в снимки с зеркалок с помощью ИИ</strong></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/a3f/c94/42d/a3fc9442d49106fa9a340bfb7f661c4a.png" width="1560" height="585"></figure><p>Однажды группе ИИ-энтузиастов пришла идея: а что если обучить искусственный интеллект улучшать смартфонные снимки до профессиональных с помощью парных фотографий? Задумка понравилась. Для сбора датасета выбрали актуальные в то время Sony Xperia Z, iPhone 3GS, BlackBerry Passport и цифровую зеркалку Canon EOS 70D в качестве эталона. Модель обучили улучшать фотографии, сделанные на смартфонах, в соответствии с такими же изображениями, полученными с камеры. Проект реализовали, исходный код опубликовали&nbsp;на GitHub, а подробное описание —&nbsp;на&nbsp;arXiv.org. Но что же в нем интересного сейчас, почти десять лет спустя?</p><p>DPED не просто применяет косметические фильтры. Датасет способен значительно улучшать фотографии на уровне структуры изображения, детализации, динамического диапазона и цветопередачи, приближая результат именно к профессиональной зеркальной фотокамере, а не просто «улучшая» фото.</p><p>Открытый исходный код и доступность датасета DPED позволяют легко адаптировать, изменять и дорабатывать модель. Это дает большие возможности исследовательскому сообществу и разработчикам мобильных приложений. Именно гибкость и понятность архитектуры делают DPED хорошим кандидатом для дальнейших экспериментов и улучшений.</p><blockquote><p>В своей <strong><a href="https://habr.com/ru/companies/yadro/articles/895084/" rel="noopener noreferrer nofollow">статье</a></strong> команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева запустила DPED на свежих версиях софта, преодолев все проблемы совместимости, и попробовала через него улучшить фото с современного планшета.</p></blockquote> <a href="https://habr.com/ru/posts/899700/?utm_campaign=899700&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 10 Apr 2025 15:19:52 GMT</pubDate>
    <dc:creator><![CDATA[yadro_team (YADRO)]]></dc:creator>
      
      <category><![CDATA[искусственный интеллект]]></category><category><![CDATA[нейросети]]></category><category><![CDATA[улучшение фотографий]]></category><category><![CDATA[ssim]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @NickDoom — Обработка изображений (+1) — 28.02.2025 04:19]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/886558/</guid>
    <link>https://habr.com/ru/posts/886558/?utm_campaign=886558&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Итак, пятница уже не первый час шагает по глобусу, поэтому держите свеженький выстрел в мозги ;)</p><p>Недавнее обсуждение «<a href="https://habr.com/ru/companies/ruvds/articles/883606/comments/#comment_27966144" rel="noopener noreferrer nofollow">тыкательного принтера»</a>, естественно, не может не будить в пытливых умах вопрос, как бы повысить его скорость печати? Не избежал этой участи и я. Физически всё просто — надо поменьше отрывать тяжёлую ручку от бумаги и рисовать как можно более длинными штрихами. Но как разбить произвольное изображение на штрихи?</p><p>Разумеется, решение для искусственно самоограниченной задачи, когда ручка движется строго по горизонтали и бумага после каждого прохода подаётся на один диаметр шарика ручки — элементарное. Берём RLE и Флойда-Стейнберга, за 15 минут пишем этот код:</p><pre><code class="cpp">#define	SQUARE(x) ((x)*(x))
#define	MAXERROR 256	//for RLE

static unsigned char Grayscale8Bit[HEIGHT][WIDTH], Dithered8Bit[HEIGHT][WIDTH];
static signed short AdditionalError[2][WIDTH];

тут мы читаем из файла Grayscale8Bit, этот код я приводить не буду

	memset (AdditionalError, 0, 2*WIDTH*sizeof(short));	//Even/odd lines buffer
	for (int y=0; y&lt;HEIGHT; y++)
	{
		int RLEError=0;
		int PenColor = 255*(Grayscale8Bit[y][0]&gt;127);	//Pen color can be either 0 or 255
		for (int x=0; x&lt;WIDTH; x++)
		{
			int PixelValue = (int)Grayscale8Bit[y][x] + AdditionalError[y&amp;1][x];	//Exact pixel value plus Floyd-Steinberg error from the prev. line
			RLEError += SQUARE (PixelValue - PenColor);	//To avoid missing contrast details such as thin vertical lines, RLE error counted as square.
			if (RLEError &gt; SQUARE (MAXERROR))
			{
				PenColor = 255-PenColor;		//Inverse pen position (up/down)
				RLEError = SQUARE (PixelValue - PenColor);	//Begin counting new RLE error immediately
			}
			Dithered8Bit[y][x]=PenColor;		//Put proper color into the output array
			AdditionalError[!(y&amp;1)][x] = (PixelValue - PenColor)/2;		//Put remaining error into next line buffer, not exactly Floyd-Steinberg but sort of.
			if (x) AdditionalError[!(y&amp;1)][x-1] = (PixelValue - PenColor)/4;
			if (x&lt;WIDTH-1) AdditionalError[!(y&amp;1)][x+1] = (PixelValue - PenColor)/4;
		}
	}

тут мы пишем в файл Dithered8Bit, этот код тоже у каждого свой получится</code></pre><p>Код без каких-либо капризов, отладки и подбора параметров сразу выдаёт результат:</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/372/3cf/937/3723cf937a9c79b948fe85fa00aa57fe.jpg" alt="Сверху, как нетрудно догадаться, оригинал." title="Сверху, как нетрудно догадаться, оригинал." width="800" height="1200"><div><figcaption>Сверху, как нетрудно догадаться, оригинал.</figcaption></div></figure><p>Ну то есть задача в её куцем виде — совсем детская. Там не то что думать не пришлось, даже ошибиться негде было. Но и результат тоже, мягко говоря, так себе.</p><p>Ну а теперь вот вам по случаю пятницы головоломка: как полностью реализовать потенциал не одной, а двух степеней свободы нашего привода, да ещё с учётом того, что скорость протяжки бумаги и скорость вошканья каретки в общем случае друг другу не равны, а проходить ручкой по одному месту больше одного-двух раз — нежелательно, бумага не чугунная. Мучайтесь и ломайте головы над возможными алгоритмами такого вот обхода растра ;)</p><p>Спойлер, но вы его сразу не читайте, чтобы не сбиться со <strong>своих</strong> мыслей:<span class="habrahidden"> я бы, наверное, обошёл сначала изолинии крупных элементов, разбивая пространство между ними на более или менее густые штриховки, а потом уже прикинул бы ошибку и добавил-убавил штрихи сообразно мелким деталям. Перо, идущее вдоль изолиний — в общем случае довольно хорошая идея, когда надо не убить разборчивость изображения, а то даже ещё и усилить её. Но, правда, это касается только фотореалистичных изображений, а в задаче-то у нас произвольные.</span></p> <a href="https://habr.com/ru/posts/886558/?utm_campaign=886558&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 28 Feb 2025 01:19:15 GMT</pubDate>
    <dc:creator><![CDATA[NickDoom]]></dc:creator>
      
      <category><![CDATA[векторизация растровых изображений]]></category><category><![CDATA[пятничное]]></category><category><![CDATA[головоломки]]></category><category><![CDATA[пища для ума]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+1) — 20.01.2025 07:05]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/874840/</guid>
    <link>https://habr.com/ru/posts/874840/?utm_campaign=874840&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Сервис <a href="https://itoa.hex.dance/" rel="noopener noreferrer nofollow">ITOA: Image to ASCII Converter</a> <strong> </strong>превращает любое изображение в ASCII-картинку — в цвете или монохроме. Результат можно сохранить в символах или в PNG.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/098/c6e/102/098c6e10208cc7aa909fd57c347fe950.jpg" width="2000" height="1611"></figure><p></p> <a href="https://habr.com/ru/posts/874840/?utm_campaign=874840&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 20 Jan 2025 04:05:10 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Image to ASCII Converter]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @yadro_team — Блог компании YADRO (+4) — 19.12.2024 15:33]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/yadro/posts/868046/</guid>
    <link>https://habr.com/ru/companies/yadro/posts/868046/?utm_campaign=868046&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Трудно найти в темной комнате документ, особенно если его там нет</strong></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/d78/9b3/bc0/d789b3bc065dca88c88a9d6008585431.jpg" width="804" height="429"></figure><p>Представим, что нам нужно сделать нормальное фото документа, но положить листик как в сканере — более-менее ровно, в фокусе, под достаточным и равномерным светом — мы не можем. Поможет ли здесь ИИ? Конечно, если мы научим его решать некоторые вопросы, например:</p><ul><li><p>Есть ли вообще документ на фото?</p></li><li><p>А это лист А4 или микроволновка?</p></li><li><p>Если есть, где его границы?</p></li><li><p>Если границы кривые, как их выпрямить?</p></li><li><p>А это документ или тень от документа?</p></li></ul><p>Команда YADRO прошла этот квест, начав с простых CV-алгоритмов. По пути собрали свою нейросеть, а также инструмент для создания подходящих датасетов на основе модификации ControlNet для Stable Diffusion. В результате планшет Kvadra_T научился определять документы в реальном времени — прямо в приложении камеры.</p><blockquote><p>Все подробности развития проекта, включая схемы реализации и подробные параметры обучения, — <a href="https://habr.com/ru/companies/yadro/articles/865470/" rel="noopener noreferrer nofollow"><u>в статье Владислава</u></a><u>,</u> CV Engineer YADRO.&nbsp;</p></blockquote><p></p> <a href="https://habr.com/ru/posts/868046/?utm_campaign=868046&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 19 Dec 2024 12:33:37 GMT</pubDate>
    <dc:creator><![CDATA[yadro_team (YADRO)]]></dc:creator>
      
      <category><![CDATA[computer vision]]></category><category><![CDATA[нейронные сети]]></category><category><![CDATA[нейросети]]></category><category><![CDATA[глубокое обучение]]></category><category><![CDATA[поиск объектов]]></category><category><![CDATA[детекция]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Ruslan_nsk54 — Обработка изображений — 10.11.2024 11:35]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/857380/</guid>
    <link>https://habr.com/ru/posts/857380/?utm_campaign=857380&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Мини-гайд: что делать, если не загружается изображение в статью на Хабре.</strong></p><p>При публикации статьи на Хабре, и на других платформах, я столкнулся с проблемой загрузки некоторых изображений — при загрузке изображения выходила "Неизвестная ошибка". Как оказалось, проблема состоит в том, что алгоритмы серверов платформ не пропускают изображения, так как определяют их как вредоносными.</p><p><strong>Как решить проблему?</strong></p><p><strong>Способ 1.</strong> Отправьте изображение себе в Telegram в виде файла (без сжатия). Далее скачайте изображение из телеги. Предварительно удалите исходное изображение с компьютера.</p><p><strong>Способ 2.</strong> Прогоните изображение через любую онлайн-ужималку.</p><p>После изображение можно будет загружать в статью.</p><p></p> <a href="https://habr.com/ru/posts/857380/?utm_campaign=857380&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 10 Nov 2024 08:35:03 GMT</pubDate>
    <dc:creator><![CDATA[nick_dyuba]]></dc:creator>
      
      <category><![CDATA[лайфхаки]]></category><category><![CDATA[изображения]]></category><category><![CDATA[статьи]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @yar3333 — .NET (+3) — 11.09.2024 16:23]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/842546/</guid>
    <link>https://habr.com/ru/posts/842546/?utm_campaign=842546&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Вышла новая версия <a href="https://github.com/yar3333/aipainter/" rel="noopener noreferrer nofollow">AiPainter</a>:</p><ul><li><p>поддержка <a href="https://civitai.com/models/618692/flux" rel="noopener noreferrer nofollow">Flux</a> (наверное, лучшая на данный момент модель для генерации изображений);</p></li><li><p>встроенный импорт моделей с <a href="https://civitai.com" rel="noopener noreferrer nofollow">civitai.com</a>;</p></li><li><p>теперь под капотом используется, фактически, официальный бекенд для StableDiffusion моделей - <a href="https://github.com/comfyanonymous/ComfyUI/" rel="noopener noreferrer nofollow">ComfyUI</a>.</p></li></ul><p>Если хотите использовать Flux - готовьте 32 Гб оперативки (и ещё 32 Гб свопа) и 12 Гб видеопамяти. Видеокарта, как обычно, должна быть от NVIDIA.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/bbd/c66/d58/bbdc66d5873f9ca60a24d3c255d5b7da.png" width="1375" height="801"></figure><p></p> <a href="https://habr.com/ru/posts/842546/?utm_campaign=842546&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 11 Sep 2024 13:23:36 GMT</pubDate>
    <dc:creator><![CDATA[yar3333]]></dc:creator>
      
      <category><![CDATA[нейросети]]></category><category><![CDATA[генерация изображений]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @oneastok — Блог компании Selectel (+4) — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/selectel/posts/837778/</guid>
    <link>https://habr.com/ru/companies/selectel/posts/837778/?utm_campaign=837778&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Оптимизация изображений с помощью Image&nbsp;Stack</strong></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/936/362/581/936362581600e0f8b6cc76180a59d577.jpg" width="1200" height="750"></figure><p>Loading… ⏰</p><p>Падают охваты из-за долгой загрузки страниц?</p><p>В мобильных приложениях, соцсетях и на веб-сайтах это может произойти из-за большого количества изображений.</p><p>Image Stack — функция CDN — помогает решить проблему и уменьшить объем передаваемых данных. Инструмент автоматически оптимизирует изображения, улучшает <span class="habrahidden">SEO-результаты</span> и повышает уровень конверсии.</p><p>В новом материале рассказываем, как работает Image Stack, кому он подходит и какие задачи решает. Также оставили инструкцию по подключению функции.</p><p>Читать статью <a href="https://slc.tl/0hliq" rel="noopener noreferrer nofollow">в Академии Selectel→</a></p><p></p> <a href="https://habr.com/ru/posts/837778/?utm_campaign=837778&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 22 Aug 2024 12:00:12 GMT</pubDate>
    <dc:creator><![CDATA[oneastok (Selectel)]]></dc:creator>
      
      <category><![CDATA[select]]></category><category><![CDATA[cdn]]></category><category><![CDATA[cdn-ceрвис]]></category><category><![CDATA[обработка изображений]]></category><category><![CDATA[оптимизация изображений]]></category><category><![CDATA[оптимизация сети]]></category><category><![CDATA[экономия трафика]]></category><category><![CDATA[seo]]></category><category><![CDATA[повышение конверсии]]></category><category><![CDATA[seo-оптимизация]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+3) — 05.08.2024 08:33]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/833738/</guid>
    <link>https://habr.com/ru/posts/833738/?utm_campaign=833738&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>На Олимпиаде-2024 пять тысячных секунды решили исход финала забега на 100 м.</p><p>Согласно фотофинишу, мужскую 100-метровку в нереально плотной развязке выиграл американец Ноа Лайлс, опередил ямайца Кишана Томпсона. У чемпиона&nbsp;9,784 с. </p><p>У серебряного призёра – 9,789 с. </p><p>Согласно правилам, выигрывает забег первый бегун, чей торс пересёк финишную линию.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/5fc/345/795/5fc3457953d3b7380e51c8f0b37fa9de.jpeg" width="3508" height="2480"></figure><p></p> <a href="https://habr.com/ru/posts/833738/?utm_campaign=833738&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 05 Aug 2024 05:33:21 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[олимпиада]]></category><category><![CDATA[финал]]></category><category><![CDATA[100 метров]]></category><category><![CDATA[фотофиниш]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @atomlib — Обработка изображений (+4) — 04.08.2024 17:11]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/833658/</guid>
    <link>https://habr.com/ru/posts/833658/?utm_campaign=833658&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Омар Шехата <a href="https://x.com/DefenderOfBasic/status/1819387234061103296" rel="noopener noreferrer nofollow">поделился</a> одним из своих самых популярных проектов. Это крошечное веб-приложение <strong><a href="https://omarshehata.github.io/jpeg-sandbox/" rel="noopener noreferrer nofollow">JPEG Viewer</a></strong> для демонстрации алгоритмов, которые <a href="https://habr.com/ru/articles/482728/" rel="noopener noreferrer nofollow">работают в формате сжатия JPEG</a>.</p><p>Страница демонстрирует, как изображение разбивается на блоки 8×8 пикселей, каждый из которых затем подвергается алгоритму <a href="https://ru.wikipedia.org/wiki/%D0%94%D0%B8%D1%81%D0%BA%D1%80%D0%B5%D1%82%D0%BD%D0%BE%D0%B5_%D0%BA%D0%BE%D1%81%D0%B8%D0%BD%D1%83%D1%81%D0%BD%D0%BE%D0%B5_%D0%BF%D1%80%D0%B5%D0%BE%D0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5" rel="noopener noreferrer nofollow">дискретного косинусного преобразования</a>. Упрощённо <a href="https://habr.com/ru/articles/206264/" rel="noopener noreferrer nofollow">можно сказать</a>, что каждый из блоков математически преобразуется из двумерного изображения в сигнал, а затем представляется как сумма синусоид. Интересно в инструменте Омара то, что он допускает ручное редактирование преобразования каждого из блоков 8×8 пикселей.</p><iframe id="66af8c244c5bea9d8a7f9a7f" src="https://embedd.srv.habr.com/iframe/66af8c244c5bea9d8a7f9a7f" class="embed_video embed__content" allowfullscreen="true"></iframe><p>Также Омар рекомендует <a href="https://parametric.press/issue-01/unraveling-the-jpeg/" rel="noopener noreferrer nofollow">свою статью</a> про алгоритмы сжатия JPEG, в которой он применил схожие инструменты.</p><p></p> <a href="https://habr.com/ru/posts/833658/?utm_campaign=833658&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 04 Aug 2024 14:11:37 GMT</pubDate>
    <dc:creator><![CDATA[atomlib]]></dc:creator>
      
      <category><![CDATA[веб-приложения]]></category><category><![CDATA[личные проекты]]></category><category><![CDATA[JPEG]]></category><category><![CDATA[алгоритмы сжатия]]></category><category><![CDATA[демонстрации]]></category><category><![CDATA[демки]]></category><category><![CDATA[сжатие изображений]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+4) — 02.08.2024 08:09]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/833268/</guid>
    <link>https://habr.com/ru/posts/833268/?utm_campaign=833268&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Представлен бесплатный <a href="https://huggingface.co/spaces/gokaygokay/AuraSR-v2" rel="noopener noreferrer nofollow">нейроапскейлер AuraSR-v2</a> с бустом разрешения любых изображений в восемь раз. Заливаете шакал — получаете качество профессионального фотоаппарата.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/4a7/a84/86d/4a7a8486d634a583a0e098c8b1fe87e1.jpg" width="703" height="707"></figure><p>Проект работает из браузера, в нём нет рекламы, нет водяных знаков и не требуется кредитов на апскейл.</p> <a href="https://habr.com/ru/posts/833268/?utm_campaign=833268&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 02 Aug 2024 05:09:55 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[AuraSR-v2]]></category><category><![CDATA[ии]]></category><category><![CDATA[апскейлер]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @atomlib — Обработка изображений (+2) — 29.07.2024 10:56]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/832134/</guid>
    <link>https://habr.com/ru/posts/832134/?utm_campaign=832134&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Акиёси Китаока&nbsp;— японский специалист в области экспериментальной психологии, который изучает чужие и создаёт собственные зрительные иллюзиии. В <a href="https://x.com/AkiyoshiKitaoka" rel="noopener noreferrer nofollow">личном микроблоге</a> он публикует примеры подобных изображений и анимаций.</p><p>Вчера Китаока <a href="https://x.com/AkiyoshiKitaoka/status/1817729436634239045" rel="noopener noreferrer nofollow">опубликовал</a> загадку, чем отличаются две с виду полностью одинаковые картинки. Сегодня микроблогер <a href="https://x.com/AkiyoshiKitaoka/status/1817729436634239045" rel="noopener noreferrer nofollow">раскрыл</a> ответ. Верхняя картинка состоит из множества различных оттенков, нижняя&nbsp;— всего из шести цветов различной насыщенности.</p><figure class="full-width "><img src="https://habrastorage.org/webt/oh/ue/0z/ohue0z4txyawyt0soxjgfqefsm4.jpeg" alt="Всего шести цветов было достаточно, чтобы передать всю красочность оригинальной картинки" title="Всего шести цветов было достаточно, чтобы передать всю красочность оригинальной картинки" width="2002" height="1748"><div><figcaption>Всего шести цветов было достаточно, чтобы передать всю красочность оригинальной картинки</figcaption></div></figure><p>Впрочем, сжимать файл это никак <a href="https://x.com/AkiyoshiKitaoka/status/1817775432516993358" rel="noopener noreferrer nofollow">не помогло</a>. Файловый размер изображения сверху составил 2,11&nbsp;МиБ, нижнего&nbsp;— вырос до 2,21&nbsp;МиБ. Китаока не указывает формат данных и размер в пикселях оригинальных фотографий.</p> <a href="https://habr.com/ru/posts/832134/?utm_campaign=832134&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 29 Jul 2024 07:56:40 GMT</pubDate>
    <dc:creator><![CDATA[atomlib]]></dc:creator>
      
      <category><![CDATA[Akiyoshi Kitaoka]]></category><category><![CDATA[Акиёси Китаока]]></category><category><![CDATA[зрительные иллюзии]]></category><category><![CDATA[визуальные иллюзии]]></category><category><![CDATA[сжатие изображений]]></category><category><![CDATA[цвет]]></category><category><![CDATA[цвета]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Обработка изображений (+4) — 23.07.2024 12:01]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/830770/</guid>
    <link>https://habr.com/ru/posts/830770/?utm_campaign=830770&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>На GitHub представлен открытый проект <a href="https://github.com/gcui-art/album-ai" rel="noopener noreferrer nofollow">Album AI</a> для управления с помощью ИИ фотографиями на домашнем ПК.  </p><p>Бесплатный инструмент организует все фото, альбомы и добавляет необходимую метаинформацию. Под капотом у проекта нейросеть ChatGPT-4o-mini.</p><p>Для сортировки изображений Album AI использует распознавание лиц. Из всех фотографий на ПК создаётся локальная база данных PgSQL без доступа извне.</p><iframe id="669f7a4fee339fd48b39a837" src="https://embedd.srv.habr.com/iframe/669f7a4fee339fd48b39a837" class="embed_video embed__content" allowfullscreen="true"></iframe><p></p> <a href="https://habr.com/ru/posts/830770/?utm_campaign=830770&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 23 Jul 2024 09:01:00 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[фото]]></category><category><![CDATA[ПК]]></category><category><![CDATA[ИИ]]></category><category><![CDATA[нейросеть]]></category><category><![CDATA[анализ]]></category><category><![CDATA[Album AI]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @maybe_elf — Искусственный интеллект (+3) — 18.07.2024 11:47]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/829700/</guid>
    <link>https://habr.com/ru/posts/829700/?utm_campaign=829700&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>«Крёстная мать искусственного интеллекта» Фей-Фей Ли <a href="https://www.ft.com/content/0b210299-4659-4055-8d81-5a493e85432f" rel="noopener noreferrer nofollow">основала</a> новый стартап-«единорог» World Labs. Его стоимость превысила $1 млрд.</p><p>В World Labs намерены использовать человеческую обработку визуальных данных, чтобы сделать ИИ способным к продвинутым рассуждениям. </p><p>Ли занималась вопросами компьютерного зрения и возглавила разработку ImageNet, обширной визуальной базы данных. В настоящее время она консультирует рабочую группу Белого дома по ИИ.</p><p>«World Labs разрабатывает модель, которая понимает трёхмерный физический мир; по сути, она видит размеры объектов, где находятся вещи и что они делают», — рассказал анонимный венчурный капиталист, знакомый с работой Ли.&nbsp;</p><p>В апрельском выступлении на Ted Ли объяснила, что её стартап работает над алгоритмами, способными реалистично экстраполировать изображения и текст в трёхмерную среду и действовать на основе этих прогнозов. Она назвала это «пространственным интеллектом». Подобные алгоритмы могут применяться в робототехнике, приложениях AR и VR, а также компьютерного зрения.&nbsp;</p><p>У стартапа прошло два раунда финансирования, а в ходе последнего привлекли около $100 млн. World Labs поддерживают фонды Andreessen Horowitz и Radical Ventures.</p><p></p> <a href="https://habr.com/ru/posts/829700/?utm_campaign=829700&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 18 Jul 2024 08:47:59 GMT</pubDate>
    <dc:creator><![CDATA[maybe_elf]]></dc:creator>
      
      <category><![CDATA[стартап]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[компьютерное зрение]]></category><category><![CDATA[распознавание изображений]]></category><category><![CDATA[пространственные данные]]></category><category><![CDATA[инвестиции]]></category><category><![CDATA[единороги]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @maybe_elf — Социальные сети и сообщества (+2) — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/829522/</guid>
    <link>https://habr.com/ru/posts/829522/?utm_campaign=829522&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Tinder <a href="https://www.tinderpressroom.com/Tinder-R-Unveils-Photo-Selector-AI-Feature-to-Make-Choosing-Profile-Pictures-Easier" rel="noopener noreferrer nofollow">предложил</a> опцию умного выбора фото профиля. Функция Photo Selector на базе искусственного интеллекта будет создавать готовые подборки из лучших снимков пользователя.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/8e5/401/d86/8e5401d86ffdaebffbdc2e5def01836d.jpg" width="1200" height="799"></figure><p>Чтобы использовать Photo Selector, нужно сделать селфи в Tinder и предоставить приложению доступ к фото на устройстве. Опция будет локально использовать распознавание лиц для формирования подборок.</p><p>Цель Photo Selector — помочь пользователям сосредоточиться на «установлении значимых связей», экономя время при составлении профилей знакомств. По данным Tinder, в ходе исследования среди 7000 молодых людей выяснилось, что они тратят в среднем 33 минуты на выбор подходящей фотографии профиля.&nbsp;</p><p>Photo Selector доступна для устройств под управлением iOS и Android, а внедрение в США планируется начать в июле. В других странах опция заработает позднее летом.</p><p></p> <a href="https://habr.com/ru/posts/829522/?utm_campaign=829522&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 17 Jul 2024 12:47:48 GMT</pubDate>
    <dc:creator><![CDATA[maybe_elf]]></dc:creator>
      
      <category><![CDATA[tinder]]></category><category><![CDATA[соцсети]]></category><category><![CDATA[дейтинг-приложения]]></category><category><![CDATA[фотографии]]></category><category><![CDATA[профиль]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[опция]]></category><category><![CDATA[распознавание лиц]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Смартфоны (+3) — 13.07.2024 19:53]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/828654/</guid>
    <link>https://habr.com/ru/posts/828654/?utm_campaign=828654&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Apple представила короткометражный фильм под названием <a href="https://youtu.be/dexkYvIch3s" rel="noopener noreferrer nofollow">¡Suerte!</a>, который полностью снят на iPhone 15 Pro Max. Оператор использовал все преимущества смартфона, такие как 5-кратный оптический зум, киноэффекты и экшн‑режим. В&nbsp;самом фильме рассказана история молодого музыканта Ивана Корнехо, который отправляется в&nbsp;Мексику, чтобы найти вдохновение, а&nbsp;также показаны приключения исполнителя в&nbsp;разных локациях.</p><iframe id="6692b0b2ee339fd48b331d2f" src="https://embedd.srv.habr.com/iframe/6692b0b2ee339fd48b331d2f" class="embed_video embed__content" allowfullscreen="true"></iframe><p>В качестве дополнительных материалов Apple <a href="https://youtu.be/zF6pTNSGph4" rel="noopener noreferrer nofollow">показала</a> на отдельном видео, как проходила съёмка этого фильма.</p><p></p> <a href="https://habr.com/ru/posts/828654/?utm_campaign=828654&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 13 Jul 2024 16:53:36 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[iPhone 15 Pro Max]]></category><category><![CDATA[видео]]></category><category><![CDATA[apple]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+2) — 11.07.2024 07:31]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/828070/</guid>
    <link>https://habr.com/ru/posts/828070/?utm_campaign=828070&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Пользователи <a href="https://www.theguardian.com/politics/article/2024/jul/08/reform-uk-under-pressure-to-prove-all-its-candidates-were-real-people" rel="noopener noreferrer nofollow">приняли</a> кандидата на&nbsp;парламентских выборах в&nbsp;Великобритании от&nbsp;партии Reform UK&nbsp;за&nbsp;генеративный образ, созданный ИИ. Оказалось, что политика неудачно сфотографировали.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/beb/014/95a/beb01495aac8517d4e98502b2bdd3fdd.png" width="1343" height="905"></figure><p>Комментаторы в&nbsp;постах с&nbsp;изображениями Марка Мэтлока задавали вопрос, реальный&nbsp;ли это человек или снимки созданы с&nbsp;помощью  генеративного&nbsp;ИИ. Многие обращали внимание на&nbsp;слишком гладкую, глянцевую кожу политика на&nbsp;фотографиях. </p><p>Для выборов в&nbsp;Великобритании это не&nbsp;единственный случай: руководитель ИИ‑компании использовал генеративный образ, чтобы баллотироваться в&nbsp;парламент. Тот проиграл, набрав всего 179&nbsp;голосов.</p><p>Мэтлок заявил в&nbsp;интервью СМИ, что он&nbsp;всё-таки существует,  а&nbsp;подозрительный внешний вид связан с&nbsp;его здоровьем. «За три дня до&nbsp;выборов я заболел пневмонией, я занимался спортом и принимал витамины, чтобы участвовать в&nbsp;выборах, но&nbsp;это&nbsp;было невозможно. В&nbsp;ночь выборов я даже не&nbsp;мог стоять»,&nbsp;— рассказал он.</p><p>Также Мэтлок показал изданию оригинальную фотографию, которая привлекла внимание пользователей. Фон на&nbsp;снимке был удалён, а&nbsp;цвет его галстука изменили. «Это, по-видимому, хороший урок для всех выборных лиц: не&nbsp;редактируйте свои фотографии таким образом, чтобы они были похожи на&nbsp;результаты Midjourney по&nbsp;запросу «молодой, не&nbsp;угрожающе выглядящий политик»,&nbsp;— посоветовал Мэтлок. </p><p></p> <a href="https://habr.com/ru/posts/828070/?utm_campaign=828070&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 11 Jul 2024 04:31:44 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[ии]]></category><category><![CDATA[фото]]></category><category><![CDATA[обработка]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @anazarta — Блог компании Яндекс (+4) — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/yandex/posts/820183/</guid>
    <link>https://habr.com/ru/companies/yandex/posts/820183/?utm_campaign=820183&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Небольшая, но полезная новость для тех, кто интересуется историей. Мы добавили в <a href="https://yandex.ru/archive" rel="noopener noreferrer nofollow"><u>Поиск по архивам</u></a> новый тип документов — справочники XIX–XX веков из фондов Национальной электронной библиотеки и Российской государственной библиотеки.&nbsp;</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/103/4d5/d6e/1034d5d6e7894a804b9243c557c19c1c.jpeg" width="1280" height="764"></figure><p>Историки, социологи и журналисты смогут получить доступ к новым сведениям об исторических событиях и личностях, а обычные пользователи — ещё больше узнать о своих предках. В новых источниках можно найти биографические факты, которые раньше были доступны только в бумажном виде. Например, памятные книжки содержат списки ключевых персон губерний с их должностями. Из адресных книг можно узнать, где они жили, а из торгово-промышленных справочников — каким делом занимались. </p><p>Для этого нейросеть Яндекса расшифровала почти 600 книг или 275 тысяч страниц. Причём она узнаёт даже утратившие актуальность знаки (например, исчезнувшие из алфавита буквы) и учитывает особенности почерка. А для работы с вёрсткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на бумаге низкой плотности. Кстати, более подробно о нашей технологии мы рассказывали на Хабре в отдельной <a href="https://habr.com/ru/companies/yandex/articles/712510/" rel="noopener noreferrer nofollow"><u>статье</u></a>.</p> <a href="https://habr.com/ru/posts/820183/?utm_campaign=820183&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 07 Jun 2024 08:30:17 GMT</pubDate>
    <dc:creator><![CDATA[anazarta (Яндекс)]]></dc:creator>
      
      <category><![CDATA[яндекс]]></category><category><![CDATA[поиск по архивам]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @zhogar — Обработка изображений (+1) — 29.05.2024 14:56]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/818053/</guid>
    <link>https://habr.com/ru/posts/818053/?utm_campaign=818053&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Automated Stitching of Chip Images</strong></p><p>This is non-destructively inspecting chips with the IRIS (Infra-Red, in-situ) technique.</p><p>Нашел тут весьма забавный блог, по получению топологии микросхем без скальпирования.</p><p>A goal of mine is to give everyday people tangible reasons to trust their hardware. Betrusted is a multi-year project of mine to deliver a full-stack verifiable “from logic gates to Rust crates” supply chain for security-critical applications such as password managers. At this point, many parts of the project have come together: Precursor is an FPGA-based open hardware implementation, and it runs Xous, our Rust-based microkernel message-passing OS.</p><p>Так что кому интересна данная тема, советую посетить и обязательно оставить положительный отзыв автору, он делает по настоящему хорошую работу..</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/773/2f5/bd9/7732f5bd9e794d124e9a2f1dd8772c71.png" alt="(с) bunniestudios.com" title="(с) bunniestudios.com" width="1623" height="1132"><div><figcaption>(с) <a href="https://www.bunniestudios.com/blog/" rel="noopener noreferrer nofollow">bunniestudios.com</a></figcaption></div></figure><p>Сам блог: <a href="https://www.bunniestudios.com/blog/" rel="noopener noreferrer nofollow">https://www.bunniestudios.com/blog/</a> </p><p>Всем удачи!</p><p></p> <a href="https://habr.com/ru/posts/818053/?utm_campaign=818053&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 29 May 2024 11:56:59 GMT</pubDate>
    <dc:creator><![CDATA[zhogar]]></dc:creator>
      
      <category><![CDATA[скальпинг]]></category><category><![CDATA[микросхемы]]></category><category><![CDATA[топология]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+4) — 18.05.2024 19:23]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/815311/</guid>
    <link>https://habr.com/ru/posts/815311/?utm_campaign=815311&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Соучредитель и технический директор OpenAI Грег Брокман <a href="https://x.com/gdb/status/1790869434174746805" rel="noopener noreferrer nofollow">опубликовал</a> изображение, созданное недавно <a href="https://habr.com/ru/news/814051/" rel="noopener noreferrer nofollow">представленной GPT–4o</a>.</p><p>«Изображение, сгенерированное GPT-4o&nbsp;— так много всего, что&nbsp;можно изучить, используя только возможности создания изображений GPT-4o. Команда усердно работает, чтобы представить их миру»,&nbsp;— пояснил Брокман.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/264/c70/540/264c705405a455992e9aa1e7c2617c74.jpeg" width="1536" height="1024"></figure><p>GPT-4o может воспринимать и генерировать звук, изображение и текст и будет доступна всем пользователям бесплатно.&nbsp;</p><p></p> <a href="https://habr.com/ru/posts/815311/?utm_campaign=815311&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 18 May 2024 16:23:33 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[OpenAI]]></category><category><![CDATA[GPT–4o]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Умный дом (+2) — 10.05.2024 19:17]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/813495/</guid>
    <link>https://habr.com/ru/posts/813495/?utm_campaign=813495&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>В официальном магазине Lego в Нью-Йорке установлен специальный сканер, который показывает пошаговую сборку моделей из элементов конструктора и финальный вид игрушек. Нужно поднести к устройству коробку и через несколько секунд система покажет на мониторе сборку конструктора в реальном времени.</p><iframe id="663e4887ee68229db62b5c75" src="https://embedd.srv.habr.com/iframe/663e4887ee68229db62b5c75" class="embed_video embed__content" allowfullscreen="true"></iframe><p></p> <a href="https://habr.com/ru/posts/813495/?utm_campaign=813495&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 10 May 2024 16:17:45 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Lego]]></category><category><![CDATA[сканер]]></category><category><![CDATA[сборка]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Odin_Himself — Урбанизм (+4) — 04.05.2024 19:13]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/812315/</guid>
    <link>https://habr.com/ru/posts/812315/?utm_campaign=812315&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Новый уровень домашней безопасности с AI-системой PaintCam Eve</strong></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/452/d58/e23/452d58e23a636c0cff704b85cf74ecba.png" alt="Камера системы безопасности Eve (PaintCam)" title="Камера системы безопасности Eve (PaintCam)" width="2880" height="1620"><div><figcaption>Камера системы безопасности Eve (PaintCam)</figcaption></div></figure><p><a href="https://www.foxnews.com/tech/ai-powered-home-security-system-strikes-back-with-paintballs-tear-gas" rel="noopener noreferrer nofollow">Компания из Словении, PaintCam, представила новый гаджет в области безопасности - PaintCam Eve</a>. Это не просто еще одна камера слежения.&nbsp;PaintCam Eve оснащена&nbsp;системой отстрела шариков с краской и слезоточивым газом; она может устроить незваным гостям сюрприз, который они не скоро забудут.</p><p>?&nbsp;<strong>Как это работает?</strong></p><p>Сердцем системы Eve является&nbsp;<strong>современная технология компьютерного зрения</strong>.&nbsp;<a href="https://www.foxnews.com/tech/ai-powered-home-security-system-strikes-back-with-paintballs-tear-gas" rel="noopener noreferrer nofollow">Она может идентифицировать лица людей и животных даже при слабом освещении, различая друзей и врагов</a>. Система предлагает три модели: Eve, Eve + и Eve Pro.&nbsp;Они позволяют владельцам домов видеть посетителей через интерфейс приложения.</p><p>?&nbsp;<strong>Контроль и ответственность пользователя</strong></p><p>PaintCam предлагает пользователям значительную степень контроля.&nbsp;Система оповещает владельца дома, когда обнаруживает неизвестного человека в компании известного, спрашивая, следует ли “сделать выстрел” или нет.</p><p>⚖️&nbsp;<strong>Этические и юридические вопросы</strong></p><p><a href="https://www.foxnews.com/tech/ai-powered-home-security-system-strikes-back-with-paintballs-tear-gas" rel="noopener noreferrer nofollow">Использование силы, даже несмертельной, автономной системой может привести к непредвиденным последствиям</a>.&nbsp;Например, что произойдет, если система ошибочно определит соседа или ребенка, забирающего потерянную игрушку, как угрозу? Юридические последствия таких сценариев остаются неясными.</p><p>?&nbsp;<strong>Потенциал и вызовы рынка</strong></p><p><a href="https://www.foxnews.com/tech/ai-powered-home-security-system-strikes-back-with-paintballs-tear-gas" rel="noopener noreferrer nofollow">Ёмкость глобального рынка домашней безопасности оценивается в $106.3 миллиарда к 2030 году</a>.&nbsp;Успех Eve на рынке будет зависеть не только от интереса потребителей, но и от преодоления юридических препятствий и вызовов.<br></p><p></p> <a href="https://habr.com/ru/posts/812315/?utm_campaign=812315&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sat, 04 May 2024 16:13:24 GMT</pubDate>
    <dc:creator><![CDATA[Odin_Himself]]></dc:creator>
      
      <category><![CDATA[камера наблюдения]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[приложение]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+3) — 25.04.2024 18:56]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/810507/</guid>
    <link>https://habr.com/ru/posts/810507/?utm_campaign=810507&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>«Сбер» совместно с&nbsp;нейросетью Kandinsky спасает утерянные картины великих художников, включая Илью Репина. </p><p>Проект Kandinsky в рамках выставки «Возрождённая коллекция» сумел воссоздать 9 полотен из&nbsp;Сталинградской картинной галереи, которые пропали в&nbsp;годы Великой Отечественной войны.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/585/db2/d85/585db2d85e152c5fe3dd7753f154524b.jpg" width="1080" height="1080"></figure><p>В Kandinsky залили чёрно-белые снимки и архивные описания полотен — так ИИ смог восстановить работы Репина, Сурикова, Иванова и других авторов почти в первозданном виде. </p><p>Увидеть их все можно на выставке «Возрождённая коллекция» в Волгограде — как офлайн, так и <a href="https://www.sberbank.com/promo/aiart/choose" rel="noopener noreferrer nofollow">онлайн.</a></p><p></p> <a href="https://habr.com/ru/posts/810507/?utm_campaign=810507&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 25 Apr 2024 15:56:03 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Kandinsky]]></category><category><![CDATA[сбер]]></category><category><![CDATA[картина]]></category><category><![CDATA[история]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @maybe_elf — Искусственный интеллект (+1) — 04.04.2024 12:42]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/805329/</guid>
    <link>https://habr.com/ru/posts/805329/?utm_campaign=805329&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Генератор изображений DALL-E от OpenAI <a href="https://twitter.com/OpenAI/status/1775569161759985737" rel="noopener noreferrer nofollow">получил</a> несколько обновлений, которые помогут редактировать изображения с помощью ChatGPT как в Интернете, так и на мобильных устройствах. Кроме того, в DALL-E 3 появились предустановленные варианты стилей, которые помогут вдохновить на создание изображений.</p><p>Интеграция с ChatGPT избавляет пользователя от необходимости писать новые промты — достаточно задать команду, как при диалоге с ChatGPT.</p><iframe id="660e75d428dfc09d9e12a375" src="https://embedd.srv.habr.com/iframe/660e75d428dfc09d9e12a375" class="embed_video embed__content" allowfullscreen="true"></iframe><p>Также <a href="https://twitter.com/OpenAI/status/1775569163257332169" rel="noopener noreferrer nofollow">стали доступны</a> готовые подсказки (гравюра на дереве, готика, рисование от руки). При наведении на них курсора появляются визуальные примеры.&nbsp;</p><p></p> <a href="https://habr.com/ru/posts/805329/?utm_campaign=805329&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 04 Apr 2024 09:42:53 GMT</pubDate>
    <dc:creator><![CDATA[maybe_elf]]></dc:creator>
      
      <category><![CDATA[openai]]></category><category><![CDATA[dall-e 3]]></category><category><![CDATA[chatgpt]]></category><category><![CDATA[генерация изображений]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[промты]]></category><category><![CDATA[подсказки]]></category><category><![CDATA[редактирование изображений]]></category><category><![CDATA[стили]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Алгоритмы (+3) — 04.04.2024 12:28]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/805317/</guid>
    <link>https://habr.com/ru/posts/805317/?utm_campaign=805317&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Google <a href="https://opensource.googleblog.com/2024/04/introducing-jpegli-new-jpeg-coding-library.html" rel="noopener noreferrer nofollow">представила</a> открытую библиотеку <a href="https://github.com/libjxl/libjxl/tree/main/lib/jpegli" rel="noopener noreferrer nofollow">jpegli</a> с реализацией кодировщика и декодировщика изображений в формате JPEG.</p><p>Библиотека включает дополнительные оптимизации для повышения эффективности кодирования, позволяющие на 35% увеличить степень сжатия высококачественных изображений, по сравнению с традиционными кодеками JPEG. </p><p>В <a href="https://github.com/google-research/google-research/tree/master/mucped23" rel="noopener noreferrer nofollow">сравнении</a> с libjpeg-turbo проект jpegli позволяет добиться аналогичного уровня качества при снижении битрейта на 32%. На уровне API и ABI библиотека полностью совместима с libjpeg62 и может применяться для её прозрачной замены. Код jpegli написан на языке С++ и <a href="https://github.com/libjxl/libjxl/" rel="noopener noreferrer nofollow">распространяется</a> под лицензией BSD. </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/f37/b1f/7c4/f37b1f7c437cf73367fe2d6581281c87.png" alt="" title="" width="700" height="333"></figure><p>Библиотека jpegli позволяет кодировать изображения с выделением 10 и более битов на цветовой компонент. При этом результат работы алгоритмов кодирования адаптируется для традиционной для формата JPEG модели, допускающей использование только 8 бит на цветовой компонент. Подобная особенность позволяет сохранить совместимость с уже  существующими декодировщиками, рассчитанными на 8-битовое представление цветовых составляющих.</p><p>Кодируемые при помощи jpegli изображения полностью соответствуют стандарту JPEG, не&nbsp;требуют специфичных декодировщиков и могут просматриваться в&nbsp;существующих просмотрщиках JPEG и веб‑браузерах. Применение для&nbsp;распаковки изображений, сжатых при&nbsp;помощи jpegli, собственного декодировщика позволяет добиться дополнительного снижения артефактов. Скорость кодирования при&nbsp;помощи jpegli сопоставима с&nbsp;библиотеками libjpeg‑turbo и MozJPEG.</p><p>Источник: <a href="http://www.opennet.ru/opennews/art.shtml?num=60921" rel="noopener noreferrer nofollow">OpenNET</a>.</p><p></p> <a href="https://habr.com/ru/posts/805317/?utm_campaign=805317&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 04 Apr 2024 09:28:15 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[Google]]></category><category><![CDATA[jpegli]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Doctor_IT — Блог компании Selectel (+2) — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/selectel/posts/803061/</guid>
    <link>https://habr.com/ru/companies/selectel/posts/803061/?utm_campaign=803061&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><a href="https://telegra.ph/file/38c87e9098e70250efc0e.jpg" rel="noopener noreferrer nofollow">​​</a><strong>Хотите ускорить доставку контента? </strong>?</p><p><em>Представляем вам новую возможность CDN</em></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/17f/ebe/12c/17febe12cf3e768cc771b1dd5ebfddfc.png" width="1280" height="807"></figure><p>Услуга Image stack сконвертирует изображения из форматов JPG и PNG в WebP или AVIF. Страницы, на которых много медиа-контента, станут загружаться быстрее. При этом изображения не поменяют свои URL и расширение.</p><p>Сжатие изображений — лишь одна из возможностей CDN. Это сеть кэширующих серверов, которые ускоряют доставку контента. Серверы расположены по всему миру, чтобы сокращать время ответа ресурса на запрос пользователя.</p><p><strong>Выгоды использования CDN</strong>:&nbsp;</p><ul><li><p>повышение позиции сайта в поисковой выдаче,&nbsp;</p></li><li><p>экономия на инфраструктуре,&nbsp;</p></li><li><p>постоянная доступность сервиса,&nbsp;</p></li><li><p>защита от DDoS-атак.</p></li></ul><p>Подробнее про работу и подключение CDN <a href="https://selectel.ru/services/additional/cdn/?utm_source=habr.com&amp;utm_medium=referral&amp;utm_campaign=cdn_post_imstack_260324_content" rel="noopener noreferrer nofollow">рассказываем по ссылке →</a></p> <a href="https://habr.com/ru/posts/803061/?utm_campaign=803061&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 26 Mar 2024 16:30:18 GMT</pubDate>
    <dc:creator><![CDATA[Doctor_IT (Selectel)]]></dc:creator>
      
      <category><![CDATA[selectel]]></category><category><![CDATA[cdn]]></category><category><![CDATA[сетевые технологии]]></category><category><![CDATA[обработка изображений]]></category><category><![CDATA[image stack]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Социальные сети и сообщества (+1) — 21.03.2024 21:18]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/802105/</guid>
    <link>https://habr.com/ru/posts/802105/?utm_campaign=802105&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Департамент полиции Калифорнии <a href="https://www.dailymail.co.uk/news/article-13217397/California-law-police-suspects-Lego-pieces.html" rel="noopener noreferrer nofollow">придумал</a> новый способ защитить личности подозреваемых и теперь публикует фотографии преступников, скрывая их лица за головами из Lego. Причём полицейские стараются подбирать голову Lego-человечка для точного описания эмоции преступника.</p><p>В департаменте объяснили, что новый закон Калифорнии от 1 января запрещает им делиться фотографиями и фотографиями подозреваемых в ненасильственных преступлениях, что вынуждает их медиа-команду проявлять творческий подход.</p><figure class="full-width "><img src="https://habrastorage.org/webt/9-/uy/m6/9-uym6ttsgvjtu6vesqj9afbp-o.png" width="628" height="606"></figure><p></p> <a href="https://habr.com/ru/posts/802105/?utm_campaign=802105&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 21 Mar 2024 18:18:24 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[lego]]></category><category><![CDATA[преступник]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @maybe_elf — Искусственный интеллект (+2) — 22.02.2024 17:30]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/795691/</guid>
    <link>https://habr.com/ru/posts/795691/?utm_campaign=795691&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Google временно закрыла опцию генерации изображений людей в Gemini. Ранее выяснилось, что ИИ создаёт неточные исторические изображения.&nbsp;</p><p>«Мы уже работаем над решением недавних проблем с функцией генерации изображений Gemini», — <a href="https://twitter.com/Google_Comms/status/1760603321944121506" rel="noopener noreferrer nofollow">говорится</a> в заявлении компании.&nbsp;</p><p>Теперь модель реагирует на соответствующие запросы так: «Мы работаем над улучшением способности Gemini создавать изображения людей. Ожидается, что эта функция скоро вернётся, мы сообщим вам об этом в обновлениях выпуска».</p><p></p> <a href="https://habr.com/ru/posts/795691/?utm_campaign=795691&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Thu, 22 Feb 2024 14:30:23 GMT</pubDate>
    <dc:creator><![CDATA[maybe_elf]]></dc:creator>
      
      <category><![CDATA[google]]></category><category><![CDATA[gemini]]></category><category><![CDATA[генерация изображений]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[машинное обучение]]></category><category><![CDATA[ошибки]]></category><category><![CDATA[предвзятость]]></category><category><![CDATA[люди]]></category><category><![CDATA[отключение]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @El_Gato_Grande — Блог компании Selectel (+3) — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/companies/selectel/posts/795373/</guid>
    <link>https://habr.com/ru/companies/selectel/posts/795373/?utm_campaign=795373&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Чего ждать от шестой версии Midjourney</strong></p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/e50/7fa/498/e507fa4981581b5f25ba3cac6ba96544.png" width="1344" height="648"></figure><p>С 15 февраля 2024 шестая версия Midjourney является моделью по умолчанию, хотя сами разработчики говорят, что она все еще находится в «раннем доступе».</p><p><strong>Что стало действительно лучше</strong></p><p>✔ Корректное написание слов. Больше никаких «WEILD WELLOLLD» вместо нужного «HELLO WORLD» (правда, с кириллицей и иероглифами еще не все гладко, да и длинные тексты пока даются нейросети с трудом);</p><p>✔ Поддержка консистентных стилей. Теперь можно сгенерировать одну картинку в стиле другой, не учитывая при этом текстовый запрос;</p><p><strong>Что еще требует доработок</strong></p><p>✔ Генерация пальцев. Если центральным объектом изображения будут кисти рук, которые что-то держат, вы можете разочароваться;</p><p>✔ Midjourney все еще не умеет считать. Попросите ее нарисовать 12 котов, и она не только изобразит другое количество, но и с высокой вероятностью сделает коллаж из  отдельных картинок с котиками.</p><p>Если хотите узнать больше и погрузиться в детали нашего знакомства с Midjourney v6, добро пожаловать <a href="https://habr.com/ru/companies/selectel/articles/794927/" rel="noopener noreferrer nofollow">в статью</a>. Здесь мы подробно рассказываем о первом взгляде на новую версию популярной нейросети.</p><p></p> <a href="https://habr.com/ru/posts/795373/?utm_campaign=795373&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 21 Feb 2024 14:19:16 GMT</pubDate>
    <dc:creator><![CDATA[El_Gato_Grande (Selectel)]]></dc:creator>
      
      <category><![CDATA[selecte]]></category><category><![CDATA[midjourney]]></category><category><![CDATA[ai]]></category><category><![CDATA[генерация изображений]]></category><category><![CDATA[нейросети]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Смартфоны (+2) — 12.02.2024 18:16]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/793216/</guid>
    <link>https://habr.com/ru/posts/793216/?utm_campaign=793216&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Производитель <a href="https://twitter.com/UniverseIce/status/1756992656708968625" rel="noopener noreferrer nofollow">готовит</a> для Samsung Galaxy S24 Ultra обновление прошивки, чтобы смартфон стал лучше снимать Солнце. В частности, там будет улучшено качество снимков, когда в объектив попадает солнечный диск. Сейчас вокруг этого элемента возникает заметное затемнение. После обновления такая структура будет убрана.</p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/79c/883/f3a/79c883f3aa267e17ab27ec479911dc81.jpeg" width="1280" height="1063"></figure><p>В марте 2023 года пользователь <a href="https://www.reddit.com/r/Android/comments/11nzrb0/https://habr.com/ru/news/721814//" rel="noopener noreferrer nofollow">обнаружил</a>, что смартфоны Samsung S20 Ultra и новее улучшают детализацию Луны на любых фото с помощью ИИ. Он выяснил, что технология <a href="https://www.samsung.com/ru/video-reviews/obzor-space-zoom/" rel="noopener noreferrer nofollow">Space Zoom</a> это маркетинговый ход, а не способ красиво снять ночью Луну, так как она делает любое фото Луны с низким разрешением красивой картинкой.</p><p></p> <a href="https://habr.com/ru/posts/793216/?utm_campaign=793216&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 12 Feb 2024 15:16:53 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[samsung]]></category><category><![CDATA[смартфон]]></category><category><![CDATA[луна]]></category><category><![CDATA[солнце]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @atomlib — Обработка изображений (+2) — 11.12.2023 18:22]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/779882/</guid>
    <link>https://habr.com/ru/posts/779882/?utm_campaign=779882&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Парейдолия&nbsp;— зрительная иллюзия, когда восприятие обнаруживает объекты, узоры или значения там, где их нет и быть не может. Чаще всего под этим словом понимают то, как мы обнаруживаем человеческие лица в самых неожиданных местах&nbsp;— <a href="https://ru.wikipedia.org/wiki/%D0%9A%D0%B8%D0%B4%D0%BE%D0%BD%D0%B8%D1%8F_(%D0%9C%D0%B0%D1%80%D1%81)" rel="noopener noreferrer nofollow">на снимках Марса</a>, например. Хотя вообще-то это может <a href="https://habr.com/ru/news/713136/" rel="noopener noreferrer nofollow">любой другой объект</a>.</p><p>На странице <strong><a href="https://replicate.com/fofr/sdxl-hidden-faces" rel="noopener noreferrer nofollow">replicate.com/fofr/sdxl-hidden-faces</a></strong> запущен файнтюн для Stable Diffusion&nbsp;XL, который специально заточен для встраивания парейдолии на разные объекты.</p><p>Под «встраивать парейдолии» в данном случае понимается «добавлять лица на фотографии еды». Во всяком случае, в примерах только разнообразные блюда (бургеры, салат, блины и так далее). Впрочем, генерация неплохо работает и для других объектов.</p><figure class="full-width "><img src="https://habrastorage.org/webt/lx/bt/8c/lxbt8c-d3pxq9gtohucpowa1jf8.jpeg" alt="Декорация в виде фонарика на новогодней ёлке" title="Декорация в виде фонарика на новогодней ёлке" width="1024" height="1024"><div><figcaption>Декорация в виде фонарика на новогодней ёлке</figcaption></div></figure><p>Более общий смысл термина не рассматривается. Вообще-то разновидностей парейдолии много: к примеру, в «Гамлете» Шекспира персонажи <a href="http://velchel.ru/index.php?cnt=27&amp;tragedy=ham&amp;part=10&amp;page=6" rel="noopener noreferrer nofollow">разглядывают зверей</a> в облаках, что намекает на скрытые качества героев. Здесь же просто дорисываются два круглых глазика и что-то, похожее на рот.</p><p>Чтобы работало лучше, в промпте приходится явно упоминать <code>pareidolia</code> и <code>hidden face</code>.</p><p></p> <a href="https://habr.com/ru/posts/779882/?utm_campaign=779882&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 11 Dec 2023 15:22:00 GMT</pubDate>
    <dc:creator><![CDATA[atomlib]]></dc:creator>
      
      <category><![CDATA[Stable Diffusion]]></category><category><![CDATA[Stable Diffusion XL]]></category><category><![CDATA[парейдолия]]></category><category><![CDATA[генерация картинок]]></category><category><![CDATA[Replicate]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @denis-19 — Искусственный интеллект (+3) — N/P]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/779708/</guid>
    <link>https://habr.com/ru/posts/779708/?utm_campaign=779708&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>К Новому году диффузионная нейросеть YandexART сгенерирует для пользователей реалистичные изображения ёлочных украшений в нескольких стилях. Ими можно украсить цифровую ёлку на главной странице «Яндекса» ya.ru. </p><p>Погрузиться в атмосферу новогоднего праздника поможет мобильное приложение «Шедеврум», где уже появился специальный режим «Ёлочная игрушка». </p><p>Чтобы украшение по запросу пользователя попало на главную страницу «Яндекса», необходимо сгенерировать изображение игрушки в новом режиме «Шедеврума» и выбрать опцию «Отправить на ёлку» перед его публикацией. Игрушка будет радовать её создателя и других пользователей до окончания праздников. Повесить на ёлку можно только одно украшение. Чтобы его заменить, нужно просто сгенерировать новую игрушку с опцией «Отправить на ёлку». При этом в «Шедевруме» можно создать любое количество новогодних украшений.</p><p>В «Яндексе» пообещали, что каждый участник новогоднего проекта сможет получить подарок: скидку на покупку умных устройств, специальные условия на подписку «Плюс» и повышенный кешбэк баллами, скидка «Маркета», «Лавки», «Еды», «Деливери», «Путешествий» и «Афиши», дополнительный объём хранилища на «Яндекс Диске» и так далее. </p><p>Разработчики пояснили. что «ёлочная игрушка» — первый специальный режим генерации «Шедеврума», который уже доступен всем пользователям. </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/280/237/cf6/280237cf6c90919323729bb232cfcf65.jpg" width="750" height="1256"></figure><p></p> <a href="https://habr.com/ru/posts/779708/?utm_campaign=779708&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 11 Dec 2023 10:32:53 GMT</pubDate>
    <dc:creator><![CDATA[denis-19]]></dc:creator>
      
      <category><![CDATA[яндекс]]></category><category><![CDATA[шедеврум]]></category><category><![CDATA[ии]]></category><category><![CDATA[елка]]></category><category><![CDATA[игрушка]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @atomlib — Смартфоны (+2) — 01.12.2023 13:32]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/777830/</guid>
    <link>https://habr.com/ru/posts/777830/?utm_campaign=777830&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Начиная с прошлого десятилетия смартфоны постепенно <a href="https://www.pcmag.com/news/smartphones-have-officially-crushed-digital-cameras" rel="noopener noreferrer nofollow">уничтожили</a> рынок дешёвых «фотомыльниц». Компактные камеры никому не нужны, поскольку любой телефон умеет фотографировать в схожем качестве.</p><p>Да что фото&nbsp;— в последние годы у шестидюймовых смартфонов получается неплохо конкурировать даже с профессиональной видеоаппаратурой. К примеру, всю свою последнюю презентацию Apple <a href="https://habr.com/ru/news/771186/" rel="noopener noreferrer nofollow">сняла</a> на iPhone&nbsp;15&nbsp;Pro&nbsp;Max.</p><p>Смартфоны вовсю хозяйничают даже там, где раньше требовались «зеркалки». Бороться честно с огромными фотоаппаратами с крупной оптикой и большими матрицами невозможно. Преодолевать недостатки крошечным смартфонам приходится за счёт ухищрений вычислительной фотографии.</p><p>Иногда случаются ошибки.</p><p>К примеру, Тесса Коутс недавно <a href="https://twitter.com/TessaCoates/status/1720466808514257226" rel="noopener noreferrer nofollow">обнаружила</a> изъян камеры iPhone. Британка сфотографировалась в свадебном платье перед двумя зеркалами. Результат напугал островитянку до тошноты: в одном зеркале обе верхние конечности опущены, в другом&nbsp;— сложены у живота, а в реальности она якобы опустила левую руку параллельно туловищу, а другую согнула. Лишь в магазине Apple ей <a href="https://petapixel.com/2023/11/16/one-in-a-million-iphone-photo-shows-two-versions-of-the-same-woman/" rel="noopener noreferrer nofollow">объяснили</a> ситуацию.</p><figure class="full-width "><img src="https://habrastorage.org/webt/s2/h6/4y/s2h64y59ck_omlrw_qpbmugmjk4.jpeg" width="1570" height="2048"></figure><p>Даже для одного снимка iPhone быстро снимает серию фотографий слева направо, а потом выбирает лучшие фрагменты и склеивает всё воедино. Суммарно на фото три версии невесты: одна настоящая, две в отражениях. Вероятно, Тесса двигала руками во время съёмки.</p><p>Консультант магазина заверил, что такие случаи&nbsp;— редкость порядка единицы на миллион.</p><p></p> <a href="https://habr.com/ru/posts/777830/?utm_campaign=777830&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Fri, 01 Dec 2023 10:32:40 GMT</pubDate>
    <dc:creator><![CDATA[atomlib]]></dc:creator>
      
      <category><![CDATA[iPhone]]></category><category><![CDATA[вычислительная фотография]]></category><category><![CDATA[фотография]]></category><category><![CDATA[фото]]></category><category><![CDATA[ошибки]]></category><category><![CDATA[баги]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @maybe_elf — Обработка изображений (+3) — 22.11.2023 11:41]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/775606/</guid>
    <link>https://habr.com/ru/posts/775606/?utm_campaign=775606&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Sony и агентство Associated Press <a href="https://pressroom.pixelshift.studio/sony-electronics-and-the-associated-press-complete-testing-of-advanced-in-camera-authenticity-technology-to-address-growing-concerns-around-fake-imagery" rel="noopener noreferrer nofollow">завершили</a> второй раунд тестирования технологии аутентификации изображения при его создании. Она позволит верифицировать происхождение контента.</p><p>Технология Sony представляет собой машинную цифровую подпись, которая создаётся внутри камеры в момент захвата изображения в аппаратном чипсете.&nbsp;</p><p>Последнее испытание Sony и AP было завершено в октябре 2023 года. В течение месяца стороны оценивали качество аутентификации и удобство работы технологии.&nbsp;</p><p>Ранее Sony заключила соглашение с Camera Bits — компанией, создавшей стандартный инструмент рабочего процесса Photo Mechanic. Совместно с Sony и AP она создала в Photo Mechanic технологию цифровой подписи.</p><p>Встроенную подпись Sony и аутентификацию C2PA планируется реализовать в обновлении прошивки недавно анонсированных камер Alpha 9 III, Alpha 1 и Alpha 7S III, которые выйдут весной 2024 года.</p><p></p> <a href="https://habr.com/ru/posts/775606/?utm_campaign=775606&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Wed, 22 Nov 2023 08:41:01 GMT</pubDate>
    <dc:creator><![CDATA[maybe_elf]]></dc:creator>
      
      <category><![CDATA[sony]]></category><category><![CDATA[associated press]]></category><category><![CDATA[цифровая подпись]]></category><category><![CDATA[изображения]]></category><category><![CDATA[фотографии]]></category><category><![CDATA[камеры]]></category><category><![CDATA[верификация]]></category><category><![CDATA[авторское право]]></category><category><![CDATA[дипфейки]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @Boomburum — Искусственный интеллект (+1) — 14.11.2023 18:21]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/773902/</guid>
    <link>https://habr.com/ru/posts/773902/?utm_campaign=773902&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p><strong>Real-Time Latent Consistency Model</strong> — нейросеть, которая отслеживает движения через веб-камеру и тут же создаёт изображение.</p><ul><li><p>Даём браузерное разрешение на использование камеры;</p></li><li><p>Пишем промпт или используем готовый;</p></li><li><p>Получаем генерацию, которая подстраивается в режиме реального времени.</p></li></ul><p>Изменения в промпт можно вносить на ходу, заглядывание в Advanced options по желанию. Сессия запускается примерно на минуту, иногда выдаётся ошибка о том, что сейчас много пользователей и надо подождать. </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/459/524/168/4595241682197cf7935a6108d989c979.png" width="1796" height="2216"></figure><blockquote><p><a href="https://huggingface.co/spaces/radames/Real-Time-Latent-Consistency-Model" rel="noopener noreferrer nofollow">Попробовать</a></p></blockquote><p></p> <a href="https://habr.com/ru/posts/773902/?utm_campaign=773902&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Tue, 14 Nov 2023 15:21:14 GMT</pubDate>
    <dc:creator><![CDATA[Boomburum]]></dc:creator>
      
      <category><![CDATA[встретилось]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @maybe_elf — Социальные сети и сообщества (+2) — 23.10.2023 09:30]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/769200/</guid>
    <link>https://habr.com/ru/posts/769200/?utm_campaign=769200&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Instagram** <a href="https://www.engadget.com/instagrams-latest-test-feature-turns-users-photos-into-stickers-for-reels-and-stories-211046111.html" rel="noopener noreferrer nofollow">тестирует</a> ИИ-функцию, которая позволит пользователям создавать стикеры из своих фотографий и размещать их в роликах или историях.&nbsp;</p><p>Им будет достаточно выбрать объект на фотографии, а инструмент удалит фон и создаст стикер, который можно будет разместить поверх другого контента.&nbsp;</p><p>Глава компании Адам Моссери кратко продемонстрировал на видео, как это будет работать. </p><figure class="full-width "><img src="https://habrastorage.org/getpro/habr/upload_files/131/2a6/8af/1312a68af20fce86d04d59e19622e041.JPG" width="1281" height="676"></figure><p>Он рассказал, что, помимо создания стикеров из сохранённых в смартфоне фотографий, пользователи смогут выбирать «подходящие изображения в Instagram». Моссери не поделился подробностями, но, вероятно, речь идёт не только о собственных фотографиях пользователей, но и других снимках.</p><p><em><sub>Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:<br>* — признана экстремистской организацией, её деятельность в России запрещена;<br>** — запрещены в России.</sub></em>  </p><p></p> <a href="https://habr.com/ru/posts/769200/?utm_campaign=769200&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Mon, 23 Oct 2023 06:30:10 GMT</pubDate>
    <dc:creator><![CDATA[maybe_elf]]></dc:creator>
      
      <category><![CDATA[instagram]]></category><category><![CDATA[фотографии]]></category><category><![CDATA[стикеры]]></category><category><![CDATA[искусственный интеллект]]></category><category><![CDATA[функция]]></category><category><![CDATA[тестирование]]></category><category><![CDATA[соцсети]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @atomlib — Машинное обучение (+2) — 08.10.2023 17:21]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/766072/</guid>
    <link>https://habr.com/ru/posts/766072/?utm_campaign=766072&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Джарет Баркетт [Jarett Burkett] представил LoRA для Stable Diffusion XL, которая помогает генерировать картинки в стиле инструкций «ИКЕА».</p><p>К многим предметам нидерландской компании приложены инструкции по сборке, выполненные в характерном стиле. Для простоты локализации товаров транснациональной сети магазинов слова на буклете (кроме названия) отсутствуют, что только усиливает запоминаемость образов. Поэтому икеевские инструкции <a href="https://www.yahoo.com/news/makers/ss/amazing-horror-movie-ikea-mash-215046305.html" rel="noopener noreferrer nofollow">любят пародировать</a> за простоту и узнаваемость графического языка.</p><figure class="full-width "><img src="https://habrastorage.org/webt/zc/c0/k5/zcc0k5umsvnvkvnxscgeoj-ydji.jpeg" alt="Простой промпт balalaika без уточнений" title="Простой промпт balalaika без уточнений" width="1024" height="1024"><div><figcaption>Простой промпт <code>balalaika</code> без уточнений</figcaption></div></figure><p>К файлам проекта Ikea Instructions Баркетт <a href="https://huggingface.co/ostris/ikea-instructions-lora-sdxl" rel="noopener noreferrer nofollow">приложил примеры работ</a>. С этой LoRA он сгенерировал как людей, персонажей или предметы (хиппи, Барби с Кеном, гамбургер), так и процессы (сон).</p><p>Забавно, что модель с удовольствием вставляет в инструкцию шестигранник даже там, где он вряд ли нужен. В примерах он появляется в гардеробе Кена.</p><p><a href="https://huggingface.co/ostris/ikea-instructions-lora-sdxl" rel="noopener noreferrer nofollow">huggingface.co/ostris/ikea-instructions-lora-sdxl</a></p><p><a href="https://civitai.com/models/153586/ikea-instructions-lora-sdxl" rel="noopener noreferrer nofollow">Страница на Civitai</a></p><p></p> <a href="https://habr.com/ru/posts/766072/?utm_campaign=766072&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 08 Oct 2023 14:21:04 GMT</pubDate>
    <dc:creator><![CDATA[atomlib]]></dc:creator>
      
      <category><![CDATA[IKEA]]></category><category><![CDATA[ИКЕА]]></category><category><![CDATA[LoRA]]></category><category><![CDATA[Stable Diffusion]]></category><category><![CDATA[инструкции IKEA]]></category><category><![CDATA[инструкции ИКЕА]]></category><category><![CDATA[Stable Diffusion XL]]></category>
  </item>
  

	
  

  

  

    

  

  
  <item>
    <title><![CDATA[Пост @atomlib — Обработка изображений (+3) — 08.10.2023 09:35]]></title>
    <guid isPermaLink="true">https://habr.com/ru/posts/766014/</guid>
    <link>https://habr.com/ru/posts/766014/?utm_campaign=766014&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
    <description><![CDATA[<p>Bing&nbsp;Chat&nbsp;AI <a href="https://twitter.com/legotrillermoth/status/1710475797713101292" rel="noopener noreferrer nofollow">заблокировала</a> генерацию картинок с Дрейком. Если упомянуть <code>Drake</code> в запросе на картинку, фильтр по стоп-слову выдаст предупреждение о невозможности генерации.</p><p>Встроенный в чат генератор картинок DALL-E&nbsp;3 от OpenAI хорошо приспособлен выдавать любые образы по запросу пользователя. Этим незамедлительно воспользовались сетевые шутники. Канадский рэпер в их воображении <a href="https://twitter.com/ShawtyBrothers/status/1710498352209805440" rel="noopener noreferrer nofollow">ржёт как конь над детьми в снежных шарах</a>, <a href="https://twitter.com/ethnicalymormon/status/1710803552355143757" rel="noopener noreferrer nofollow">пилотирует Евангелион</a> или просто (видимо, фантазия кончилась) <a href="https://twitter.com/RtrdRenaissance/status/1710803352534056973" rel="noopener noreferrer nofollow">руководит Третьим рейхом</a>.</p><figure class="full-width "><img src="https://habrastorage.org/webt/kk/11/ru/kk11ruhjusdigkhjjf_l55nyuxc.jpeg" alt="Дрейк дразнит девочку за узкие глаза" title="Дрейк дразнит девочку за узкие глаза" width="1024" height="1024"><div><figcaption>Дрейк дразнит девочку за узкие глаза</figcaption></div></figure><p>Вообще, у Microsoft хватает проблем с новым инструментом. Bing&nbsp;Chat&nbsp;AI с трудом <a href="https://www.theverge.com/2023/10/5/23905311/microsoft-bing-dalle3-generative-ai-images-twin-towers" rel="noopener noreferrer nofollow">пытается</a> отфильтровать башни-близнецы Всемирного торгового центра в Нью-Йорке, на которые повадились запускать самолёты с Марио и Спанч Бобом за штурвалом.</p><p>Комбо, где атаки 11 сентября проводит Дрейк, <a href="https://twitter.com/papagondor/status/1710804936324260183" rel="noopener noreferrer nofollow">тоже есть</a>.</p><p></p> <a href="https://habr.com/ru/posts/766014/?utm_campaign=766014&amp;utm_source=habrahabr&amp;utm_medium=rss">Читать дальше &rarr;</a>]]></description>
      
    <pubDate>Sun, 08 Oct 2023 06:35:59 GMT</pubDate>
    <dc:creator><![CDATA[atomlib]]></dc:creator>
      
      <category><![CDATA[Drake]]></category><category><![CDATA[Bing]]></category><category><![CDATA[Microsoft]]></category><category><![CDATA[Bing Chat AI]]></category><category><![CDATA[OpenAI]]></category><category><![CDATA[DALL-E]]></category><category><![CDATA[dall-e 3]]></category><category><![CDATA[фильтры]]></category><category><![CDATA[цензура]]></category>
  </item>
  

	
  

  

  

      

      

      

    
  </channel>
</rss>
