<?xml version="1.0" encoding="UTF-8"?>

<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" >

  <channel>
    <title><![CDATA[Статьи]]></title>
    <link>https://habr.com/ru/users/ecaesar/publications/articles/</link>
    <description><![CDATA[Хабр: статьи пользователя ecaesar]]></description>
    <language>ru</language>
    <managingEditor>editor@habr.com</managingEditor>
    <generator>habr.com</generator>
    <pubDate>Sun, 03 May 2026 23:22:35 GMT</pubDate>
    
    
      <image>
        <link>https://habr.com/ru/</link>
        <url>https://habrastorage.org/webt/ym/el/wk/ymelwk3zy1gawz4nkejl_-ammtc.png</url>
        <title>Хабр</title>
      </image>
    

    
      
        
    
    <item>
      <title><![CDATA[MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок]]></title>
      <guid isPermaLink="true">https://habr.com/ru/companies/mts_ai/articles/953292/</guid>
      <link>https://habr.com/ru/companies/mts_ai/articles/953292/?utm_campaign=953292&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
      <description><![CDATA[<img src="https://habrastorage.org/getpro/habr/upload_files/dae/2f2/376/dae2f2376bd7f83b644d88265c705bff.png" /><p>Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). <a href="https://github.com/mts-ai/MWS-Vision-Bench">Код</a> и <a href="https://huggingface.co/datasets/MTSAIR/MWS-Vision-Bench">валидационный сплит</a> открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час.</p> <a href="https://habr.com/ru/articles/953292/?utm_campaign=953292&amp;utm_source=habrahabr&amp;utm_medium=rss#habracut">За подробностями</a>]]></description>
      
      <pubDate>Thu, 09 Oct 2025 09:40:18 GMT</pubDate>
      <dc:creator><![CDATA[eCaesar (MWS AI, МТС)]]></dc:creator>
      <category><![CDATA[Блог компании MWS AI]]></category><category><![CDATA[Блог компании МТС]]></category><category><![CDATA[Искусственный интеллект]]></category><category><![CDATA[Машинное обучение]]></category><category><![CDATA[Управление разработкой]]></category>
      <category><![CDATA[llm-модели]]></category><category><![CDATA[multimodal llm]]></category><category><![CDATA[vlm]]></category><category><![CDATA[бенчмарки]]></category><category><![CDATA[бенчмарки бям]]></category><category><![CDATA[мультимодальность]]></category><category><![CDATA[мультимодальные модели]]></category><category><![CDATA[датасеты]]></category>
    </item>
  

  

  

	
  

  

  

    
    <item>
      <title><![CDATA[Как создать ассистента для поиска по видео]]></title>
      <guid isPermaLink="true">https://habr.com/ru/companies/mts_ai/articles/804555/</guid>
      <link>https://habr.com/ru/companies/mts_ai/articles/804555/?utm_campaign=804555&amp;utm_source=habrahabr&amp;utm_medium=rss</link>
      <description><![CDATA[<img src="https://habrastorage.org/getpro/habr/upload_files/a89/bc5/c2d/a89bc5c2d5066c799b1402f84565c54a.png" /><p>Всем привет! Меня зовут Георгий, я старший разработчик‑исследователь в&nbsp;MTS AI. Одной из&nbsp;задач, которыми я занимаюсь в&nbsp;компании, является умная видеоаналитика. Это мощный инструмент, особенно с&nbsp;учетом современных технологий искусственного интеллекта, который может использоваться во&nbsp;многих отраслях: от&nbsp;торговли до&nbsp;обслуживания клиентов.<br> <br>При&nbsp;этом у&nbsp;сегодняшних систем видеоаналитики есть существенное ограничение: они заточены под&nbsp;узкие задачи и конкретные типы событий&nbsp;— например, распознавание автомобильных номеров, пересечение границ, детектирование&nbsp;лиц. Конечно, прогресс не&nbsp;стоит на&nbsp;месте, и за&nbsp;прошедший год появилось много мультимодальных моделей, способных отвечать на&nbsp;широкий спектр вопросов по&nbsp;видео&nbsp;— но&nbsp;они работают&nbsp;лишь на&nbsp;очень коротких роликах и требуют серьезных вложений в «железо».<br> <br>Тем не&nbsp;менее представьте, что&nbsp;можно создать общую систему видеоаналитики, которая заранее не&nbsp;настроена на&nbsp;определенные события. Она гибкая и умеет понимать задачи во&nbsp;время общения с&nbsp;пользователем. Запросы могут&nbsp;быть разнообразными, например: «предупреди меня, если в&nbsp;кадре произойдет ЧП, например, пожар или&nbsp;драка» или «я хочу найти кадры с&nbsp;желтыми автомобилями такси».<br> <br>Можно&nbsp;ли найти подход, при&nbsp;котором система сможет отвечать на&nbsp;широкий спектр вопросов по&nbsp;видео, но&nbsp;при&nbsp;этом будет способна обрабатывать длинные видеозаписи и останется нетребовательной к&nbsp;железу? В&nbsp;этой статье я расскажу про&nbsp;один из&nbsp;способов создания такого решения&nbsp;— на&nbsp;примере поиска по&nbsp;видео.</p> <a href="https://habr.com/ru/articles/804555/?utm_campaign=804555&amp;utm_source=habrahabr&amp;utm_medium=rss#habracut">Читать далее</a>]]></description>
      
      <pubDate>Mon, 01 Apr 2024 14:49:31 GMT</pubDate>
      <dc:creator><![CDATA[eCaesar (MWS AI)]]></dc:creator>
      <category><![CDATA[Блог компании MWS AI]]></category><category><![CDATA[Работа с видео]]></category>
      <category><![CDATA[clip]]></category><category><![CDATA[faiss]]></category><category><![CDATA[bot]]></category><category><![CDATA[multimodal llm]]></category><category><![CDATA[llm]]></category>
    </item>
  

  

  

	
  

  

  

      

      

      

    
  </channel>
</rss>
