Articles / Profile of ContentAI_Team / Habr

@ContentAI_Team

Пользователь

1,4

Rating

108

Subscribers

ProfileArticles156PostsNews5Comments344

ContentAI_Team Apr 10 at 13:33

Как гибрид IDP и VLM экономит миллионы на верификации данных

Medium

7 min

4.8K

Content AI corporate blogMachine learning * Artificial IntelligencePDFImage processing *

Analytics

Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах.

В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом, когда VLM усиливает IDP-решения.

В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture.

Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.

Читать далее

0

ContentAI_Team Feb 6 at 12:13

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

Medium

7 min

5.9K

Content AI corporate blogImage processing * Machine learning * Artificial IntelligencePDF

Analytics

В прошлых материалах мы уже рассказывали о том, как мультимодальные модели (VLM) справляются с извлечением данных из финансовых документов, и показывали, что в ряде сценариев они могут конкурировать с оптимизированными классическими IDP-решениями. Однако мы решили не ограничиваться одним типом документов и продолжили исследование, сравнив технологии на широком спектре материалов. В пул вошли сканы высокого качества и фотографии со сложным фоном, структурированные табличные формы и документы с элементами рукописного текста, русскоязычные и англоязычные тексты.

Сегодня мы готовы поделиться сводными итогами.

Читать далее

+4

ContentAI_Team Nov 28 2025 at 18:27

Как корпоративный поисковый портал стал платформой для цифровых ассистентов

11 min

4K

Content AI corporate blogSearch engines * Natural Language Processing * Artificial Intelligence

Привет! Меня зовут Антон Фролов — я ведущий менеджер продукта в Content AI. В этой статье расскажу, как мы превратили корпоративный поисковый портал Intelligent Search в платформу для создания цифровых ассистентов с поддержкой LLM.

Если у вас уже есть прототип ассистента на базе open-source компонентов, платформа может помочь оперативно разработать решение production-уровня для автоматизации различных процессов с внутренними документами.

Читать далее

+9

ContentAI_Team Oct 22 2025 at 12:42

VLM vs IDP (хайп vs конвейер): кто выигрывает в гонке за точностью и эффективностью

7 min

7.4K

Content AI corporate blogArtificial IntelligenceImage processing *

Еще десять лет назад автоматизация обработки документов опиралась на OCR и жесткие шаблоны. Сегодня в этой сфере все активнее заявляют о себе VLM — технологии, способные понимать контекст и быстро адаптироваться к новым задачам. Но меняют ли они правила игры полностью или лишь дополняют существующие?

Мы провели исследование и выяснили, что правила изменились, но говорить о полном забвении классических IDP-решений рано. Более того, будущее будет за гибридом, который сочетает эффективность IDP с новыми возможностями VLM.

Читать далее

+8

ContentAI_Team Sep 30 2025 at 16:00

Пять ошибок при тестировании времени распознавания документов, которые отравляют жизнь нашим QA-инженерам

5 min

7K

Content AI corporate blogArtificial IntelligenceIT systems testing * Image processing *

Продукты класса ContentCapture работают с большими объемами документов, и для бизнеса критична скорость их обработки. Но как убедиться, что система не замедлится после выхода очередного релиза? Здесь на помощь приходит тестирование: QA-инженеры регулярно проводят замеры скорости распознавания — например, при обновлении технологии или запуском нового проекта.

Казалось бы, все просто: автоматизируешь тесты, замеряешь время — и получаешь объективные метрики для оптимизации. Но на практике даже идеальная автоматизация не спасает от неожиданных сценариев.

В этой статье — пять коварных ошибок, которые чаще всего искажают результаты тестов. Некоторые настолько распространены, что мы научились распознавать их еще до того, как клиент закончит жаловаться.

Читать далее

+1

ContentAI_Team Sep 17 2025 at 12:55

Учет OSS без бардака: мы сделали это, и ты тоже можешь

5 min

4.6K

Content AI corporate blog

Привет, Хабр!

Использование OSS‑компонентов — стандарт современной разработки. Под OSS‑компонентами мы понимаем ПО с открытым исходным кодом. Это могут быть приложения, библиотеки, набор файлов, или даже просто фрагмент кода.

Но при использовании OSS есть нюанс — лицензии. Одни библиотеки можно брать без оглядки, другие требуют платежей, а третьи — строгого соблюдения условий. И если в бэкенде зачастую все относительно статично (версии меняются редко, компонентов немного), то веб — отдельная история. Тут компоненты множатся с космической скоростью, версии обновляются каждую неделю, и следить за всем этим вручную просто нереально.

В этой статье расскажем о том, как мы формируем реестр OSS‑компонентов и какие инструменты помогают нам быстрее проверять лицензии и формировать единый список компонентов.

Читать далее

+3

ContentAI_Team Aug 28 2025 at 16:00

Как ContentCapture и LLM автоматизируют обработку судебных приказов, определений и постановлений ФССП

6 min

8.9K

Content AI corporate blogNatural Language Processing * Image processing * Artificial Intelligence

Ранее мы уже делились опытом использования LLM для обработки юридических документов и доверенностей. Сегодня расскажем о другом подходе, который применил наш технологический партнер ООО «ЕСМ-Консалтинг». При реализации нескольких показательных кейсов для крупных российских энергосбытовых компаний, автоматизировав в них обработку судебных документов с помощью платформы ContentCapture и больших языковых моделей (LLM).

Изначально мы рассматривали два подхода к реализации подобных проектов. Первый – предполагал классическую работу с гибкими описаниями документов, когда правила извлечения информации задаются человеком. Второй вариант – комбинированный, с использованием больших языковых моделей (LLM). Наш опыт показал, что последний подход как минимум в три раза экономичнее, при работе с неструктурированными документами. Он обеспечивает хорошую скорость и высокое качество извлечения данных (более 95% правильно извлеченных данных), что позволяет нашим заказчикам масштабировать обработку документов без роста операционных расходов.

Узнать подробности

+4

ContentAI_Team Aug 21 2025 at 16:00

Как мы построили систему нагрузочного тестирования для обработки документов: метрики, инструменты, примеры

5 min

8.2K

Content AI corporate blogIT systems testing * Image processing * Artificial Intelligence

В системах интеллектуальной обработки документов корректность извлечения данных — это лишь половина дела. Гораздо важнее, чтобы при скачке нагрузки сервис не превратился в бутылочное горлышко.

В этой статье расскажем, как мы:

● автоматизировали нагрузочное тестирование, сократив ручную работу инженеров на 85%;
● встроили стресс-тесты в CI/CD, чтобы каждая фича доказывала свою устойчивость перед релизом;
● научились предсказывать поведение системы не на глаз, а по данным — даже при росте объемов в несколько раз.

Узнать подробности

+1

ContentAI_Team Aug 5 2025 at 16:00

Как мы заставили LLM понимать юридические документы лучше юристов: история создания универсального промта

6 min

20K

Content AI corporate blogNatural Language Processing * Artificial Intelligence

В прошлой статье мы говорили, что нашли быстрый и простой способ, как с помощью LLM вытаскивать данные из юридических документов и доверенностей. А сегодня расскажем, какой промт мы для этого использовали.

Узнать подробности

+15

ContentAI_Team Jul 31 2025 at 14:30

СontentCapture+LLM: как мы ускорили работу с неструктурированными документами

4 min

7.4K

Content AI corporate blogArtificial IntelligenceNatural Language Processing *

В эпоху цифровой трансформации каждая минута работы с документами на вес золота. Юридические отделы, банки, госучреждения ежедневно обрабатывают сотни договоров, доверенностей и судебных приказов. Ручной ввод данных, поиск реквизитов и проверка сроков могут отнимать до 20 минут на документ — и это если сотрудник не отвлекся на кофе.

В нашей линейке продуктов есть универсальная IDP-платформа ContentCapture. Она хорошо понимает структурированные документы, а вот при обработке неструктурированных данных раньше могли возникать сложности. Чтобы решить эту проблему, мы в новом релизе продукта настроили интеграцию с облачными большими языковыми моделями (LLM), такими как YandexGPT и GigaChat.

Делимся подробностями и рассказываем, как оценивали качество работы LLM с разными типами документов.

Читать далее

+4

ContentAI_Team Jul 25 2025 at 16:00

Как мы превращаем коллег в друзей: летние традиции Content AI

4 min

2K

Content AI corporate blogPersonnel Management * HealthIT-companies

Opinion

Привет, Хабр!

Меня зовут Елена Понаскова, я HR-директор в Content AI.

В IT-индустрии борьба за таланты давно вышла за рамки зарплатных вилок и стандартных бонусов. Да, деньги важны, но что на самом деле удерживает людей в компании? Не просто интересные проекты или карьерные перспективы, а чувство принадлежности. Когда команда — это не просто коллеги, а единомышленники, когда ценности компании созвучны твоим, а атмосфера дарит не только мотивацию, но и ощущение надежности — именно тогда возникает искренняя вовлеченность.

Сегодня хочу рассказать о том, как мы создаем среду, где люди не просто работают, а хотят остаться.

Читать далее

0

ContentAI_Team Jul 11 2025 at 16:00

От плоских к иерархическим: как мы перестроили команды разработки

6 min

1.8K

Content AI corporate blogDevelopment Management * Personnel Management *

Привет, Хабр!

Многие ИТ-компании находится в постоянном поиске баланса между автономией команд и централизацией процессов. Эта дилемма не обошла стороной и нас в Content AI. В силу нескольких причин пришлось отказаться от классической плоской структуры, которая подразумевала минимальное количество уровней управления, в пользу иерархической, где напротив, есть довольно четкое распределение ролей и зон ответственности.

Попросили руководителя нашего отдела разработки — Александра Субботина и его подчиненных, рассказать о причинах смены подхода к распределению ролей в командах и вызовах, с которыми столкнулись в процессе перехода.

Все подробности — под катом.

————

Читать далее

+6

ContentAI_Team Jul 3 2025 at 16:03

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

5 min

4.6K

Content AI corporate blogArtificial IntelligenceMachine learning *

Привет, Хабр!

Если вы когда-либо сталкивались с автоматическим распознаванием документов, то знаете, насколько сложно работать с документами удостоверяющими личность (ID-документами). Хотя, казалось бы, что может быть проще, чем распознать фото паспорта, но на практике это может вызывать сложности у OCR-алгоритмов. Ведь паспорта, водительские удостоверения и другие ID-формы часто содержат сложные фоны, голограммы, блики от ламинации и т.п.

Раньше для распознавания ID-документов в наших продуктах мы использовали бинаризацию — метод, который упрощал изображение до черно-белого формата. Однако вместе с шумами при бинаризации «затирались» и полезные данные. А когда в кадр попадали пальцы или документ лежал под углом, результаты распознавания могли стать совсем непредсказуемыми.

Под катом расскажем, как нам удалось повысить точность распознавания ID-документов на 40%, какие технологии за этим стоят и почему старые методы перестали справляться с современными вызовами.

Узнать подробности

+1

ContentAI_Team Jun 26 2025 at 16:00

Как мы создавали технологию валидации печатей

3 min

1.8K

Content AI corporate blogArtificial IntelligenceNatural Language Processing * Image processing *

На рынке можно найти разные технологии по поиску печатей и подписей на документах. Мы в Content AI решили на этом не останавливаться и пошли дальше — помимо распознавания подписей и печатей, мы научились их валидировать. Обе технологии станут частью нашей универсальной платформы для интеллектуальной обработки информации ContentCapture и помогут пользователям еще быстрее обрабатывать большой поток документов.

О том, как верифицировать подписи, мы поделились в предыдущем посте, а про технологию валидации печатей рассказываем под катом.

Читать далее

+2

ContentAI_Team Jun 17 2025 at 16:00

Приоритизация бэклога: MoSCoW, ICE и RICE, и почему нам всего этого не хватило

11 min

6.8K

Content AI corporate blogAgile * Development Management * Product Management * Artificial Intelligence

Привет, Хабр!

Если вы не разработчик и не понимаете, каким способом разработка определяет приоритет вашей задачи (спойлер: лунный календарь или ретроградный Меркурий к этому не имеют отношения), то эта статья будет вам полезна.

Если вы продакт-менеджер, который видел все в этой жизни, и отчаялся настолько, что уже готов приоритизировать бэклог по картам таро, то эта статья будет вам полезна.

Если вы разработчик и устали гореть от того, что задачи в бэклоге выстраиваются по пирамиде Маслоу или рандомайзеру, то эта статья будет вам полезна (как минимум, разбавите рутину на следующем стендапе).

В общем, в новом посте рассказываем про популярные способы для приоритизации бэклога команды разработки и почему мы запилили свой.

Читать далее

+2

ContentAI_Team Jun 6 2025 at 14:00

Как мы делали технологию, которая умеет верифицировать подписи в документах

4 min

2K

Content AI corporate blogNatural Language Processing * IT-companiesArtificial IntelligenceImage processing *

Верификация подписи — новая полезная фича для работы с документами, которая войдет в наш кросс-платформенный продукт ContentCapture для интеллектуальной обработки информации.

Задача технологии — помогать пользователям проверять подлинность подписи на документах в автоматическом режиме, тем самым упрощая ежедневные бизнес-процессы и обеспечивая более высокий уровень безопасности.

Ниже рассказываем, как мы создавали эту технологию.

Читать далее

+4

ContentAI_Team May 29 2025 at 15:15

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Easy

5 min

1.9K

Content AI corporate blogImage processing * Machine learning * Artificial IntelligenceNatural Language Processing *

Привет, Хабр!

В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь) начала работать на российских документах разного типа в контуре нашего продукта ContentCapture и что из этого вышло.

Вкратце введем в курс дела. Многие компании сталкиваются с необходимостью обрабатывать большое количество однотипных (не одинаковых) документов, извлекать из них нужную информацию и экспортировать. Естественно, это долго, мучительно, а иногда еще и с ошибками. Для автоматизации такой рутины и используется ContentCapture, а точнее, встроенные в него две технологии — гибкие описания и теперь еще и FastML.

Гибкие описания — это универсальный подход к извлечению данных, особенно если речь идет о сложных документах. Однако для их создания нужно время и навыки работы со специальным инструментом — Content AI Layout Studio. Для тех, у кого таких скиллов нет, и был создан FastML, с которым сможет справиться любой пользователь, независимо от техподготовки. С помощью FastML модели для новых типов документов создаются в несколько кликов на основе нескольких примеров, что значительно сокращает время их внедрения в контур компании и бизнес-процессы.

Под катом рассказываем и показываем, какие теперь документы могут автоматически обрабатывать пользователи ContentCapture с помощью встроенного в него FastML, а также делимся данными тестирования и объясняем, в чем могут возникнуть сложности.

Читать далее

+3

ContentAI_Team Mar 11 2024 at 09:24

ARR: что это такое и чем он полезен бизнесу

10 min

12K

Content AI corporate blogFinance in ITBusiness Models * Sales management * Client optimization *

Работая в условиях жесткой конкуренции и турбулентной экономики, бизнесу постоянно необходимо искать новые методы и подходы для увеличения дохода. Для тех, кто работает с клиентами по подписочной модели, одним из таких инструментов является ARR (Annual Recurring Revenue), который помогает рассчитать ежегодную повторяемую выручку, оценить долгосрочный потенциал сделки, эффективность работы сейлз-команды и маркетинговых кампаний.

Для полноты картины бизнесу также необходимы расчеты метрик юнит-экономики, которые являются взаимодополняющими инструментами ARR — CAC (Customer Acquisition Cost), Retention cost, Gross Profit, LTV (Lifetime Value), Payback period. Все это позволяет достоверно оценить эффективность каждого отдельного продукта или услуги компании.

ARR и юнит-экономика помогают определить, какие продукты или услуги приносят максимальную прибыль, что можно улучшить для достижения еще больших результатов, а также в целом принимать обоснованные решения об инвестициях и развитии компании.

Поскольку у нас в Content AI о сложных процессах могут рассказывать не только разработчики, под катом своими знаниями делятся наши финансисты — что это за метрики, как их рассчитать и где применить.

Читать далее

+6

ContentAI_Team Feb 20 2024 at 09:06

Шутим в комментариях к коду

2 min

5K

Content AI corporate blogDevelopment for Linux * Development for Windows *

Написанием кода занимается далеко не один разработчик, это совместная работа нескольких команд, а порой и целых подразделений (и это еще не упоминая о смене кадров). Код может жить в компании годами и переиспользоваться в новых продуктах.

По этим причинам важно, чтобы любой кусок кода, который может вызвать вопросы у стороннего читателя, был объяснен его автором. Для этого разработчики оставляют в коде комментарии. Как правило, они абсолютно безвредны для кода, почти незаметны и никак не влияют на компиляцию.

При этом комментарии помогают не только сохранить знания внутри компании, упростить понимание кода и намного быстрее производить дебаггинг, но и порой просто повеселить его читателя.

Под катом собрали и пояснили 13 примеров полезных и забавных комментариев, которые оставили наши коллеги в исходниках продуктов Content AI.

Читать далее

+3

ContentAI_Team Dec 6 2023 at 11:47

Как мы делали подсказки в продукте для корпоративного поиска на базе Elasticsearch

3 min

5.1K

Content AI corporate blogSearch engines * Artificial Intelligence

Tutorial

Казалось бы поисковые подсказки (автокомплит) простая и понятная вещь, реализованная во множестве проектов и работающая из коробки.

Как бы не так.

Под катом расскажем про существующие подходы, их ограничения, и как мы вышли из положения для реализации подсказок в продукте для корпоративного поиска Content AI Intelligent Search.

Читать далее

+4

1

2 3 ...