Как стать автором
Поиск
Написать публикацию
Обновить
95.52
Content AI
Решения для интеллектуальной обработки информации
Сначала показывать

Как ContentCapture и LLM автоматизируют обработку судебных приказов, определений и постановлений ФССП

Время на прочтение6 мин
Количество просмотров1K

Ранее мы уже делились опытом использования LLM для обработки юридических документов и доверенностей. Сегодня расскажем о другом подходе, который применил наш технологический партнер ООО «ЕСМ-Консалтинг». При реализации нескольких показательных кейсов для крупных российских энергосбытовых компаний, автоматизировав в них обработку судебных документов с помощью платформы ContentCapture и больших языковых моделей (LLM).

Изначально мы рассматривали два подхода к реализации подобных проектов. Первый – предполагал классическую работу с гибкими описаниями документов, когда правила извлечения информации задаются человеком. Второй вариант – комбинированный, с использованием больших языковых моделей (LLM). Наш опыт показал, что последний подход как минимум в три раза экономичнее, при работе с неструктурированными документами. Он обеспечивает хорошую скорость и высокое качество извлечения данных (более 95% правильно извлеченных данных), что позволяет нашим заказчикам масштабировать обработку документов без роста операционных расходов.

Узнать подробности

Как мы построили систему нагрузочного тестирования для обработки документов: метрики, инструменты, примеры

Время на прочтение5 мин
Количество просмотров1K

В системах интеллектуальной обработки документов корректность извлечения данных — это лишь половина дела. Гораздо важнее, чтобы при скачке нагрузки сервис не превратился в бутылочное горлышко.

В этой статье расскажем, как мы:

● автоматизировали нагрузочное тестирование, сократив ручную работу инженеров на 85%;
● встроили стресс-тесты в CI/CD, чтобы каждая фича доказывала свою устойчивость перед релизом;
● научились предсказывать поведение системы не на глаз, а по данным — даже при росте объемов в несколько раз.

Узнать подробности

Как мы заставили LLM понимать юридические документы лучше юристов: история создания универсального промта

Время на прочтение6 мин
Количество просмотров7.7K

В прошлой статье мы говорили, что нашли быстрый и простой способ, как с помощью LLM вытаскивать данные из юридических документов и доверенностей. А сегодня расскажем, какой промт мы для этого использовали.

Узнать подробности

СontentCapture+LLM: как мы ускорили работу с неструктурированными документами

Время на прочтение4 мин
Количество просмотров1.4K

В эпоху цифровой трансформации каждая минута работы с документами на вес золота. Юридические отделы, банки, госучреждения ежедневно обрабатывают сотни договоров, доверенностей и судебных приказов. Ручной ввод данных, поиск реквизитов и проверка сроков могут отнимать до 20 минут на документ — и это если сотрудник не отвлекся на кофе. 

В нашей линейке продуктов есть универсальная IDP-платформа ContentCapture. Она хорошо понимает структурированные документы, а вот при обработке неструктурированных данных раньше могли возникать сложности. Чтобы решить эту проблему, мы в новом релизе продукта настроили интеграцию с облачными большими языковыми моделями (LLM), такими как YandexGPT и GigaChat. 

Делимся подробностями и рассказываем, как оценивали качество работы LLM с разными типами документов. 

Читать далее

Как мы превращаем коллег в друзей: летние традиции Content AI

Время на прочтение4 мин
Количество просмотров588

Привет, Хабр!

Меня зовут Елена Понаскова, я HR-директор в Content AI.

В IT-индустрии борьба за таланты давно вышла за рамки зарплатных вилок и стандартных бонусов. Да, деньги важны, но что на самом деле удерживает людей в компании? Не просто интересные проекты или карьерные перспективы, а чувство принадлежности. Когда команда — это не просто коллеги, а единомышленники, когда ценности компании созвучны твоим, а атмосфера дарит не только мотивацию, но и ощущение надежности — именно тогда возникает искренняя вовлеченность.

Сегодня хочу рассказать о том, как мы создаем среду, где люди не просто работают, а хотят остаться.

Читать далее

От плоских к иерархическим: как мы перестроили команды разработки

Время на прочтение6 мин
Количество просмотров925

Привет, Хабр! 

Многие ИТ-компании находится в постоянном поиске баланса между автономией команд и централизацией процессов. Эта дилемма не обошла стороной и нас в Content AI. В силу нескольких причин пришлось отказаться от классической плоской структуры, которая подразумевала минимальное количество уровней управления, в пользу иерархической, где напротив, есть довольно четкое распределение ролей и зон ответственности.

Попросили руководителя нашего отдела разработки — Александра Субботина и его подчиненных, рассказать о причинах смены подхода к распределению ролей в командах и вызовах, с которыми столкнулись в процессе перехода.

Все подробности — под катом.

————

Читать далее

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Время на прочтение5 мин
Количество просмотров2.2K

Привет, Хабр! 

Если вы когда-либо сталкивались с автоматическим распознаванием документов, то знаете, насколько сложно работать с документами удостоверяющими личность (ID-документами). Хотя, казалось бы, что может быть проще, чем распознать фото паспорта, но на практике это может вызывать сложности у OCR-алгоритмов. Ведь паспорта, водительские удостоверения и другие ID-формы часто содержат сложные фоны, голограммы, блики от ламинации и т.п.

Раньше для распознавания ID-документов в наших продуктах мы использовали бинаризацию — метод, который упрощал изображение до черно-белого формата. Однако вместе с шумами при бинаризации «затирались» и полезные данные. А когда в кадр попадали пальцы или документ лежал под углом, результаты распознавания могли стать совсем непредсказуемыми.

Под катом расскажем, как нам удалось повысить точность распознавания ID-документов на 40%, какие технологии за этим стоят и почему старые методы перестали справляться с современными вызовами. 

Узнать подробности

Как мы создавали технологию валидации печатей

Время на прочтение3 мин
Количество просмотров797

На рынке можно найти разные технологии по поиску печатей и подписей на документах. Мы в Content AI решили на этом не останавливаться и пошли дальше — помимо распознавания подписей и печатей, мы научились их валидировать. Обе технологии станут частью нашей универсальной платформы для интеллектуальной обработки информации ContentCapture и помогут пользователям еще быстрее обрабатывать большой поток документов. 

О том, как верифицировать подписи, мы поделились в предыдущем посте, а про технологию валидации печатей рассказываем под катом. 

Читать далее

Приоритизация бэклога: MoSCoW, ICE и RICE, и почему нам всего этого не хватило

Время на прочтение11 мин
Количество просмотров2K

Привет, Хабр!

Если вы не разработчик и не понимаете, каким способом разработка определяет приоритет вашей задачи (спойлер: лунный календарь или ретроградный Меркурий к этому не имеют отношения), то эта статья будет вам полезна. 

Если вы продакт-менеджер, который видел все в этой жизни, и отчаялся настолько, что уже готов приоритизировать бэклог по картам таро, то эта статья будет вам полезна. 

Если вы разработчик и устали гореть от того, что задачи в бэклоге выстраиваются по пирамиде Маслоу или рандомайзеру, то эта статья будет вам полезна (как минимум, разбавите рутину на следующем стендапе). 

В общем, в новом посте рассказываем про популярные способы для приоритизации бэклога команды разработки и почему мы запилили свой. 

Читать далее

Как мы делали технологию, которая умеет верифицировать подписи в документах

Время на прочтение4 мин
Количество просмотров954

Верификация подписи — новая полезная фича для работы с документами, которая войдет в наш кросс-платформенный продукт ContentCapture для интеллектуаль­ной обработки информации. 

Задача технологии — помогать пользователям проверять подлинность подписи на документах в автоматическом режиме, тем самым упрощая ежедневные бизнес-процессы и обеспечивая более высокий уровень безопасности.

Ниже рассказываем, как мы создавали эту технологию.

Читать далее

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.1K

Привет, Хабр!

В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь) начала работать на российских документах разного типа в контуре нашего продукта ContentCapture и что из этого вышло.

Вкратце введем в курс дела. Многие компании сталкиваются с необходимостью обрабатывать большое количество однотипных (не одинаковых) документов, извлекать из них нужную информацию и экспортировать. Естественно, это долго, мучительно, а иногда еще и с ошибками. Для автоматизации такой рутины и используется ContentCapture, а точнее, встроенные в него две технологии — гибкие описания и теперь еще и FastML. 

Гибкие описания — это универсальный подход к извлечению данных, особенно если речь идет о сложных документах. Однако для их создания нужно время и навыки работы со специальным инструментом — Content AI Layout Studio. Для тех, у кого таких скиллов нет, и был создан FastML, с которым сможет справиться любой пользователь, независимо от техподготовки. С помощью FastML модели для новых типов документов создаются в несколько кликов на основе нескольких примеров, что значительно сокращает время их внедрения в контур компании и бизнес-процессы. 

Под катом рассказываем и показываем, какие теперь документы могут автоматически обрабатывать пользователи ContentCapture с помощью встроенного в него FastML, а также делимся данными тестирования и объясняем, в чем могут возникнуть сложности.

Читать далее

ARR: что это такое и чем он полезен бизнесу

Время на прочтение10 мин
Количество просмотров5.6K

Работая в условиях жесткой конкуренции и турбулентной экономики, бизнесу постоянно необходимо искать новые методы и подходы для увеличения дохода. Для тех, кто работает с клиентами по подписочной модели, одним из таких инструментов является ARR (Annual Recurring Revenue), который помогает рассчитать ежегодную повторяемую выручку,  оценить долгосрочный потенциал сделки, эффективность работы сейлз-команды и маркетинговых кампаний.

Для полноты картины бизнесу также необходимы расчеты метрик юнит-экономики, которые являются взаимодополняющими инструментами ARR  — CAC (Customer Acquisition Cost), Retention cost, Gross Profit, LTV (Lifetime Value), Payback period. Все это позволяет достоверно оценить эффективность каждого отдельного продукта или услуги компании.

ARR и юнит-экономика помогают определить, какие продукты или услуги приносят максимальную прибыль, что можно улучшить для достижения еще больших результатов, а также в целом принимать обоснованные решения об инвестициях и развитии компании.

Поскольку у нас в Content AI о сложных процессах могут рассказывать не только разработчики, под катом своими знаниями делятся наши финансисты — что это за метрики, как их рассчитать и где применить.

Читать далее

Шутим в комментариях к коду

Время на прочтение2 мин
Количество просмотров4.4K

Написанием кода занимается далеко не один разработчик, это совместная работа нескольких команд, а порой и целых подразделений (и это еще не упоминая о смене кадров). Код может жить в компании годами и переиспользоваться в новых продуктах.

По этим причинам важно, чтобы любой кусок кода, который может вызвать вопросы у стороннего читателя, был объяснен его автором. Для этого разработчики оставляют в коде комментарии. Как правило, они абсолютно безвредны для кода, почти незаметны и никак не влияют на компиляцию. 

При этом комментарии помогают не только сохранить знания внутри компании, упростить понимание кода и намного быстрее производить дебаггинг, но и порой просто повеселить его читателя.

Под катом собрали и пояснили 13 примеров полезных и забавных комментариев, которые оставили наши коллеги в исходниках продуктов Content AI.

Читать далее

Как мы делали подсказки в продукте для корпоративного поиска на базе Elasticsearch

Время на прочтение3 мин
Количество просмотров3.9K

Казалось бы поисковые подсказки (автокомплит) простая и понятная вещь, реализованная во множестве проектов и работающая из коробки. 

Как бы не так. 

Под катом расскажем про существующие подходы, их ограничения, и как мы вышли из положения для реализации подсказок в продукте для корпоративного поиска Content AI Intelligent Search

Читать далее

Ближайшие события

Лицензирование софта: типы, нюансы, сложности

Время на прочтение10 мин
Количество просмотров7K

У каждого разработчика хотя бы раз возникала мечта создать крутой продукт, который обязательно захотят купить (а не спиратить) все пользователи, а сам он станет богаче Илона Маска и будет запускать свои Falcon, но конечно же намного удачнее. Но чаще всего эта мечта спустя время разбивается о суровую реальность: софт почти никому не нужен из-за переполненного рынка, а если и нужен, то его постоянно пиратят, безжалостно и беспощадно. 

Если с первой проблемой помогут справиться талант и удача, то разобраться со второй — попробуем помочь мы. Ниже рассказываем о нюансах лицензирования, с которыми сталкивается разработка. 

Читать далее

История FineReader: так создавалась легенда (часть II)

Время на прочтение10 мин
Количество просмотров4.8K

Мы продолжаем изучать летопись функционального развития легендарного редактора FineReader PDF. Первую часть 30-летней истории можно прочитать здесь. А сейчас перенесемся в середину нулевых. 

Читать далее

История FineReader: так создавалась легенда (часть I)

Время на прочтение9 мин
Количество просмотров8.4K

Не секрет, что многофункциональный редактор ContentReader PDF является технологическим наследником популярного решения компании ABBYY – FineReader PDF. После модификации исходного продукта его новую историю на российском рынке пишет Content AI. Между тем, легендарному редактору PDF в этом году исполнилось 30 лет. И это достойный повод, чтобы вспомнить, как все начиналось и как развивался продукт, ставший незаменимым инструментом для всех, кто работает с документами. 

Для полного погружения мы смогли найти ноутбук IBM ThinkPad T61 c Windows XP, установили на него все версии FineReader с 1 по 13 и сделали аутентичные скриншоты. Пристегнитесь, запускаем машину времени через три…два…один. 

Читать далее

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

Время на прочтение6 мин
Количество просмотров46K

Технологии распознавания печатного текста появились около 30 лет назад, существенно облегчив жизнь и ускорив многие бизнес-процессы. В то же время распознавание курсива оказалось куда более сложной задачей, которую удалось решить лишь благодаря развитию нейросетей.

В этом посте рассказываем о собственной технологии Content AI — распознавании русского рукописного текста, которая уже вошла в новую версию нашего продукта ContentCapture — универсальную платформу для интеллектуальной обработки информации.

Читать далее

10 болей Windows-разработчика, портирующего на Linux

Время на прочтение9 мин
Количество просмотров7.6K

За последний год многим разработчикам пришлось осваивать работу с Linux, погружаться в тему кросс-платформенности и портирования существующих продуктов в новую инфраструктуру. Несмотря на то что часть наших продуктов написана под Linux, мы не стали исключением, и нашему RnD в прошлом году тоже пришлось значительно перестраивать свою работу.

Споры о том, под какой ОС проще кодить – бесконечны, примерно как дискуссии об Android vs iOS или PlayStation vs Xbox. Поэтому начинать мы ее не будем, хотя очень хочется.

В посте рассказываем исключительно об опыте нашей компании: на какие грабли наступили и в каких местах обожглись, работая над портированием продуктов с Windows на Linux. И все это собрали в 10 основных пунктов-болей наших разработчиков под катом. 

Читать далее

Очень странные дела: разработчики обсуждают итоги года и осторожно заглядывают в будущее

Время на прочтение7 мин
Количество просмотров3K

Вот уже почти год, как российский ИТ-рынок вошел в затянувшуюся зону турбулентности. Иногда казалось, что над сценариями развития ситуации работали профессиональные фантасты, прогнозирующие варианты по всей длине шкалы — от полного прекращения поставок «железа» и схлопывания рынка из-за отсутствия доступа к инструментам разработки до нового ИТ-ренессанса в связи с уходом международных компаний, прежде занимавших ведущие позиции.

Эксперты Content AI, наблюдавшие за ситуацией внутри воронки смерча, поговорили «за ИТ» уже из дня сегодняшнего: с чем в итоге подошел отечественный рынок к 2023 году, какие тренды наметились в области разработки ПО и в какую сторону дальше будет двигаться российская сфера ИТ. 

Как говорится, запомните этот твит. 

Читать далее
1
23 ...

Информация

Сайт
www.contentai.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия