Search
Write a publication
Pull to refresh
136
18

Пользователь

Send message

Как мы заставили LLM понимать юридические документы лучше юристов: история создания универсального промта

Reading time6 min
Views7.2K

В прошлой статье мы говорили, что нашли быстрый и простой способ, как с помощью LLM вытаскивать данные из юридических документов и доверенностей. А сегодня расскажем, какой промт мы для этого использовали.

Узнать подробности

СontentCapture+LLM: как мы ускорили работу с неструктурированными документами

Reading time4 min
Views1.3K

В эпоху цифровой трансформации каждая минута работы с документами на вес золота. Юридические отделы, банки, госучреждения ежедневно обрабатывают сотни договоров, доверенностей и судебных приказов. Ручной ввод данных, поиск реквизитов и проверка сроков могут отнимать до 20 минут на документ — и это если сотрудник не отвлекся на кофе. 

В нашей линейке продуктов есть универсальная IDP-платформа ContentCapture. Она хорошо понимает структурированные документы, а вот при обработке неструктурированных данных раньше могли возникать сложности. Чтобы решить эту проблему, мы в новом релизе продукта настроили интеграцию с облачными большими языковыми моделями (LLM), такими как YandexGPT и GigaChat. 

Делимся подробностями и рассказываем, как оценивали качество работы LLM с разными типами документов. 

Читать далее

Как мы превращаем коллег в друзей: летние традиции Content AI

Reading time4 min
Views549

Привет, Хабр!

Меня зовут Елена Понаскова, я HR-директор в Content AI.

В IT-индустрии борьба за таланты давно вышла за рамки зарплатных вилок и стандартных бонусов. Да, деньги важны, но что на самом деле удерживает людей в компании? Не просто интересные проекты или карьерные перспективы, а чувство принадлежности. Когда команда — это не просто коллеги, а единомышленники, когда ценности компании созвучны твоим, а атмосфера дарит не только мотивацию, но и ощущение надежности — именно тогда возникает искренняя вовлеченность.

Сегодня хочу рассказать о том, как мы создаем среду, где люди не просто работают, а хотят остаться.

Читать далее

От плоских к иерархическим: как мы перестроили команды разработки

Reading time6 min
Views890

Привет, Хабр! 

Многие ИТ-компании находится в постоянном поиске баланса между автономией команд и централизацией процессов. Эта дилемма не обошла стороной и нас в Content AI. В силу нескольких причин пришлось отказаться от классической плоской структуры, которая подразумевала минимальное количество уровней управления, в пользу иерархической, где напротив, есть довольно четкое распределение ролей и зон ответственности.

Попросили руководителя нашего отдела разработки — Александра Субботина и его подчиненных, рассказать о причинах смены подхода к распределению ролей в командах и вызовах, с которыми столкнулись в процессе перехода.

Все подробности — под катом.

————

Читать далее

Как мы научили нейросети читать паспорта: история борьбы с бликами, водяными знаками и кривыми фото

Reading time5 min
Views2.2K

Привет, Хабр! 

Если вы когда-либо сталкивались с автоматическим распознаванием документов, то знаете, насколько сложно работать с документами удостоверяющими личность (ID-документами). Хотя, казалось бы, что может быть проще, чем распознать фото паспорта, но на практике это может вызывать сложности у OCR-алгоритмов. Ведь паспорта, водительские удостоверения и другие ID-формы часто содержат сложные фоны, голограммы, блики от ламинации и т.п.

Раньше для распознавания ID-документов в наших продуктах мы использовали бинаризацию — метод, который упрощал изображение до черно-белого формата. Однако вместе с шумами при бинаризации «затирались» и полезные данные. А когда в кадр попадали пальцы или документ лежал под углом, результаты распознавания могли стать совсем непредсказуемыми.

Под катом расскажем, как нам удалось повысить точность распознавания ID-документов на 40%, какие технологии за этим стоят и почему старые методы перестали справляться с современными вызовами. 

Узнать подробности

Как мы создавали технологию валидации печатей

Reading time3 min
Views777

На рынке можно найти разные технологии по поиску печатей и подписей на документах. Мы в Content AI решили на этом не останавливаться и пошли дальше — помимо распознавания подписей и печатей, мы научились их валидировать. Обе технологии станут частью нашей универсальной платформы для интеллектуальной обработки информации ContentCapture и помогут пользователям еще быстрее обрабатывать большой поток документов. 

О том, как верифицировать подписи, мы поделились в предыдущем посте, а про технологию валидации печатей рассказываем под катом. 

Читать далее

Приоритизация бэклога: MoSCoW, ICE и RICE, и почему нам всего этого не хватило

Reading time11 min
Views1.8K

Привет, Хабр!

Если вы не разработчик и не понимаете, каким способом разработка определяет приоритет вашей задачи (спойлер: лунный календарь или ретроградный Меркурий к этому не имеют отношения), то эта статья будет вам полезна. 

Если вы продакт-менеджер, который видел все в этой жизни, и отчаялся настолько, что уже готов приоритизировать бэклог по картам таро, то эта статья будет вам полезна. 

Если вы разработчик и устали гореть от того, что задачи в бэклоге выстраиваются по пирамиде Маслоу или рандомайзеру, то эта статья будет вам полезна (как минимум, разбавите рутину на следующем стендапе). 

В общем, в новом посте рассказываем про популярные способы для приоритизации бэклога команды разработки и почему мы запилили свой. 

Читать далее

Как мы делали технологию, которая умеет верифицировать подписи в документах

Reading time4 min
Views934

Верификация подписи — новая полезная фича для работы с документами, которая войдет в наш кросс-платформенный продукт ContentCapture для интеллектуаль­ной обработки информации. 

Задача технологии — помогать пользователям проверять подлинность подписи на документах в автоматическом режиме, тем самым упрощая ежедневные бизнес-процессы и обеспечивая более высокий уровень безопасности.

Ниже рассказываем, как мы создавали эту технологию.

Читать далее

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Level of difficultyEasy
Reading time5 min
Views1K

Привет, Хабр!

В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь) начала работать на российских документах разного типа в контуре нашего продукта ContentCapture и что из этого вышло.

Вкратце введем в курс дела. Многие компании сталкиваются с необходимостью обрабатывать большое количество однотипных (не одинаковых) документов, извлекать из них нужную информацию и экспортировать. Естественно, это долго, мучительно, а иногда еще и с ошибками. Для автоматизации такой рутины и используется ContentCapture, а точнее, встроенные в него две технологии — гибкие описания и теперь еще и FastML. 

Гибкие описания — это универсальный подход к извлечению данных, особенно если речь идет о сложных документах. Однако для их создания нужно время и навыки работы со специальным инструментом — Content AI Layout Studio. Для тех, у кого таких скиллов нет, и был создан FastML, с которым сможет справиться любой пользователь, независимо от техподготовки. С помощью FastML модели для новых типов документов создаются в несколько кликов на основе нескольких примеров, что значительно сокращает время их внедрения в контур компании и бизнес-процессы. 

Под катом рассказываем и показываем, какие теперь документы могут автоматически обрабатывать пользователи ContentCapture с помощью встроенного в него FastML, а также делимся данными тестирования и объясняем, в чем могут возникнуть сложности.

Читать далее

ARR: что это такое и чем он полезен бизнесу

Reading time10 min
Views5.5K

Работая в условиях жесткой конкуренции и турбулентной экономики, бизнесу постоянно необходимо искать новые методы и подходы для увеличения дохода. Для тех, кто работает с клиентами по подписочной модели, одним из таких инструментов является ARR (Annual Recurring Revenue), который помогает рассчитать ежегодную повторяемую выручку,  оценить долгосрочный потенциал сделки, эффективность работы сейлз-команды и маркетинговых кампаний.

Для полноты картины бизнесу также необходимы расчеты метрик юнит-экономики, которые являются взаимодополняющими инструментами ARR  — CAC (Customer Acquisition Cost), Retention cost, Gross Profit, LTV (Lifetime Value), Payback period. Все это позволяет достоверно оценить эффективность каждого отдельного продукта или услуги компании.

ARR и юнит-экономика помогают определить, какие продукты или услуги приносят максимальную прибыль, что можно улучшить для достижения еще больших результатов, а также в целом принимать обоснованные решения об инвестициях и развитии компании.

Поскольку у нас в Content AI о сложных процессах могут рассказывать не только разработчики, под катом своими знаниями делятся наши финансисты — что это за метрики, как их рассчитать и где применить.

Читать далее

Шутим в комментариях к коду

Reading time2 min
Views4.4K

Написанием кода занимается далеко не один разработчик, это совместная работа нескольких команд, а порой и целых подразделений (и это еще не упоминая о смене кадров). Код может жить в компании годами и переиспользоваться в новых продуктах.

По этим причинам важно, чтобы любой кусок кода, который может вызвать вопросы у стороннего читателя, был объяснен его автором. Для этого разработчики оставляют в коде комментарии. Как правило, они абсолютно безвредны для кода, почти незаметны и никак не влияют на компиляцию. 

При этом комментарии помогают не только сохранить знания внутри компании, упростить понимание кода и намного быстрее производить дебаггинг, но и порой просто повеселить его читателя.

Под катом собрали и пояснили 13 примеров полезных и забавных комментариев, которые оставили наши коллеги в исходниках продуктов Content AI.

Читать далее

Как мы делали подсказки в продукте для корпоративного поиска на базе Elasticsearch

Reading time3 min
Views3.9K

Казалось бы поисковые подсказки (автокомплит) простая и понятная вещь, реализованная во множестве проектов и работающая из коробки. 

Как бы не так. 

Под катом расскажем про существующие подходы, их ограничения, и как мы вышли из положения для реализации подсказок в продукте для корпоративного поиска Content AI Intelligent Search

Читать далее

Лицензирование софта: типы, нюансы, сложности

Reading time10 min
Views6.9K

У каждого разработчика хотя бы раз возникала мечта создать крутой продукт, который обязательно захотят купить (а не спиратить) все пользователи, а сам он станет богаче Илона Маска и будет запускать свои Falcon, но конечно же намного удачнее. Но чаще всего эта мечта спустя время разбивается о суровую реальность: софт почти никому не нужен из-за переполненного рынка, а если и нужен, то его постоянно пиратят, безжалостно и беспощадно. 

Если с первой проблемой помогут справиться талант и удача, то разобраться со второй — попробуем помочь мы. Ниже рассказываем о нюансах лицензирования, с которыми сталкивается разработка. 

Читать далее

История FineReader: так создавалась легенда (часть II)

Reading time10 min
Views4.7K

Мы продолжаем изучать летопись функционального развития легендарного редактора FineReader PDF. Первую часть 30-летней истории можно прочитать здесь. А сейчас перенесемся в середину нулевых. 

Читать далее

История FineReader: так создавалась легенда (часть I)

Reading time9 min
Views8.3K

Не секрет, что многофункциональный редактор ContentReader PDF является технологическим наследником популярного решения компании ABBYY – FineReader PDF. После модификации исходного продукта его новую историю на российском рынке пишет Content AI. Между тем, легендарному редактору PDF в этом году исполнилось 30 лет. И это достойный повод, чтобы вспомнить, как все начиналось и как развивался продукт, ставший незаменимым инструментом для всех, кто работает с документами. 

Для полного погружения мы смогли найти ноутбук IBM ThinkPad T61 c Windows XP, установили на него все версии FineReader с 1 по 13 и сделали аутентичные скриншоты. Пристегнитесь, запускаем машину времени через три…два…один. 

Читать далее

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

Reading time6 min
Views46K

Технологии распознавания печатного текста появились около 30 лет назад, существенно облегчив жизнь и ускорив многие бизнес-процессы. В то же время распознавание курсива оказалось куда более сложной задачей, которую удалось решить лишь благодаря развитию нейросетей.

В этом посте рассказываем о собственной технологии Content AI — распознавании русского рукописного текста, которая уже вошла в новую версию нашего продукта ContentCapture — универсальную платформу для интеллектуальной обработки информации.

Читать далее

10 болей Windows-разработчика, портирующего на Linux

Reading time9 min
Views7.6K

За последний год многим разработчикам пришлось осваивать работу с Linux, погружаться в тему кросс-платформенности и портирования существующих продуктов в новую инфраструктуру. Несмотря на то что часть наших продуктов написана под Linux, мы не стали исключением, и нашему RnD в прошлом году тоже пришлось значительно перестраивать свою работу.

Споры о том, под какой ОС проще кодить – бесконечны, примерно как дискуссии об Android vs iOS или PlayStation vs Xbox. Поэтому начинать мы ее не будем, хотя очень хочется.

В посте рассказываем исключительно об опыте нашей компании: на какие грабли наступили и в каких местах обожглись, работая над портированием продуктов с Windows на Linux. И все это собрали в 10 основных пунктов-болей наших разработчиков под катом. 

Читать далее

Очень странные дела: разработчики обсуждают итоги года и осторожно заглядывают в будущее

Reading time7 min
Views3K

Вот уже почти год, как российский ИТ-рынок вошел в затянувшуюся зону турбулентности. Иногда казалось, что над сценариями развития ситуации работали профессиональные фантасты, прогнозирующие варианты по всей длине шкалы — от полного прекращения поставок «железа» и схлопывания рынка из-за отсутствия доступа к инструментам разработки до нового ИТ-ренессанса в связи с уходом международных компаний, прежде занимавших ведущие позиции.

Эксперты Content AI, наблюдавшие за ситуацией внутри воронки смерча, поговорили «за ИТ» уже из дня сегодняшнего: с чем в итоге подошел отечественный рынок к 2023 году, какие тренды наметились в области разработки ПО и в какую сторону дальше будет двигаться российская сфера ИТ. 

Как говорится, запомните этот твит. 

Читать далее

Добрый вечер, здравствуйте

Reading time2 min
Views4.9K

Если вы программист, тестировщик или другой обитатель мира IT, то, возможно, ранее вы следили за деятельностью компании ABBYY, ведущего мирового разработчика решений в области интеллектуальной обработки информации и анализа бизнес-процессов. Весной 2022 года ABBYY приняла решение уйти из России, а мы — команда разработки и менеджмента бывшего российского офиса ABBYY — создали новую компанию Content AI. Мы посчитали важным сохранить многолетний архив этого блога, ведь в нем отражается путь не только одной компании, но и всей сферы AI российского IT.

И мы начинаем новую главу этой истории. 

Читать далее

Приплюснутый, плюсы и «кресты»: за что мы любим и ненавидим C++

Reading time8 min
Views21K

В конце прошлого года 71 год исполнился Бьерну Страуструпу – создателю C++, одного из самых сложных и интересных языков программирования. Мы в ABBYY любим C++, ведь он лежит в основе и наших технологий компьютерного зрения, и используется в алгоритмах обработки естественного языка, да и опенсорсная библиотека ABBYY NeoML опирается на «плюсы».

По случаю дня рождения Бьерна Страуструпа мы поговорили с Дмитрием, руководителем группы разработчиков, которые создают в компании технологии для интеллектуального анализа бизнес-процессов. Мы уже немного рассказывали об этом решении в одном из постов. Дима работает на C++ уже 15 лет, начинал еще до того, как появился так называемый modern C++ (C++11/14 и выше). Он рассказал о том, как впервые столкнулся с C++, какие возможности есть у этого языка и что советует тем, кто только начинает погружаться в его основы или хочет прокачаться в теме.

Читать далее
1
23 ...

Information

Rating
739-th
Location
Россия
Works in
Registered
Activity