Кто победит в соревновании по обработке документов — опытный специалист или нейросеть? На рутинных повторяющихся задачах ИИ уверенно обходит человека: он работает быстрее и не устаёт, тогда как внимание человека дискретно — мы ошибаемся из‑за усталости или монотонности работы.

Оптимальное решение — разделить роли: нейросеть быстро и точно сортирует данные, а человек ставит задачи, контролирует процесс и оценивает результат. Как же на практике превратить ИИ-помощника и живого эксперта в эффективную команду?

Для этого мы в Doubletapp разработали ИИ-платформу, которая облегчает и ускоряет работу с тендерной документацией:

  • проверяет документы потенциальных подрядчиков на соответствие требованиям,

  • отсеивает нерелевантных заявителей с неполным комплектом документов или без нужных компетенций,

  • ранжирует годных кандидатов по степени соответствия.

Почему вручную проверять тендерную документацию сложно

Главная сложность — не в количестве подрядчиков, а в качестве работы с документацией. Вот список типовых проблем:

  • требования распределены по нескольким файлам;

  • часть документации поступает в виде сканов;

  • подрядчики по‑разному трактуют одни и те же положения;

  • нужно не только проверить документы, но и чётко показать, на чём основан каждый вывод.

Наша задача — не просто ускорить процесс, а сделать его прозрачным, точным и проверяемым.

Команда Doubletapp спроектировала систему, которая воспроизводит логику работы опытного тендерного специалиста:

  • Сначала понять, какие требования вообще есть.

  • Затем проверить, выполнены ли они у каждого подрядчика.

  • И только после этого сравнивать участников между собой.

Под капотом: как технически устроена система

Обработка документов

Тендерная документация приходит в самых разных форматах: PDF, DOCX, Excel, сканы, архивы. Система автоматически извлекает текст из каждого формата, при необходимости подключая OCR для распознавания сканов. На выходе — единое текстовое представление, готовое для анализа языковой моделью.

Трёхфазный LLM‑пайплайн

Внутри платформы работает конвейер из трёх последовательных фаз, каждая со своей ролью языковой модели:

  1. Извлечение чек‑листа. LLM выступает в роли эксперта по структурированию требований. На вход — сырой текст требований тендерной документации, на выходе — десятки чётко сформулированных пунктов, каждый из которых можно проверить по документам подрядчика.

  2. Поэлементная проверка подрядчиков. Каждый пункт чек‑листа проверяется отдельным запросом для каждой компании. По каждому пункту система выносит вердикт: «соответствует», «не соответствует» или «недостаточно данных» — и прикладывает цитату и ссылку на конкретный документ в качестве доказательства.

  3. Финальное ранжирование. LLM получает результаты проверки всех компаний и формирует итоговый рейтинг с рекомендациями — заключить контракт, включить в шорт‑лист или отклонить — с обоснованием каждого решения.

Поэлементная декомпозиция требований позволила сильно нарастить качество проверки. Когда каждое требование проверяется отдельным вызовом, модель фокусируется на одной задаче и реже ошибается. А ещё это позволяет использовать prompt caching: большая часть запроса (системный промпт и документы компании) остаётся неизменной, меняется только конкретный пункт — это экономит и время, и ресурсы.

Инфраструктура и масштабирование

Платформа поддерживает несколько LLM‑провайдеров — DeepSeek, YandexGPT, GigaChat — а для полностью локального развёртывания используется vLLM.

Запросы к LLM выполняются параллельно, что критично для скорости: проверка десятков пунктов по нескольким компаниям идёт одновременно, а не последовательно.

В рамках проекта наилучшие результаты показали open‑source модели DeepSeek V3.1 и Qwen3‑235B‑A22B, которые разворачиваются в контуре заказчика через vLLM. Это обеспечивает полный контроль над данными и независимость от внешних API.

Как мы проверяем качество: автоматическая оценка точности

Когда ИИ‑система влияет на решения, связанные с реальными деньгами, нужны воспроизводимые метрики — и мы их построили.

Эталонная разметка. Эксперты вручную разметили тендерные документы: выделили требования по пунктам и для каждого подрядчика определили — соответствует, не соответствует, нужно дозапросить. Эта разметка стала «золотым стандартом», относительно которого мы измеряем качество системы.

Оценка извлечения требований. Система извлекает требования из документов тендера, а затем отдельная LLM в режиме судьи (LLM-as-a-judge) сравнивает найденные пункты с эталонными. Почему нужен ИИ‑судья? Потому что сравнение свободных текстовых формулировок на смысловую эквивалентность — само по себе нетривиальная задача, простым совпадением строк её не решить.
Результат: точность 93%.

Оценка проверки соответствия. Здесь мы берём эталонные требования (не те, что нашла LLM, а размеченные экспертами) и проверяем, как LLM определяет соответствие подрядчиков. Для каждой пары «требование — подрядчик» сравниваем ответ модели с ответом эксперта. Ответы категориальные (да / нет / неясно), поэтому сравнение чисто техническое. 
Результат: точность 92%.

Наличие автоматизированной системы оценки позволило системно улучшать промпты и выбирать модели. Каждое изменение проходило проверку на бенчмарке до того, как попадало в продакшн.

Результаты

Практический эффект:

  • анализ тендерной документации проходит быстрее в 5 раз;

  • 50-страничный документ проверяется за 5–7 минут

  • снижается доля ручных проверок;

  • решения принимаются прозрачно — легко увидеть обоснования для каждого из них;

  • результаты тендерных процедур вызывают больше доверия, так как они проверяемы и не подвержены влиянию человеческого фактора.

Организационные преимущества:

  • единый кабинет для работы со всеми тендерами;

  • разворачиваем в контуре заказчика за 5 дней, 

  • удовлетворяет требованиям по безопасности для промышленности; медицины, финансового сектора;

  • интегрируется с ЕИС, 1С, SAP и BI-платформами;

  • обучаем команду, предоставляем методические материалы.

Оценить платформу и запросить демо: Tender.doubletapp.ai