Кто победит в соревновании по обработке документов — опытный специалист или нейросеть? На рутинных повторяющихся задачах ИИ уверенно обходит человека: он работает быстрее и не устаёт, тогда как внимание человека дискретно — мы ошибаемся из‑за усталости или монотонности работы.
Оптимальное решение — разделить роли: нейросеть быстро и точно сортирует данные, а человек ставит задачи, контролирует процесс и оценивает результат. Как же на практике превратить ИИ-помощника и живого эксперта в эффективную команду?

Для этого мы в Doubletapp разработали ИИ-платформу, которая облегчает и ускоряет работу с тендерной документацией:
проверяет документы потенциальных подрядчиков на соответствие требованиям,
отсеивает нерелевантных заявителей с неполным комплектом документов или без нужных компетенций,
ранжирует годных кандидатов по степени соответствия.
Почему вручную проверять тендерную документацию сложно
Главная сложность — не в количестве подрядчиков, а в качестве работы с документацией. Вот список типовых проблем:
требования распределены по нескольким файлам;
часть документации поступает в виде сканов;
подрядчики по‑разному трактуют одни и те же положения;
нужно не только проверить документы, но и чётко показать, на чём основан каждый вывод.
Наша задача — не просто ускорить процесс, а сделать его прозрачным, точным и проверяемым.
Команда Doubletapp спроектировала систему, которая воспроизводит логику работы опытного тендерного специалиста:
Сначала понять, какие требования вообще есть.
Затем проверить, выполнены ли они у каждого подрядчика.
И только после этого сравнивать участников между собой.
Под капотом: как технически устроена система
Обработка документов
Тендерная документация приходит в самых разных форматах: PDF, DOCX, Excel, сканы, архивы. Система автоматически извлекает текст из каждого формата, при необходимости подключая OCR для распознавания сканов. На выходе — единое текстовое представление, готовое для анализа языковой моделью.
Трёхфазный LLM‑пайплайн
Внутри платформы работает конвейер из трёх последовательных фаз, каждая со своей ролью языковой модели:
Извлечение чек‑листа. LLM выступает в роли эксперта по структурированию требований. На вход — сырой текст требований тендерной документации, на выходе — десятки чётко сформулированных пунктов, каждый из которых можно проверить по документам подрядчика.
Поэлементная проверка подрядчиков. Каждый пункт чек‑листа проверяется отдельным запросом для каждой компании. По каждому пункту система выносит вердикт: «соответствует», «не соответствует» или «недостаточно данных» — и прикладывает цитату и ссылку на конкретный документ в качестве доказательства.
Финальное ранжирование. LLM получает результаты проверки всех компаний и формирует итоговый рейтинг с рекомендациями — заключить контракт, включить в шорт‑лист или отклонить — с обоснованием каждого решения.
Поэлементная декомпозиция требований позволила сильно нарастить качество проверки. Когда каждое требование проверяется отдельным вызовом, модель фокусируется на одной задаче и реже ошибается. А ещё это позволяет использовать prompt caching: большая часть запроса (системный промпт и документы компании) остаётся неизменной, меняется только конкретный пункт — это экономит и время, и ресурсы.
Инфраструктура и масштабирование
Платформа поддерживает несколько LLM‑провайдеров — DeepSeek, YandexGPT, GigaChat — а для полностью локального развёртывания используется vLLM.
Запросы к LLM выполняются параллельно, что критично для скорости: проверка десятков пунктов по нескольким компаниям идёт одновременно, а не последовательно.
В рамках проекта наилучшие результаты показали open‑source модели DeepSeek V3.1 и Qwen3‑235B‑A22B, которые разворачиваются в контуре заказчика через vLLM. Это обеспечивает полный контроль над данными и независимость от внешних API.
Как мы проверяем качество: автоматическая оценка точности
Когда ИИ‑система влияет на решения, связанные с реальными деньгами, нужны воспроизводимые метрики — и мы их построили.
Эталонная разметка. Эксперты вручную разметили тендерные документы: выделили требования по пунктам и для каждого подрядчика определили — соответствует, не соответствует, нужно дозапросить. Эта разметка стала «золотым стандартом», относительно которого мы измеряем качество системы.
Оценка извлечения требований. Система извлекает требования из документов тендера, а затем отдельная LLM в режиме судьи (LLM-as-a-judge) сравнивает найденные пункты с эталонными. Почему нужен ИИ‑судья? Потому что сравнение свободных текстовых формулировок на смысловую эквивалентность — само по себе нетривиальная задача, простым совпадением строк её не решить.
Результат: точность 93%.
Оценка проверки соответствия. Здесь мы берём эталонные требования (не те, что нашла LLM, а размеченные экспертами) и проверяем, как LLM определяет соответствие подрядчиков. Для каждой пары «требование — подрядчик» сравниваем ответ модели с ответом эксперта. Ответы категориальные (да / нет / неясно), поэтому сравнение чисто техническое.
Результат: точность 92%.
Наличие автоматизированной системы оценки позволило системно улучшать промпты и выбирать модели. Каждое изменение проходило проверку на бенчмарке до того, как попадало в продакшн.
Результаты
Практический эффект:
анализ тендерной документации проходит быстрее в 5 раз;
50-страничный документ проверяется за 5–7 минут
снижается доля ручных проверок;
решения принимаются прозрачно — легко увидеть обоснования для каждого из них;
результаты тендерных процедур вызывают больше доверия, так как они проверяемы и не подвержены влиянию человеческого фактора.
Организационные преимущества:
единый кабинет для работы со всеми тендерами;
разворачиваем в контуре заказчика за 5 дней,
удовлетворяет требованиям по безопасности для промышленности; медицины, финансового сектора;
интегрируется с ЕИС, 1С, SAP и BI-платформами;
обучаем команду, предоставляем методические материалы.
Оценить платформу и запросить демо: Tender.doubletapp.ai
