Pull to refresh
8K+
-3
6,3
Rating
1
Subscribers
Send message

Это по состоянию на какую дату такой набор моделей?

Весна 2025. Сейчас уже модели были бы другие, конечно, и версии Qwen новые вышли, и Gemma, да. Но подход тот же, и он подходит, чтобы наш клиент сейчас уже самостоятельно мог в пайплайне заменить модели и получить оценки.

Насчет Gemini и экономии - согласен, если экономия минимальная, и нет потребности разворачивать локально для сохранения данных внутри, то любые небольшие опен-сорс модели скорее всего проиграют моделям топовых лаб. Тут нашему клиенту было важно именно иметь локальную модель в своем контуре, чтобы данные его не покидали.

Про подход к решению - такой может сработать вполне. Тут мы не говорили о том, как именно получаются саммари - пайплайн автоматической оценки качества требует транскрипции и саммари для оценки, как именно получается саммари ему не важно, поэтому такой подход тоже можно было бы оценить.

Про файнтюнинг - мы как раз делали такое для других подобных задач у другого клиента, тюнили gpt-oss-120b. Качество ответов росло, хотя и проигрывало GPT-5 как раз. Но в целом, если есть данные, и нужна локальная модель, тюнить однозначно полезно.

Мы автоматизируем проверку документов, а не откаты)

По отклонениям: если заявка не проходит по какому-то пункту — это помечается с цитатой из документа. Решение об отклонении остаётся за комиссией, но обоснование уже готово и защитимо при жалобе в ФАС.
По опыту работы: сейчас система работает с тем, что заявлено в документах. Она сопоставит тематику опыта с предметом закупки и подсветит нестыковки, но проверить, реальны ли контракты и не было ли по ним нарушений — это уже внешние реестры (ЕИС, РНП). Интеграцию с ними прорабатываем, но пока этот кусок — ручная работа.

Сервис покажет, кто подходит наиболее, а кто наименее. Среди лучших кандидатов мы рекомендуем проверить людьми. Других кандидатов можно откинуть сразу.
Проверки лучших кандидатов также ускоряется, т.к. сервис подсвечивает, в каких документах какие пункты подтверждаются, какие опровергаются, а что нужно дозапросить - это значительно ускоряет проверку.

Значит хорошая КДПВ)
Короче, флаг упадет на арену, по нему проедут колеса, а робот растворится в пространстве, но каждая его молекула останется наблюдателем. Он будет везде, ведь это его площадка.

Добрый день, у оригинального SWE-bench есть сайт, а у нас свой код/данные, которые мы делаем для отдельных клиентов.
https://www.swebench.com/

  1. Статью написал не Алексей Пименов, она подготовлена на основе записи подкаста с ним. Хотите разобраться подробнее — смотрите подкаст. Там, кстати, разыгрывается его книга, и у вас все шансы получить ее бесплатно.

  2. Сложно ответить на претензию про "нехорошесть и неполезность", критерии очень субъективные. Очевидно, вы ожидали практическое руководство по внедрению Канбан?

Information

Rating
979-th
Works in
Registered
Activity