Обновить
8K+
-3

Пользователь

7,2
Рейтинг
1
Подписчики
Отправить сообщение

Актуальность статьи состоит в описании методологии, а не самом списке моделей. Новые выходят постоянно, с помощью описанного подхода можно продолжать их оценивать и выбирать лучшую под имеющиеся ресурсы железа.

Сейчас, к сожалению, сравнить не можем, но про судью, кстати, интересное замечание - приятный бонус подхода LLM-as-a-Judge состоит в том, что с выходом новых моделей можно получить прирост качества системы оценки по сути забесплатно, просто меняя модель.

Это по состоянию на какую дату такой набор моделей?

Весна 2025. Сейчас уже модели были бы другие, конечно, и версии Qwen новые вышли, и Gemma, да. Но подход тот же, и он подходит, чтобы наш клиент сейчас уже самостоятельно мог в пайплайне заменить модели и получить оценки.

Насчет Gemini и экономии - согласен, если экономия минимальная, и нет потребности разворачивать локально для сохранения данных внутри, то любые небольшие опен-сорс модели скорее всего проиграют моделям топовых лаб. Тут нашему клиенту было важно именно иметь локальную модель в своем контуре, чтобы данные его не покидали.

Про подход к решению - такой может сработать вполне. Тут мы не говорили о том, как именно получаются саммари - пайплайн автоматической оценки качества требует транскрипции и саммари для оценки, как именно получается саммари ему не важно, поэтому такой подход тоже можно было бы оценить.

Про файнтюнинг - мы как раз делали такое для других подобных задач у другого клиента, тюнили gpt-oss-120b. Качество ответов росло, хотя и проигрывало GPT-5 как раз. Но в целом, если есть данные, и нужна локальная модель, тюнить однозначно полезно.

Мы автоматизируем проверку документов, а не откаты)

По отклонениям: если заявка не проходит по какому-то пункту — это помечается с цитатой из документа. Решение об отклонении остаётся за комиссией, но обоснование уже готово и защитимо при жалобе в ФАС.
По опыту работы: сейчас система работает с тем, что заявлено в документах. Она сопоставит тематику опыта с предметом закупки и подсветит нестыковки, но проверить, реальны ли контракты и не было ли по ним нарушений — это уже внешние реестры (ЕИС, РНП). Интеграцию с ними прорабатываем, но пока этот кусок — ручная работа.

Сервис покажет, кто подходит наиболее, а кто наименее. Среди лучших кандидатов мы рекомендуем проверить людьми. Других кандидатов можно откинуть сразу.
Проверки лучших кандидатов также ускоряется, т.к. сервис подсвечивает, в каких документах какие пункты подтверждаются, какие опровергаются, а что нужно дозапросить - это значительно ускоряет проверку.

Значит хорошая КДПВ)
Короче, флаг упадет на арену, по нему проедут колеса, а робот растворится в пространстве, но каждая его молекула останется наблюдателем. Он будет везде, ведь это его площадка.

Добрый день, у оригинального SWE-bench есть сайт, а у нас свой код/данные, которые мы делаем для отдельных клиентов.
https://www.swebench.com/

  1. Статью написал не Алексей Пименов, она подготовлена на основе записи подкаста с ним. Хотите разобраться подробнее — смотрите подкаст. Там, кстати, разыгрывается его книга, и у вас все шансы получить ее бесплатно.

  2. Сложно ответить на претензию про "нехорошесть и неполезность", критерии очень субъективные. Очевидно, вы ожидали практическое руководство по внедрению Канбан?

Информация

В рейтинге
887-й
Работает в
Зарегистрирован
Активность