Это по состоянию на какую дату такой набор моделей?
Весна 2025. Сейчас уже модели были бы другие, конечно, и версии Qwen новые вышли, и Gemma, да. Но подход тот же, и он подходит, чтобы наш клиент сейчас уже самостоятельно мог в пайплайне заменить модели и получить оценки.
Насчет Gemini и экономии - согласен, если экономия минимальная, и нет потребности разворачивать локально для сохранения данных внутри, то любые небольшие опен-сорс модели скорее всего проиграют моделям топовых лаб. Тут нашему клиенту было важно именно иметь локальную модель в своем контуре, чтобы данные его не покидали.
Про подход к решению - такой может сработать вполне. Тут мы не говорили о том, как именно получаются саммари - пайплайн автоматической оценки качества требует транскрипции и саммари для оценки, как именно получается саммари ему не важно, поэтому такой подход тоже можно было бы оценить.
Про файнтюнинг - мы как раз делали такое для других подобных задач у другого клиента, тюнили gpt-oss-120b. Качество ответов росло, хотя и проигрывало GPT-5 как раз. Но в целом, если есть данные, и нужна локальная модель, тюнить однозначно полезно.
По отклонениям: если заявка не проходит по какому-то пункту — это помечается с цитатой из документа. Решение об отклонении остаётся за комиссией, но обоснование уже готово и защитимо при жалобе в ФАС. По опыту работы: сейчас система работает с тем, что заявлено в документах. Она сопоставит тематику опыта с предметом закупки и подсветит нестыковки, но проверить, реальны ли контракты и не было ли по ним нарушений — это уже внешние реестры (ЕИС, РНП). Интеграцию с ними прорабатываем, но пока этот кусок — ручная работа.
Сервис покажет, кто подходит наиболее, а кто наименее. Среди лучших кандидатов мы рекомендуем проверить людьми. Других кандидатов можно откинуть сразу. Проверки лучших кандидатов также ускоряется, т.к. сервис подсвечивает, в каких документах какие пункты подтверждаются, какие опровергаются, а что нужно дозапросить - это значительно ускоряет проверку.
Значит хорошая КДПВ) Короче, флаг упадет на арену, по нему проедут колеса, а робот растворится в пространстве, но каждая его молекула останется наблюдателем. Он будет везде, ведь это его площадка.
Статью написал не Алексей Пименов, она подготовлена на основе записи подкаста с ним. Хотите разобраться подробнее — смотрите подкаст. Там, кстати, разыгрывается его книга, и у вас все шансы получить ее бесплатно.
Сложно ответить на претензию про "нехорошесть и неполезность", критерии очень субъективные. Очевидно, вы ожидали практическое руководство по внедрению Канбан?
Весна 2025. Сейчас уже модели были бы другие, конечно, и версии Qwen новые вышли, и Gemma, да. Но подход тот же, и он подходит, чтобы наш клиент сейчас уже самостоятельно мог в пайплайне заменить модели и получить оценки.
Насчет Gemini и экономии - согласен, если экономия минимальная, и нет потребности разворачивать локально для сохранения данных внутри, то любые небольшие опен-сорс модели скорее всего проиграют моделям топовых лаб. Тут нашему клиенту было важно именно иметь локальную модель в своем контуре, чтобы данные его не покидали.
Про подход к решению - такой может сработать вполне. Тут мы не говорили о том, как именно получаются саммари - пайплайн автоматической оценки качества требует транскрипции и саммари для оценки, как именно получается саммари ему не важно, поэтому такой подход тоже можно было бы оценить.
Про файнтюнинг - мы как раз делали такое для других подобных задач у другого клиента, тюнили gpt-oss-120b. Качество ответов росло, хотя и проигрывало GPT-5 как раз. Но в целом, если есть данные, и нужна локальная модель, тюнить однозначно полезно.
Мы автоматизируем проверку документов, а не откаты)
По отклонениям: если заявка не проходит по какому-то пункту — это помечается с цитатой из документа. Решение об отклонении остаётся за комиссией, но обоснование уже готово и защитимо при жалобе в ФАС.
По опыту работы: сейчас система работает с тем, что заявлено в документах. Она сопоставит тематику опыта с предметом закупки и подсветит нестыковки, но проверить, реальны ли контракты и не было ли по ним нарушений — это уже внешние реестры (ЕИС, РНП). Интеграцию с ними прорабатываем, но пока этот кусок — ручная работа.
Сервис покажет, кто подходит наиболее, а кто наименее. Среди лучших кандидатов мы рекомендуем проверить людьми. Других кандидатов можно откинуть сразу.
Проверки лучших кандидатов также ускоряется, т.к. сервис подсвечивает, в каких документах какие пункты подтверждаются, какие опровергаются, а что нужно дозапросить - это значительно ускоряет проверку.
Значит хорошая КДПВ)
Короче, флаг упадет на арену, по нему проедут колеса, а робот растворится в пространстве, но каждая его молекула останется наблюдателем. Он будет везде, ведь это его площадка.
Добрый день, у оригинального SWE-bench есть сайт, а у нас свой код/данные, которые мы делаем для отдельных клиентов.
https://www.swebench.com/
Статью написал не Алексей Пименов, она подготовлена на основе записи подкаста с ним. Хотите разобраться подробнее — смотрите подкаст. Там, кстати, разыгрывается его книга, и у вас все шансы получить ее бесплатно.
Сложно ответить на претензию про "нехорошесть и неполезность", критерии очень субъективные. Очевидно, вы ожидали практическое руководство по внедрению Канбан?