Комментарии / Профиль JDTapp / Хабр

@JDTapp

Пользователь

1,5

Рейтинг

Подписчики

ПрофильСтатьи11Посты18Новости5Комментарии9

Выбираем и оцениваем open-source LLM для саммаризации встреч

JDTapp 12 мая в 12:48

Актуальность статьи состоит в описании методологии, а не самом списке моделей. Новые выходят постоянно, с помощью описанного подхода можно продолжать их оценивать и выбирать лучшую под имеющиеся ресурсы железа.

Выбираем и оцениваем open-source LLM для саммаризации встреч

JDTapp 6 мая в 10:41

Сейчас, к сожалению, сравнить не можем, но про судью, кстати, интересное замечание - приятный бонус подхода LLM-as-a-Judge состоит в том, что с выходом новых моделей можно получить прирост качества системы оценки по сути забесплатно, просто меняя модель.

Выбираем и оцениваем open-source LLM для саммаризации встреч

JDTapp 5 мая в 22:34

Это по состоянию на какую дату такой набор моделей?

Весна 2025. Сейчас уже модели были бы другие, конечно, и версии Qwen новые вышли, и Gemma, да. Но подход тот же, и он подходит, чтобы наш клиент сейчас уже самостоятельно мог в пайплайне заменить модели и получить оценки.

Насчет Gemini и экономии - согласен, если экономия минимальная, и нет потребности разворачивать локально для сохранения данных внутри, то любые небольшие опен-сорс модели скорее всего проиграют моделям топовых лаб. Тут нашему клиенту было важно именно иметь локальную модель в своем контуре, чтобы данные его не покидали.

Про подход к решению - такой может сработать вполне. Тут мы не говорили о том, как именно получаются саммари - пайплайн автоматической оценки качества требует транскрипции и саммари для оценки, как именно получается саммари ему не важно, поэтому такой подход тоже можно было бы оценить.

Про файнтюнинг - мы как раз делали такое для других подобных задач у другого клиента, тюнили gpt-oss-120b. Качество ответов росло, хотя и проигрывало GPT-5 как раз. Но в целом, если есть данные, и нужна локальная модель, тюнить однозначно полезно.

Тендеры без ошибок: как ИИ обошёл экспертов в проверке документации

JDTapp 7 апр в 13:27

Мы автоматизируем проверку документов, а не откаты)

Тендеры без ошибок: как ИИ обошёл экспертов в проверке документации

JDTapp 6 апр в 15:48

По отклонениям: если заявка не проходит по какому-то пункту — это помечается с цитатой из документа. Решение об отклонении остаётся за комиссией, но обоснование уже готово и защитимо при жалобе в ФАС.
По опыту работы: сейчас система работает с тем, что заявлено в документах. Она сопоставит тематику опыта с предметом закупки и подсветит нестыковки, но проверить, реальны ли контракты и не было ли по ним нарушений — это уже внешние реестры (ЕИС, РНП). Интеграцию с ними прорабатываем, но пока этот кусок — ручная работа.

Тендеры без ошибок: как ИИ обошёл экспертов в проверке документации

JDTapp 6 апр в 13:44

Сервис покажет, кто подходит наиболее, а кто наименее. Среди лучших кандидатов мы рекомендуем проверить людьми. Других кандидатов можно откинуть сразу.
Проверки лучших кандидатов также ускоряется, т.к. сервис подсвечивает, в каких документах какие пункты подтверждаются, какие опровергаются, а что нужно дозапросить - это значительно ускоряет проверку.

Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor

JDTapp 31 мар в 10:45

Значит хорошая КДПВ)
Короче, флаг упадет на арену, по нему проедут колеса, а робот растворится в пространстве, но каждая его молекула останется наблюдателем. Он будет везде, ведь это его площадка.

Как мы собираем SWE-bench на других языках

JDTapp 26 мая 2025 в 10:52

Добрый день, у оригинального SWE-bench есть сайт, а у нас свой код/данные, которые мы делаем для отдельных клиентов.
https://www.swebench.com/

У любого менеджера есть сумка с инструментами, и я в нее отсыпаю еще инструмент: Алексей Пименов – о Канбан Методе в IT

JDTapp 13 июл 2024 в 11:27

Статью написал не Алексей Пименов, она подготовлена на основе записи подкаста с ним. Хотите разобраться подробнее — смотрите подкаст. Там, кстати, разыгрывается его книга, и у вас все шансы получить ее бесплатно.
Сложно ответить на претензию про "нехорошесть и неполезность", критерии очень субъективные. Очевидно, вы ожидали практическое руководство по внедрению Канбан?