Comments 7
Предлагаю протестировать эти модели суммаризации в ваших проектах.
Если у вас есть предложения по улучшению моделей, буду рад вашим идеям и обратной связи.
Тут бы ещё инструкцию приложить, где и как тестировать. Или это простым смертным юзерам недоступно?
Думаю, самое простое это в google colab скопировать код из статьи или из описания модели https://huggingface.co/utrobinmv/t5_summary_en_ru_zh_large_2048
Спасибо за модель. Извиняюсь, несколько вопросов:
1) Правильно ли я понимаю, что некоторые метрики (слышал про rogue, например) чисто математические и при высоких значениях результаты получаются не очень для человека?
2) Как справляются с такой задачей размышляющие LLM'ки? Можно ли их использовать, например, для подготовки датасетов?
3) Можно ли brief использовать для заголовков? Просто видел, что тот же IlyaGusev вроде делал отдельные модели для этой задачи. Предполагаю, что будет маловато чего-то цепляющего.
Сравнение моделей выполнено по большому количеству метрик, так как каждая из них оценивает различные критерии.
Традиционные метрики, такие как BLEU, ROUGE и chrF, оценивают совпадения на уровне слов, n-грамм или подслов, но не всегда гарантируют, что результат будет полезным или понятным для человека. Более информативными в данном случае являются нейросетевые метрики, такие как COMET и BERTScore, которые учитывают именно семантическое сходство.
Для финальной проверки качества всегда стоит привлекать человеческую оценку, чтобы убедиться, что модель действительно решает поставленную задачу. Также можно использовать большие языковые модели (LLM), такие как DeepSeek V3 или ChatGPT-4, для автоматизированной оценки.
Однако не стоит полностью исключать традиционные метрики, так как их достаточно легко и быстро вычислить, и в целом они на начальном этапе коррелируют с нейросетевыми метриками.Большие языковые модели (LLM) действительно показывают отличные результаты в задаче суммаризации, особенно модели с 30 миллиардами параметров и более. Многие датасеты на Hugging Face уже создаются с использованием таких моделей, включая ChatGPT-4. С выходом DeepSeek V3 можно ожидать появления еще большего количества подобных датасетов.
brief можно использовать для генерации заголовков, конечно. Возможно, даже base версия модели будет здесь более эффективной, так как она лучше справляется с краткими текстами. У Ильи Гусева, очень хорошая модель, которую я сам изначально использовал для суммаризации и она была лучшая для русского языка. Плюсы модели суммаризации Ильи, в том, что они учились именно на домене новостного сайта. И если ваша задача формировать заголовки новостей, то здесь возможно модель Ильи справится даже лучше.
Я же старался сделать модель для более широкого круга использования, не ограничивающегося только новостными сайтами. Таких моделей общего использования не хватает в открытом доступе.
Спасибо за модели.
"Модель large обучалась 2 эпохи, почти месяц" если обучать ещё пару эпох, метрики будут лучше?
Как я объединил перевод и суммаризацию текстов, и что из этого вышло