Как стать автором
Обновить
38
0
Михаил Утробин @UtrobinMV

Machine Learning

Отправить сообщение

Могу ли я сравнивать различные модели, с помощью данного бенчмарка, не отправляя сабмиты на сайт? т.е. в каком файле, после выполнения замеров, хранятся полученные метрики по модели?

Стоит попробовать, чтобы проверить. Модели можно доучивать на своих данных. В модели large больше параметров и она больше способна к переобучению. Поэтому здесь главное не переборщить.

  1. Сравнение моделей выполнено по большому количеству метрик, так как каждая из них оценивает различные критерии.
    Традиционные метрики, такие как BLEU, ROUGE и chrF, оценивают совпадения на уровне слов, n-грамм или подслов, но не всегда гарантируют, что результат будет полезным или понятным для человека. Более информативными в данном случае являются нейросетевые метрики, такие как COMET и BERTScore, которые учитывают именно семантическое сходство.
    Для финальной проверки качества всегда стоит привлекать человеческую оценку, чтобы убедиться, что модель действительно решает поставленную задачу. Также можно использовать большие языковые модели (LLM), такие как DeepSeek V3 или ChatGPT-4, для автоматизированной оценки.
    Однако не стоит полностью исключать традиционные метрики, так как их достаточно легко и быстро вычислить, и в целом они на начальном этапе коррелируют с нейросетевыми метриками.

  2. Большие языковые модели (LLM) действительно показывают отличные результаты в задаче суммаризации, особенно модели с 30 миллиардами параметров и более. Многие датасеты на Hugging Face уже создаются с использованием таких моделей, включая ChatGPT-4. С выходом DeepSeek V3 можно ожидать появления еще большего количества подобных датасетов.

  3. brief можно использовать для генерации заголовков, конечно. Возможно, даже base версия модели будет здесь более эффективной, так как она лучше справляется с краткими текстами. У Ильи Гусева, очень хорошая модель, которую я сам изначально использовал для суммаризации и она была лучшая для русского языка. Плюсы модели суммаризации Ильи, в том, что они учились именно на домене новостного сайта. И если ваша задача формировать заголовки новостей, то здесь возможно модель Ильи справится даже лучше.
    Я же старался сделать модель для более широкого круга использования, не ограничивающегося только новостными сайтами. Таких моделей общего использования не хватает в открытом доступе.

Добрый день! Эту модельку забыли добавить для сравнения. https://huggingface.co/utrobinmv/tts_ru_free_hf_vits_low_multispeaker Модель тоже на базе VITS, имеет свой словарь состоящий из букв русского алфавита, работает на Transformers без дополнительного кода, имеет ONNX версию, и двухголосый режим работы. Должна без особых проблем заводится на Triton Inference Server. Так же есть расширенная версия, которая училась сама расставлять ударения https://huggingface.co/utrobinmv/tts_ru_free_hf_vits_high_multispeaker

Ноль полезности. Зачем использовать Jax для тюнинга. Когда все научное сообщество использует pytorch? Прочитав статью думаю, что начинающие энтузиасты решат, что нужно купить AMD и изучать Jax. Но это путь в никуда, взять два самых непопулярных продукта и попытаться из них что то сделать.

Не самая лучшая статья для перевода!

Недавно нашел вот такой проект. https://github.com/Figma-Linux/figma-linux

Что скажете?

Пробовал, использовать torch.compile в стандартный transformers моделях. Не получается компилировать. Пробовал на t5. Поделитесь опытом, как вы это делаете? И если можно то скиньте какие у вас версии библиотек (обновленные версии)

Статья наверное хорошая. Но используемые технологии сильно устарели. Tensorflow уже давно забросила даже сама Google. А чат боты разрабатывают с помощью LLM.

Модели в открытом доступе. Каждый может воспользоваться. Я еще не встречал плохих отзывов, в целом все оценивают положительно.

Спасибо. Зашел на bilibili. Сайт вообще прикольный. Видео грузится быстро, китайского контента огромное количество. Но Яндекс переводчик видео к сожалению там пока не работает!!! Ждем когда ребята из Яндекс добавят переводчик к bilibili !!!!

Напишите название сайтов где можно смотреть видео контент на китайском. В частности по Deep Learning. С переводом в яндекс браузере. Не в YouTube же. Так как он запрещен на территории китая. И нормальные видосы там не выкладываются.

Молодцы. Сразу видно, что достойная работа!

Спасибо, благодаря ссылке нашел еще одну IDE для Python. PyScripter

Я и не думал, что Delphi еще жив?! И кто то на нем программирует.

У меня вот так. Но текст ведь должен быть на английском? Разве нет.

Да, к нейросетевым переводчикам нужно еще привыкнуть. Примерно сейчас все точно так же многие тестируют ChatGPT, кто то от него в восторге, а тот кто начинает копать чуть глубже, убеждается, что далеко все не так хорошо, а скорее даже очень плохо. Наверное со временем все привыкнут.

"Интересно, если модели при обучении помимо англо-русских пар "скармливать" полностью русскоязычную фразу" - да это должно улучшить!

Но если серъезно, то ваши комментарии очень полезны, и если я в будущем решу улучшить качество перевода, я непременно обращу внимание на эти замечания. Спасибо вам!

Да действительно модель лучше умеет переводить по одному предложению.

Действительно и тестировалась модель прежде всего на текстах состоящих из одного предложения.

Получается, в качестве рекомендаций, можно посоветовать разбивать тексты на предложения и переводить их по отдельности.

Во втором случае "crimson" - я считаю, что даже я лучше бы не перевел. ) Как по мне модель отлично справилась

Спасибо за вопрос. Правда наверное стоит его в той статье и задавать, уведомления там мне так же приходят.

На самом деле, чувствительна к капитализации как раз по той причине, что в процессе обучения у нас никак не изменяется капитализация слов. В результате для модели слово с большой буквы и с маленький имеет немного различный вес. т.е. если слово с большой буквы, то вероятно модель классифицирует его немного иначе. Ну и в процессе декондинга такое предложение уже имеет другую преплексию, что в целом при лучевом поиске влияет на результат выдачи, модели.

Чтобы этого избежать, необходимо специальным образом обучать модель, чтобы она была менее восприимчива к таким ситуациям.

Кстати в вашем случае вы ссылаетесь на модель с RU->EN. Я же готовил модель переводящая с EN->RU. RU->EN модели с версией 1.7 пока не существует.

1
23 ...

Информация

В рейтинге
Не участвует
Дата рождения
Зарегистрирован
Активность