Pull to refresh
37
0
Михаил Утробин@UtrobinMV

Machine Learning

Send message

На самом деле Интел на x86 то работает нестабильно. Намного полезней было бы запустить драйвера Nvidia и карточки nvidia например на Orange PI 5.

Я бы предложил использовать механизм разворачивания модели DeepSeek-R1-0528 с квантизацией AWQ 4bit, это позволит использовать DeepSeek с большим контекстом. При этом выгружать на CPU ничего не придется.

А с русским языком у нее как?

Какой фреймворк использовался для написания агентов? Какие llm?

Могу ли я сравнивать различные модели, с помощью данного бенчмарка, не отправляя сабмиты на сайт? т.е. в каком файле, после выполнения замеров, хранятся полученные метрики по модели?

Стоит попробовать, чтобы проверить. Модели можно доучивать на своих данных. В модели large больше параметров и она больше способна к переобучению. Поэтому здесь главное не переборщить.

  1. Сравнение моделей выполнено по большому количеству метрик, так как каждая из них оценивает различные критерии.
    Традиционные метрики, такие как BLEU, ROUGE и chrF, оценивают совпадения на уровне слов, n-грамм или подслов, но не всегда гарантируют, что результат будет полезным или понятным для человека. Более информативными в данном случае являются нейросетевые метрики, такие как COMET и BERTScore, которые учитывают именно семантическое сходство.
    Для финальной проверки качества всегда стоит привлекать человеческую оценку, чтобы убедиться, что модель действительно решает поставленную задачу. Также можно использовать большие языковые модели (LLM), такие как DeepSeek V3 или ChatGPT-4, для автоматизированной оценки.
    Однако не стоит полностью исключать традиционные метрики, так как их достаточно легко и быстро вычислить, и в целом они на начальном этапе коррелируют с нейросетевыми метриками.

  2. Большие языковые модели (LLM) действительно показывают отличные результаты в задаче суммаризации, особенно модели с 30 миллиардами параметров и более. Многие датасеты на Hugging Face уже создаются с использованием таких моделей, включая ChatGPT-4. С выходом DeepSeek V3 можно ожидать появления еще большего количества подобных датасетов.

  3. brief можно использовать для генерации заголовков, конечно. Возможно, даже base версия модели будет здесь более эффективной, так как она лучше справляется с краткими текстами. У Ильи Гусева, очень хорошая модель, которую я сам изначально использовал для суммаризации и она была лучшая для русского языка. Плюсы модели суммаризации Ильи, в том, что они учились именно на домене новостного сайта. И если ваша задача формировать заголовки новостей, то здесь возможно модель Ильи справится даже лучше.
    Я же старался сделать модель для более широкого круга использования, не ограничивающегося только новостными сайтами. Таких моделей общего использования не хватает в открытом доступе.

Добрый день! Эту модельку забыли добавить для сравнения. https://huggingface.co/utrobinmv/tts_ru_free_hf_vits_low_multispeaker Модель тоже на базе VITS, имеет свой словарь состоящий из букв русского алфавита, работает на Transformers без дополнительного кода, имеет ONNX версию, и двухголосый режим работы. Должна без особых проблем заводится на Triton Inference Server. Так же есть расширенная версия, которая училась сама расставлять ударения https://huggingface.co/utrobinmv/tts_ru_free_hf_vits_high_multispeaker

Ноль полезности. Зачем использовать Jax для тюнинга. Когда все научное сообщество использует pytorch? Прочитав статью думаю, что начинающие энтузиасты решат, что нужно купить AMD и изучать Jax. Но это путь в никуда, взять два самых непопулярных продукта и попытаться из них что то сделать.

Не самая лучшая статья для перевода!

Недавно нашел вот такой проект. https://github.com/Figma-Linux/figma-linux

Что скажете?

Пробовал, использовать torch.compile в стандартный transformers моделях. Не получается компилировать. Пробовал на t5. Поделитесь опытом, как вы это делаете? И если можно то скиньте какие у вас версии библиотек (обновленные версии)

Статья наверное хорошая. Но используемые технологии сильно устарели. Tensorflow уже давно забросила даже сама Google. А чат боты разрабатывают с помощью LLM.

Модели в открытом доступе. Каждый может воспользоваться. Я еще не встречал плохих отзывов, в целом все оценивают положительно.

Спасибо. Зашел на bilibili. Сайт вообще прикольный. Видео грузится быстро, китайского контента огромное количество. Но Яндекс переводчик видео к сожалению там пока не работает!!! Ждем когда ребята из Яндекс добавят переводчик к bilibili !!!!

Напишите название сайтов где можно смотреть видео контент на китайском. В частности по Deep Learning. С переводом в яндекс браузере. Не в YouTube же. Так как он запрещен на территории китая. И нормальные видосы там не выкладываются.

Молодцы. Сразу видно, что достойная работа!

У меня вот так. Но текст ведь должен быть на английском? Разве нет.

Да, к нейросетевым переводчикам нужно еще привыкнуть. Примерно сейчас все точно так же многие тестируют ChatGPT, кто то от него в восторге, а тот кто начинает копать чуть глубже, убеждается, что далеко все не так хорошо, а скорее даже очень плохо. Наверное со временем все привыкнут.

"Интересно, если модели при обучении помимо англо-русских пар "скармливать" полностью русскоязычную фразу" - да это должно улучшить!

Но если серъезно, то ваши комментарии очень полезны, и если я в будущем решу улучшить качество перевода, я непременно обращу внимание на эти замечания. Спасибо вам!

1
23 ...

Information

Rating
5,695-th
Date of birth
Registered
Activity