Замеры классических метрик не были проведены. При запуске бенчмарка появляется ответ каждой из моделей на «пример». Глобально ответы даёт верные, но есть небольшое расхождение. Например в text classification ответ отличается на 0,01%. Было бы круто провести анализ метрик популярных моделей. С радостью приму Pull Request ?
Я бы начал со следующего: 1. Надо подготовить данные. Нет смысла сразу запихивать в модельку весь текст. Для этого можно использовать re и gensim.parsing.preprocessing.remove_stopwords. Это первое что приходит на ум в препроцессинге. Основаня задача -- убрать всю воду из текста, оставив ключевые слова. 2. Моделька. Для ресерча я бы начал с похожести текстов. Для этого отлично подойдут модельки для "Feature Extraction" (этот пайпалйн есть в Optimum Transformers) и/или "Sentence Similarity". А потом полученые данные используем в косинусальном сходстве.
У юмани есть отдельная платформа — юкасса. Под ее крыло попадает и ИП. Не знаю точно про язык, но почти на 100% уверен что проблем с оплатой по карте не из СНГ проблем быть не должно.
Замеры классических метрик не были проведены. При запуске бенчмарка появляется ответ каждой из моделей на «пример». Глобально ответы даёт верные, но есть небольшое расхождение. Например в text classification ответ отличается на 0,01%. Было бы круто провести анализ метрик популярных моделей. С радостью приму Pull Request ?
Я бы начал со следующего:
1. Надо подготовить данные. Нет смысла сразу запихивать в модельку весь текст. Для этого можно использовать
re
иgensim.parsing.preprocessing.remove_stopwords
. Это первое что приходит на ум в препроцессинге. Основаня задача -- убрать всю воду из текста, оставив ключевые слова.2. Моделька. Для ресерча я бы начал с похожести текстов. Для этого отлично подойдут модельки для "Feature Extraction" (этот пайпалйн есть в Optimum Transformers) и/или "Sentence Similarity". А потом полученые данные используем в косинусальном сходстве.
На данный момент нейросеть может генерировать русские текста, но делает это кривовато. Тк основа была обучена исключительно на английском языке.
Некоторые результаты русских артистов можно найти тут: https://wandb.ai/huggingartists/huggingartists
Извините за такой долгий ответ
Спасибо!
label
Опечатка, спасибо.