Pull to refresh
15
0
Aleksey Korshuk @AlekseyKorshuk

User

Send message

Замеры классических метрик не были проведены. При запуске бенчмарка появляется ответ каждой из моделей на «пример». Глобально ответы даёт верные, но есть небольшое расхождение. Например в text classification ответ отличается на 0,01%. Было бы круто провести анализ метрик популярных моделей. С радостью приму Pull Request ?

Я бы начал со следующего:
1. Надо подготовить данные. Нет смысла сразу запихивать в модельку весь текст. Для этого можно использовать re и gensim.parsing.preprocessing.remove_stopwords. Это первое что приходит на ум в препроцессинге. Основаня задача -- убрать всю воду из текста, оставив ключевые слова.
2. Моделька. Для ресерча я бы начал с похожести текстов. Для этого отлично подойдут модельки для "Feature Extraction" (этот пайпалйн есть в Optimum Transformers) и/или "Sentence Similarity". А потом полученые данные используем в косинусальном сходстве.

На данный момент нейросеть может генерировать русские текста, но делает это кривовато. Тк основа была обучена исключительно на английском языке.

Некоторые результаты русских артистов можно найти тут: https://wandb.ai/huggingartists/huggingartists

Извините за такой долгий ответ ​

label

Опечатка, спасибо.

У юмани есть отдельная платформа — юкасса. Под ее крыло попадает и ИП. Не знаю точно про язык, но почти на 100% уверен что проблем с оплатой по карте не из СНГ проблем быть не должно.
Полностью согласен.

Information

Rating
Does not participate
Registered
Activity