Спасибо за предложение, да можно посмотреть на модель OpusMT и сравнить.
В данном случае метрика меряется на каждом корпусе пар предложений. Даже в приведенной вами ссылке видно, что у модели разные метрики для каждого корпуса. Я свою метрику получил, после того как протестил на корпусе от Яндекса в 1 млн пар предложений. Для того, чтобы сравнить модель OpusMT нужно её прогнать через корпус от Yandex, но с этим нужно время чтобы разобраться.
Мне бы больше подошел вариант, прогнать мою модель через корпус один или несколько из Benchmark от OPUS, например newstest2013.en.ru и посмотреть на метрики. Постараюсь сделать это в ближайшее время и отпишусь с результатом.
Однако в данном случае в плане применимости Argos Translate точно удобнее, так как это готовое решение по переводу.
Вопрос, а если этот декодер обучить на модели rubert-tiny2? То субъективно на ваш взгляд он должен работать лучше или хуже чем на LaBSE по качеству? Почему? если брать например только представление русского языка?
Когда речь идет о FastText, и о том, что это самое быстрое решение. То речь идет о какой то конкретной модели использующая FastText эмебединги? или просто бейзлайн FastText построенный на усреднении ембедингов слов предложения? если есть такая модель использующая FastText, то как она называется?
"LaBSE понимает смысл грубых текстов на русском языке не очень хорошо – видимо, в его обучающей выборке таких было немного". А если я захочу дообучить LaBSE на токсических текстах. То потом decoder тоже заново придется переобучать?
Спасибо, за интересные статьи! Данный декодер будет без дообучения работать с моделью cointegrated/LaBSE-en-ru ? или все же он только для основной LaBSE
Вроде как это не совсем дампы википедии, это уже предобработанные XML выгрузки данных. Настоящий дамп википедии лежит в json.gz. И прочитать про него информацию и скачать можно здесь
Вот если все это поставить на нормальный комп! Сколько экономии в ресурсах произойдет, по сравнению с перегруженными системами. У меня стоит xUbuntu с xfce, все летает, никаких тормозов. Софт по сути одинаков везде. На xUbuntu стоят все те же программы, только ресурсов больше свободных.
В snap насамом деле есть и плюсы и минусы. С одной стороны это контейнеризация, примерно как в docker. С другой стороны большее потребление ресурсов в совокупности с накладными расходами.
Самое главное, что это как опция, хочешь пользушься, хочешь отключаешь.
Давайте я вам пример приведу, из той же категории. Claws Mail - легковесный почтовик. Не требует ресурсы. До сих пор поддерживается и обновляется, работает под Linux, и не только.
Предлагаю обмениваться не на словах, а прямо скринами с монитором ресурсов из вашей операционной системы, где в целом видно сколько памяти всего, сколько ест операционная система, сколько все остальное вроде Оутлуга. и будем сравнивать.
Спасибо за предложение, да можно посмотреть на модель OpusMT и сравнить.
В данном случае метрика меряется на каждом корпусе пар предложений. Даже в приведенной вами ссылке видно, что у модели разные метрики для каждого корпуса. Я свою метрику получил, после того как протестил на корпусе от Яндекса в 1 млн пар предложений. Для того, чтобы сравнить модель OpusMT нужно её прогнать через корпус от Yandex, но с этим нужно время чтобы разобраться.
Мне бы больше подошел вариант, прогнать мою модель через корпус один или несколько из Benchmark от OPUS, например newstest2013.en.ru и посмотреть на метрики. Постараюсь сделать это в ближайшее время и отпишусь с результатом.
Однако в данном случае в плане применимости Argos Translate точно удобнее, так как это готовое решение по переводу.
Спасибо.
Вопрос, а если этот декодер обучить на модели rubert-tiny2? То субъективно на ваш взгляд он должен работать лучше или хуже чем на LaBSE по качеству? Почему? если брать например только представление русского языка?
Когда речь идет о FastText, и о том, что это самое быстрое решение. То речь идет о какой то конкретной модели использующая FastText эмебединги? или просто бейзлайн FastText построенный на усреднении ембедингов слов предложения? если есть такая модель использующая FastText, то как она называется?
"LaBSE понимает смысл грубых текстов на русском языке не очень хорошо – видимо, в его обучающей выборке таких было немного". А если я захочу дообучить LaBSE на токсических текстах. То потом decoder тоже заново придется переобучать?
Чуть позже я дочитал до конца, и нашел ответ сам. Еще раз спасибо.
Спасибо, за интересные статьи! Данный декодер будет без дообучения работать с моделью cointegrated/LaBSE-en-ru ? или все же он только для основной LaBSE
Вроде как это не совсем дампы википедии, это уже предобработанные XML выгрузки данных. Настоящий дамп википедии лежит в json.gz. И прочитать про него информацию и скачать можно здесь
https://www.wikidata.org/wiki/Wikidata:Database_download
Вот хотелось бы из него данные повыдергивать, в удобном виде.
Совсем немного пакетов потянет. Midnight Commander - очень легкая, памяти почти не потребляет, регулярно пользуюсь, очень удобно.
На Си пишешь и собираешь или на другом языке?
Микрофризы в Linux у тех, кто его запускается чтобы посмотреть через виртуальную машину из другой Операционной системы :)
Но даже если так. поставьте в виртулке xUbuntu. Даже в виртуалке думаю фризов вы не заметите. Что говорить, про реальную установку, космос!
Вот если все это поставить на нормальный комп! Сколько экономии в ресурсах произойдет, по сравнению с перегруженными системами. У меня стоит xUbuntu с xfce, все летает, никаких тормозов. Софт по сути одинаков везде. На xUbuntu стоят все те же программы, только ресурсов больше свободных.
Если вам не нравится Snap. Дело буквально двух команд.
Вот статья.
https://losst.ru/kak-udalit-snap-paket
Лично я сам удаляю на слабых машинах.
В snap насамом деле есть и плюсы и минусы. С одной стороны это контейнеризация, примерно как в docker. С другой стороны большее потребление ресурсов в совокупности с накладными расходами.
Самое главное, что это как опция, хочешь пользушься, хочешь отключаешь.
Мне кажется вы тут, что то под шаманили )) Чтобы нам показать фейк. Список процессов бы показали и отсортировали по потреблению.
Вот как у меня на другой машине.
Это еще при условии, что у меня куча докер контейнеров уже запущено и работает.
Давайте я вам пример приведу, из той же категории. Claws Mail - легковесный почтовик. Не требует ресурсы. До сих пор поддерживается и обновляется, работает под Linux, и не только.
Скрин пришлите, из приложения nvtop? У меня xfce не расходует видеопамяти совсем. Там будет видно какие процессы едят видеопамять и сколько.
Скиньте, мы посмотрим.
xUbuntu есть 400 мегабайт после старта!
"600-1000 МБ" Откуда вы такие цифры получили? И где вы нашли WinNT Workstation? Давайте с Windows 10 сравним, или с Windows 11.
"WinNT Workstation" - операционка которой уже больше 10 лет не существует, и на любом железе современном вы даже не запустите.
"несущественно, даже Windows 11" - это 3 гигабайта, несущественно? или сколько.
Вот xUbuntu ест 400 мегабайт после старта. А дальше навешиваются приложуши. Давайте сравним кто больше ресурсов ест.
Я предлагаю фактами обмениваться!
Предлагаю обмениваться не на словах, а прямо скринами с монитором ресурсов из вашей операционной системы, где в целом видно сколько памяти всего, сколько ест операционная система, сколько все остальное вроде Оутлуга. и будем сравнивать.