Согласно данной интсрукции, я добавляю робота или другой объект в Gazebo, и он у меня после этого переходит в свободное падение. Как будто нет плоскости, на которую он должен приземлится. Почему так может быть? Что я сделал не так?
Спасибо, Нужно перепроверить. Возможно какие то баги еще стоить потюнить. Но в целом текущая модель существенно лучше той, чтобы была до этого. Argos Translate, проект открыт, каждый может поучаствовать и дообучить модель.
Получается, что в такой реализации мы теряем многозадачность от T5. Условно если бы я захотел сделать переводчик эмбедингов для LaBSE на два языка на русский или английский на выбор, то такой способ бы не подошел. Как можно было бы решить данную проблему?
За переносимость понятно. Но меня вот другой вопрос интересует. Что на ROS писать приходится в практике. Я вот пару курсов посмотрел, но как то не могу понять. На каком бы простом примере разобрали как например в виртуальной среде, и с использованием ROS сделать эмуляцую какой нибудь тележки с двигателями.
Спасибо, большое! А про какую модель MUSE-3 идет речь в статье? Отсылок на первоисточник в статье я не нашел. Я нашел только версию MUSE от facebookresearch, но там вроде модель представлена в виде векторов слов. Можно ссылку на модель, которая использовалась в статье, или более подробно объяснить, что подразумевается под MUSE-3?
В данном случае если ввести данные предложения в Google Trasnlate то он переводит данные фразу либо аналогично, либо практически аналогично. Поэтому я даже уточнил, о чем вы вообще говорите. т.е. гугл переводчик в данном случае переводит эти фразы аналогично.
Я очистил корпус текстов от мусора перед обучением. Возможно я вас конечно не совсем понимаю в данном случае:
1) что именно вы называете в данном виде "мусором"?
2) О каком конкретно корпусе текстов в данном случае вы говорите?
3) Я так полагаю вы оценили, и тогда скажите каков процент в этом корпусе этого, так называемого "мусора"?
У меня тут только одно можно сказать. Кривая винда порождает кривые проблемы! Хотите пользоваться виндовс, придется мириться с тем, что её сняли с поддержки, и вы в пролете. Как вам решать подобные проблемы, возможно никак!
Я поискал труды от Яндекс, но единственный материал который я нашел, где они используют данный датасет как тренировочный.
Вообще сам датасет достаточно большой, чтобы использовать его целиком для валидации. Обычно на нем тренируются. Но для такого большого сравнения, как проверить качество перевода и сравнить его с Google translate мне кажется это более объективная оценка. Кроме того, достаточно мала вероятность, что сам google переводчик использовал данный датасет для обучения своей модели.
Я с вами согласен, на счет понимания языка. Хотя поискать данные, чтобы в последствии оценить возможность такого решения тоже полезно.
По поводу Linux, я собственно вам не навязываю. Я поделился своим опытом, который у меня был. У каждого свои стереотипы. Каждый ищет то, что ему удобно. Вам это удобно, то конечно пользуйтесь.
На сколько я знаю, автор активно развивает свой переводчик. Да возможно он уступает deepl (про который я узнал только сегодня). Но всё же это open-source, поэтому это решение всегда найдет своего пользователя.
Что касается восточных языков, то я подумываю попробовать обучить модель с китайским, возможно в более далекой перспективе.
Что касается Аргуса под W7, и вашего нежелания переходить на Windows 10. Я эту тему достаточно неплохо раскрыл в своей статье про то как стоит переходить на Linux. Честно говоря меня тоже траблы с виндой постоянно подбешивают, когда я по воле случая оказываюсь около компьютера с этой своеобразной операционкой.
Мне кажется сам машинный перевод, задача все таки "решена", хотя её решения еще будут долго совершенствоваться. И возможно так будет происходить со всеми областями в ML. Но сам перевод может не так и нужен, но вот если его соединить STT + MT + TTS, то будет уже что то интереснее)))
У меня нет возможностей проверить на платном переводчике, есть варианты проверить через тот же translators например с помощью Яндекса переводчика, но это будет тоже бесплатная версия. Это займет много времени, и пока у меня нет цели это проверять. Хотя я уже давно заметил, что научные статьи Яндекс лучше переводит с английского на русский, чем гугл.
На счет железа я конечно хотел немного понтануть, но на самом деле все очень просто. Я обучал на rtx 3060, и училось около 3х дней. Можете написать, как вы теперь посчитаете стоимость этой модели?
Скорость инференса не мерял. Для меня было достаточно, что она переводит в разы быстрее чем облачный гугл переводчик. В частности чтобы перевести гуглом корпус в 1м предложений, я даже точно не помню, но ушло наверное недели 3. А вот модель переводит весь корпус часов за 5, если не быстрее, на GPU. Цифры примерные, но можете прикинуть на калькуляторе.
Спасибо за предложение, да можно посмотреть на модель OpusMT и сравнить.
В данном случае метрика меряется на каждом корпусе пар предложений. Даже в приведенной вами ссылке видно, что у модели разные метрики для каждого корпуса. Я свою метрику получил, после того как протестил на корпусе от Яндекса в 1 млн пар предложений. Для того, чтобы сравнить модель OpusMT нужно её прогнать через корпус от Yandex, но с этим нужно время чтобы разобраться.
Мне бы больше подошел вариант, прогнать мою модель через корпус один или несколько из Benchmark от OPUS, например newstest2013.en.ru и посмотреть на метрики. Постараюсь сделать это в ближайшее время и отпишусь с результатом.
Однако в данном случае в плане применимости Argos Translate точно удобнее, так как это готовое решение по переводу.
Вопрос, а если этот декодер обучить на модели rubert-tiny2? То субъективно на ваш взгляд он должен работать лучше или хуже чем на LaBSE по качеству? Почему? если брать например только представление русского языка?
Согласно данной интсрукции, я добавляю робота или другой объект в Gazebo, и он у меня после этого переходит в свободное падение. Как будто нет плоскости, на которую он должен приземлится. Почему так может быть? Что я сделал не так?
Спасибо, Нужно перепроверить. Возможно какие то баги еще стоить потюнить. Но в целом текущая модель существенно лучше той, чтобы была до этого. Argos Translate, проект открыт, каждый может поучаствовать и дообучить модель.
Получается, что в такой реализации мы теряем многозадачность от T5. Условно если бы я захотел сделать переводчик эмбедингов для LaBSE на два языка на русский или английский на выбор, то такой способ бы не подошел. Как можно было бы решить данную проблему?
За переносимость понятно. Но меня вот другой вопрос интересует. Что на ROS писать приходится в практике. Я вот пару курсов посмотрел, но как то не могу понять. На каком бы простом примере разобрали как например в виртуальной среде, и с использованием ROS сделать эмуляцую какой нибудь тележки с двигателями.
Ты бы рассказал, для чего тебе понадобилось ROS в Docker запихивать? В чем плюс такого решения?
Спасибо, большое! А про какую модель MUSE-3 идет речь в статье? Отсылок на первоисточник в статье я не нашел. Я нашел только версию MUSE от facebookresearch, но там вроде модель представлена в виде векторов слов. Можно ссылку на модель, которая использовалась в статье, или более подробно объяснить, что подразумевается под MUSE-3?
В данном случае если ввести данные предложения в Google Trasnlate то он переводит данные фразу либо аналогично, либо практически аналогично. Поэтому я даже уточнил, о чем вы вообще говорите. т.е. гугл переводчик в данном случае переводит эти фразы аналогично.
Я очистил корпус текстов от мусора перед обучением. Возможно я вас конечно не совсем понимаю в данном случае:
1) что именно вы называете в данном виде "мусором"?
2) О каком конкретно корпусе текстов в данном случае вы говорите?
3) Я так полагаю вы оценили, и тогда скажите каков процент в этом корпусе этого, так называемого "мусора"?
4) Как бы вы очистили этот датасет от "мусора"?
Мусор я специально очищал. Для этого есть предобработки. Кроме того, сам мусор в данных навряд ли может влиять на скорость инференса.
А вы собственно, здесь про что написали? Не очень понятно, из вашего комментария.
У меня тут только одно можно сказать. Кривая винда порождает кривые проблемы! Хотите пользоваться виндовс, придется мириться с тем, что её сняли с поддержки, и вы в пролете. Как вам решать подобные проблемы, возможно никак!
batch_size 2048
Это оценка времени при переводе батчами.
Я поискал труды от Яндекс, но единственный материал который я нашел, где они используют данный датасет как тренировочный.
Вообще сам датасет достаточно большой, чтобы использовать его целиком для валидации. Обычно на нем тренируются. Но для такого большого сравнения, как проверить качество перевода и сравнить его с Google translate мне кажется это более объективная оценка. Кроме того, достаточно мала вероятность, что сам google переводчик использовал данный датасет для обучения своей модели.
Для offline Argos Translate тоже подходит.
Я с вами согласен, на счет понимания языка. Хотя поискать данные, чтобы в последствии оценить возможность такого решения тоже полезно.
По поводу Linux, я собственно вам не навязываю. Я поделился своим опытом, который у меня был. У каждого свои стереотипы. Каждый ищет то, что ему удобно. Вам это удобно, то конечно пользуйтесь.
На сколько я знаю, автор активно развивает свой переводчик. Да возможно он уступает deepl (про который я узнал только сегодня). Но всё же это open-source, поэтому это решение всегда найдет своего пользователя.
Что касается восточных языков, то я подумываю попробовать обучить модель с китайским, возможно в более далекой перспективе.
Что касается Аргуса под W7, и вашего нежелания переходить на Windows 10. Я эту тему достаточно неплохо раскрыл в своей статье про то как стоит переходить на Linux. Честно говоря меня тоже траблы с виндой постоянно подбешивают, когда я по воле случая оказываюсь около компьютера с этой своеобразной операционкой.
Спасибо за комментарий.
Мне кажется сам машинный перевод, задача все таки "решена", хотя её решения еще будут долго совершенствоваться. И возможно так будет происходить со всеми областями в ML. Но сам перевод может не так и нужен, но вот если его соединить STT + MT + TTS, то будет уже что то интереснее)))
У меня нет возможностей проверить на платном переводчике, есть варианты проверить через тот же translators например с помощью Яндекса переводчика, но это будет тоже бесплатная версия. Это займет много времени, и пока у меня нет цели это проверять. Хотя я уже давно заметил, что научные статьи Яндекс лучше переводит с английского на русский, чем гугл.
На счет железа я конечно хотел немного понтануть, но на самом деле все очень просто. Я обучал на rtx 3060, и училось около 3х дней. Можете написать, как вы теперь посчитаете стоимость этой модели?
Скорость инференса не мерял. Для меня было достаточно, что она переводит в разы быстрее чем облачный гугл переводчик. В частности чтобы перевести гуглом корпус в 1м предложений, я даже точно не помню, но ушло наверное недели 3. А вот модель переводит весь корпус часов за 5, если не быстрее, на GPU. Цифры примерные, но можете прикинуть на калькуляторе.
Как и обещал я протестировал свою модель на корпусе newtest2013.en.ru
И метрика BLEU показала 24.0, что в целом несколько лучше чем результаты из бенчмарка от модели OpusMT 23.5, по приведенной ссылке
Спасибо
Спасибо за предложение, да можно посмотреть на модель OpusMT и сравнить.
В данном случае метрика меряется на каждом корпусе пар предложений. Даже в приведенной вами ссылке видно, что у модели разные метрики для каждого корпуса. Я свою метрику получил, после того как протестил на корпусе от Яндекса в 1 млн пар предложений. Для того, чтобы сравнить модель OpusMT нужно её прогнать через корпус от Yandex, но с этим нужно время чтобы разобраться.
Мне бы больше подошел вариант, прогнать мою модель через корпус один или несколько из Benchmark от OPUS, например newstest2013.en.ru и посмотреть на метрики. Постараюсь сделать это в ближайшее время и отпишусь с результатом.
Однако в данном случае в плане применимости Argos Translate точно удобнее, так как это готовое решение по переводу.
Спасибо.
Вопрос, а если этот декодер обучить на модели rubert-tiny2? То субъективно на ваш взгляд он должен работать лучше или хуже чем на LaBSE по качеству? Почему? если брать например только представление русского языка?