Комментарии / Профиль UtrobinMV / Хабр

Михаил Утробин @UtrobinMV

Machine Learning

ПрофильСтатьи7ПостыНовостиКомментарии143

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 10 мар 2023 в 11:37

Да действительно модель лучше умеет переводить по одному предложению.

Действительно и тестировалась модель прежде всего на текстах состоящих из одного предложения.

Получается, в качестве рекомендаций, можно посоветовать разбивать тексты на предложения и переводить их по отдельности.

Во втором случае "crimson" - я считаю, что даже я лучше бы не перевел. ) Как по мне модель отлично справилась

Первая бесплатная модель перевода с русского на китайский язык и обратно

UtrobinMV 9 мар 2023 в 15:20

Спасибо за вопрос. Правда наверное стоит его в той статье и задавать, уведомления там мне так же приходят.

На самом деле, чувствительна к капитализации как раз по той причине, что в процессе обучения у нас никак не изменяется капитализация слов. В результате для модели слово с большой буквы и с маленький имеет немного различный вес. т.е. если слово с большой буквы, то вероятно модель классифицирует его немного иначе. Ну и в процессе декондинга такое предложение уже имеет другую преплексию, что в целом при лучевом поиске влияет на результат выдачи, модели.

Чтобы этого избежать, необходимо специальным образом обучать модель, чтобы она была менее восприимчива к таким ситуациям.

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 1 мар 2023 в 13:55

Кстати в вашем случае вы ссылаетесь на модель с RU->EN. Я же готовил модель переводящая с EN->RU. RU->EN модели с версией 1.7 пока не существует.

Робот-тележка на ROS. Часть 4. Создаем симуляцию робота, используя редакторы rviz и gazebo

UtrobinMV 28 фев 2023 в 08:07

Согласно данной интсрукции, я добавляю робота или другой объект в Gazebo, и он у меня после этого переходит в свободное падение. Как будто нет плоскости, на которую он должен приземлится. Почему так может быть? Что я сделал не так?

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 7 фев 2023 в 07:56

Спасибо, Нужно перепроверить. Возможно какие то баги еще стоить потюнить. Но в целом текущая модель существенно лучше той, чтобы была до этого. Argos Translate, проект открыт, каждый может поучаствовать и дообучить модель.

Восстанавливаем предложения из эмбеддингов LaBSE

UtrobinMV 7 фев 2023 в 06:33

Получается, что в такой реализации мы теряем многозадачность от T5. Условно если бы я захотел сделать переводчик эмбедингов для LaBSE на два языка на русский или английский на выбор, то такой способ бы не подошел. Как можно было бы решить данную проблему?

Сага о том, как я клеил ROS и Docker

UtrobinMV 12 дек 2022 в 16:08

За переносимость понятно. Но меня вот другой вопрос интересует. Что на ROS писать приходится в практике. Я вот пару курсов посмотрел, но как то не могу понять. На каком бы простом примере разобрали как например в виртуальной среде, и с использованием ROS сделать эмуляцую какой нибудь тележки с двигателями.

Сага о том, как я клеил ROS и Docker

UtrobinMV 10 дек 2022 в 19:37

Ты бы рассказал, для чего тебе понадобилось ROS в Docker запихивать? В чем плюс такого решения?

Рейтинг русскоязычных энкодеров предложений

UtrobinMV 16 ноя 2022 в 13:11

Спасибо, большое! А про какую модель MUSE-3 идет речь в статье? Отсылок на первоисточник в статье я не нашел. Я нашел только версию MUSE от facebookresearch, но там вроде модель представлена в виде векторов слов. Можно ссылку на модель, которая использовалась в статье, или более подробно объяснить, что подразумевается под MUSE-3?

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 10 окт 2022 в 09:06

В данном случае если ввести данные предложения в Google Trasnlate то он переводит данные фразу либо аналогично, либо практически аналогично. Поэтому я даже уточнил, о чем вы вообще говорите. т.е. гугл переводчик в данном случае переводит эти фразы аналогично.

Я очистил корпус текстов от мусора перед обучением. Возможно я вас конечно не совсем понимаю в данном случае:

1) что именно вы называете в данном виде "мусором"?

2) О каком конкретно корпусе текстов в данном случае вы говорите?

3) Я так полагаю вы оценили, и тогда скажите каков процент в этом корпусе этого, так называемого "мусора"?

4) Как бы вы очистили этот датасет от "мусора"?

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 30 сен 2022 в 11:07

Мусор я специально очищал. Для этого есть предобработки. Кроме того, сам мусор в данных навряд ли может влиять на скорость инференса.

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 30 сен 2022 в 11:05

А вы собственно, здесь про что написали? Не очень понятно, из вашего комментария.

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 26 сен 2022 в 14:18

У меня тут только одно можно сказать. Кривая винда порождает кривые проблемы! Хотите пользоваться виндовс, придется мириться с тем, что её сняли с поддержки, и вы в пролете. Как вам решать подобные проблемы, возможно никак!

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 26 сен 2022 в 07:52

batch_size 2048

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 26 сен 2022 в 06:21

Это оценка времени при переводе батчами.

Я поискал труды от Яндекс, но единственный материал который я нашел, где они используют данный датасет как тренировочный.

Вообще сам датасет достаточно большой, чтобы использовать его целиком для валидации. Обычно на нем тренируются. Но для такого большого сравнения, как проверить качество перевода и сравнить его с Google translate мне кажется это более объективная оценка. Кроме того, достаточно мала вероятность, что сам google переводчик использовал данный датасет для обучения своей модели.

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 26 сен 2022 в 06:13

Для offline Argos Translate тоже подходит.

Я с вами согласен, на счет понимания языка. Хотя поискать данные, чтобы в последствии оценить возможность такого решения тоже полезно.

По поводу Linux, я собственно вам не навязываю. Я поделился своим опытом, который у меня был. У каждого свои стереотипы. Каждый ищет то, что ему удобно. Вам это удобно, то конечно пользуйтесь.

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 25 сен 2022 в 21:38

На сколько я знаю, автор активно развивает свой переводчик. Да возможно он уступает deepl (про который я узнал только сегодня). Но всё же это open-source, поэтому это решение всегда найдет своего пользователя.

Что касается восточных языков, то я подумываю попробовать обучить модель с китайским, возможно в более далекой перспективе.

Что касается Аргуса под W7, и вашего нежелания переходить на Windows 10. Я эту тему достаточно неплохо раскрыл в своей статье про то как стоит переходить на Linux. Честно говоря меня тоже траблы с виндой постоянно подбешивают, когда я по воле случая оказываюсь около компьютера с этой своеобразной операционкой.

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 25 сен 2022 в 21:15

Спасибо за комментарий.

Мне кажется сам машинный перевод, задача все таки "решена", хотя её решения еще будут долго совершенствоваться. И возможно так будет происходить со всеми областями в ML. Но сам перевод может не так и нужен, но вот если его соединить STT + MT + TTS, то будет уже что то интереснее)))

У меня нет возможностей проверить на платном переводчике, есть варианты проверить через тот же translators например с помощью Яндекса переводчика, но это будет тоже бесплатная версия. Это займет много времени, и пока у меня нет цели это проверять. Хотя я уже давно заметил, что научные статьи Яндекс лучше переводит с английского на русский, чем гугл.

На счет железа я конечно хотел немного понтануть, но на самом деле все очень просто. Я обучал на rtx 3060, и училось около 3х дней. Можете написать, как вы теперь посчитаете стоимость этой модели?

Скорость инференса не мерял. Для меня было достаточно, что она переводит в разы быстрее чем облачный гугл переводчик. В частности чтобы перевести гуглом корпус в 1м предложений, я даже точно не помню, но ушло наверное недели 3. А вот модель переводит весь корпус часов за 5, если не быстрее, на GPU. Цифры примерные, но можете прикинуть на калькуляторе.

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 23 сен 2022 в 22:25

Как и обещал я протестировал свою модель на корпусе newtest2013.en.ru

И метрика BLEU показала 24.0, что в целом несколько лучше чем результаты из бенчмарка от модели OpusMT 23.5, по приведенной ссылке

Как создать переводчик, который переводит лучше, чем Google Translate

UtrobinMV 22 сен 2022 в 19:48

Спасибо

3 4 ...

7 8