Исходные данные предварительно структурируются (у нас написана куча скриптов), например, чтобы не было избыточности и при этом охватить всю семантику языка. Шумы надо добавлять, чтобы сделать устойчивость, когда текст на перевод подается с ошибками. Если просто взять много данных и натренировать модель - на выходе будет очень плохое качество.
Пробовали переводить такое. Там проблема не столько в переводе, сколько в парсере для сложной верстки страниц. Особенно когда Pdf. Сейчас работаем над этим, это очень сложная задача :)
В ближайшем будущем будет замена рутинного труда, который легко автоматизировать. Все, что посложнее - вряд ли. Когда тот же ChatGPT сможет мне написать плагин для перевода сайта на Wordpress или Joomla, который будет работать, тогда может и поверю. В данный момент - вряд ли.
На мой взгляд, ChatGPT будет захватывать большую нишу у компаний, которые занимаются локализацией, там где еще большая доля перевода человеком. Например: перевод игр, инструкций к технике или каких-то сложных вещей, где нужно перевести простыми словами, чтобы понять смысл.
Согласен, что по-человечески это не культурно. Но задача была горящей для нас. Вначале мы потеряли много крутых клиентов, из-за того, что не поставили демо-версию в срок.
Если писать прозу, то и ChatGPT и Claude - с большего ок, по стихам - у них все плохо, коряво и не попадают в рифму.
А также часть стендаперов / комиков, если прикрутить еще генератор голоса - точно )))
Исходные данные предварительно структурируются (у нас написана куча скриптов), например, чтобы не было избыточности и при этом охватить всю семантику языка. Шумы надо добавлять, чтобы сделать устойчивость, когда текст на перевод подается с ошибками. Если просто взять много данных и натренировать модель - на выходе будет очень плохое качество.
Он не лучше, просто сервер с A4500 нам дали бесплатно на год. А за свои деньги в соотношении цена / производительность самый лучший - RTX 3090.
Так и было, особенно когда пытались разобраться почему не запускается тренировка моделей на этой машине, кучу инженеров подключили.
И как часто ваш сервер арендуют ?
Genesis Cloud, AWS, OVH, Hetzner
У cloud-провайдеров не было такой карты, поэтому не могу сказать.
Vast.ai смотрел, но по деньгам там не дешевле, чем текущий провайдер. Clore - как я вижу, там только криптой платить, и дороже.
При тех же параметрах, 4090 всего на 30% быстрее 3090 для тренировок при тех же самых параметрах.
Согласен. Просто в интернете куча постов, что ChatGPT лучше DeepL по качеству. Вот я и решил проверить )
Пробовали переводить такое. Там проблема не столько в переводе, сколько в парсере для сложной верстки страниц. Особенно когда Pdf. Сейчас работаем над этим, это очень сложная задача :)
В ближайшем будущем будет замена рутинного труда, который легко автоматизировать. Все, что посложнее - вряд ли. Когда тот же ChatGPT сможет мне написать плагин для перевода сайта на Wordpress или Joomla, который будет работать, тогда может и поверю. В данный момент - вряд ли.
Правда! Мы максимально открыты.
Качество перевода можете проверить тут
https://lingvanex.com/demo/
Если вам нужны тестовые датасеты - напишите на почту, также мы вам дадим бесплатный ключ API на перевод 20 миллионов и сами проверите )
Согласен, что COMET не идеальный, но среди переводчиков он сейчас наиболее популярный кроме BLEU. Выбирал между ним и BERTScore.
спасибо, я уже заметил это )
На мой взгляд, ChatGPT будет захватывать большую нишу у компаний, которые занимаются локализацией, там где еще большая доля перевода человеком. Например: перевод игр, инструкций к технике или каких-то сложных вещей, где нужно перевести простыми словами, чтобы понять смысл.
Это были лично мои деньги. Вот первая часть статьи
https://habr.com/ru/articles/492524/
Согласен, что по-человечески это не культурно. Но задача была горящей для нас. Вначале мы потеряли много крутых клиентов, из-за того, что не поставили демо-версию в срок.
Все так! Пока это понял, потратил огромную кучу денег впустую.