Pull to refresh
86
0
Рудак Алексей@Aliaksei_Rudak

Основатель компании Lingvanex (www.lingvanex.com)

Send message

Мы в компании Lingvanex, которая занимается технологиями машинным переводом, перепробовали кучу автоматических метрик для оценки качества. Остановились на метрике COMET как самой оптимальной. BLEU - вообще не работает с синонимами. LLM as a judge - это интересная идея, но не всегда выдает один и тот же результат. До сих пор - оценка человеком самая надежная.

Мы используем это для всех популярных языков (испанский, французский итд), где более 10 млн параллельных строк на датасет. Всего где-то 40 языков

Написал вам в личку

Давайте попробуем интегрировать его в конференции. Расскажите ваш кейс. Написал вам в личку

Если писать прозу, то и ChatGPT и Claude - с большего ок, по стихам - у них все плохо, коряво и не попадают в рифму.

А также часть стендаперов / комиков, если прикрутить еще генератор голоса - точно )))

Исходные данные предварительно структурируются (у нас написана куча скриптов), например, чтобы не было избыточности и при этом охватить всю семантику языка. Шумы надо добавлять, чтобы сделать устойчивость, когда текст на перевод подается с ошибками. Если просто взять много данных и натренировать модель - на выходе будет очень плохое качество.

Он не лучше, просто сервер с A4500 нам дали бесплатно на год. А за свои деньги в соотношении цена / производительность самый лучший - RTX 3090.

Так и было, особенно когда пытались разобраться почему не запускается тренировка моделей на этой машине, кучу инженеров подключили.

И как часто ваш сервер арендуют ?

У cloud-провайдеров не было такой карты, поэтому не могу сказать.

Vast.ai смотрел, но по деньгам там не дешевле, чем текущий провайдер. Clore - как я вижу, там только криптой платить, и дороже.

При тех же параметрах, 4090 всего на 30% быстрее 3090 для тренировок при тех же самых параметрах.

Согласен. Просто в интернете куча постов, что ChatGPT лучше DeepL по качеству. Вот я и решил проверить )

Пробовали переводить такое. Там проблема не столько в переводе, сколько в парсере для сложной верстки страниц. Особенно когда Pdf. Сейчас работаем над этим, это очень сложная задача :)

В ближайшем будущем будет замена рутинного труда, который легко автоматизировать. Все, что посложнее - вряд ли. Когда тот же ChatGPT сможет мне написать плагин для перевода сайта на Wordpress или Joomla, который будет работать, тогда может и поверю. В данный момент - вряд ли.

Правда! Мы максимально открыты.

Качество перевода можете проверить тут

https://lingvanex.com/demo/

Если вам нужны тестовые датасеты - напишите на почту, также мы вам дадим бесплатный ключ API на перевод 20 миллионов и сами проверите )

Согласен, что COMET не идеальный, но среди переводчиков он сейчас наиболее популярный кроме BLEU. Выбирал между ним и BERTScore.

Information

Rating
Does not participate
Location
Warszawa, Польша
Registered
Activity

Specialization

Генеральный директор
Ведущий
Git
Английский язык
Разработка программного обеспечения
Базы данных
ООП
C++