Pull to refresh
87
3
Рудак Алексей @Aliaksei_Rudak

Основатель компании Lingvanex (www.lingvanex.com)

Send message

Лучшее решение - это когда делается кастомная языковая модель под запрос клиента (он сам определяет, где хороший перевод, а где - нет). Если клиент доволен - значит задача выполнена, даже если другие люди считают, что перевод недостаточно хороший. Оценка качества перевода - это субъективно.

Если для кого-то цена за Google Translate API - дорого, напишите в личку. У нас есть решение для перевода в докере под Linux, цена получается 50 центов за миллион символов (в 40 раз дешевле Google). Качество не хуже.

В нашей компании перепробовали кучу метрик, остановились на COMET-22

Мы тоже сделали модели с хауса на английский, качество уровня Google, занимает 120 мб. Если хотите протестировать - пишите в личку

Когда в 2020 году читал статью про M2M-100 насколько он круче всех остальных переводчиков, потом решил протестировать и понял какой это был ужас

Проблема в том, что у LLM не стабильный перевод и если переводить много раз одно и тоже, также они добавляют новые слова и фразы, которых нет в исходном тексте. Это заметно, когда тестируется десятки тысяч строк для перевода. К тому же LLM требуют дорогих GPU. Наша фирма пока еще использует классический нейросетевой перевод, где модели занимают 120mb и 350 миллионов параметров. Но узких задач лучше натренировать маленькую NMT модель со своим глоссарием

Ее лицензия запрещает коммерческое использование модели

Все эти результаты сильно зависят от набора тестовых данных и метрик качества. Их можно подобрать так, что выиграет любой из них на любой паре и данных. В моей компании, мы просто делаем решение под задачу клиента - языковая пара, тематика, стиль и тип данных. Если клиент доволен - это самый лучший показатель :)

Так а сколько вы потратили всего времени и денег, чтобы довести качество перевода до нужного вам уровня?

Мы потратили 4 года и более миллиона долларов до момента, когда качество достигло уровня Google. Даже если брать open-source движки и модели - это все очень длинный путь.

Мы в компании Lingvanex, которая занимается технологиями машинным переводом, перепробовали кучу автоматических метрик для оценки качества. Остановились на метрике COMET как самой оптимальной. BLEU - вообще не работает с синонимами. LLM as a judge - это интересная идея, но не всегда выдает один и тот же результат. До сих пор - оценка человеком самая надежная.

Мы используем это для всех популярных языков (испанский, французский итд), где более 10 млн параллельных строк на датасет. Всего где-то 40 языков

Написал вам в личку

Давайте попробуем интегрировать его в конференции. Расскажите ваш кейс. Написал вам в личку

Если писать прозу, то и ChatGPT и Claude - с большего ок, по стихам - у них все плохо, коряво и не попадают в рифму.

А также часть стендаперов / комиков, если прикрутить еще генератор голоса - точно )))

Исходные данные предварительно структурируются (у нас написана куча скриптов), например, чтобы не было избыточности и при этом охватить всю семантику языка. Шумы надо добавлять, чтобы сделать устойчивость, когда текст на перевод подается с ошибками. Если просто взять много данных и натренировать модель - на выходе будет очень плохое качество.

Он не лучше, просто сервер с A4500 нам дали бесплатно на год. А за свои деньги в соотношении цена / производительность самый лучший - RTX 3090.

Так и было, особенно когда пытались разобраться почему не запускается тренировка моделей на этой машине, кучу инженеров подключили.

Information

Rating
1,792-nd
Location
Warszawa, Польша
Registered
Activity

Specialization

Chief Executive Officer (CEO)
Lead
Git
English
Software development
Database
OOP
C++