Рудак Алексей @Aliaksei_Rudak
Основатель компании Lingvanex (www.lingvanex.com)
Information
- Rating
- 1,792-nd
- Location
- Warszawa, Польша
- Registered
- Activity
Specialization
Chief Executive Officer (CEO)
Lead
Git
English
Software development
Database
OOP
C++
тренировка модели
Лучшее решение - это когда делается кастомная языковая модель под запрос клиента (он сам определяет, где хороший перевод, а где - нет). Если клиент доволен - значит задача выполнена, даже если другие люди считают, что перевод недостаточно хороший. Оценка качества перевода - это субъективно.
Если для кого-то цена за Google Translate API - дорого, напишите в личку. У нас есть решение для перевода в докере под Linux, цена получается 50 центов за миллион символов (в 40 раз дешевле Google). Качество не хуже.
В нашей компании перепробовали кучу метрик, остановились на COMET-22
Мы тоже сделали модели с хауса на английский, качество уровня Google, занимает 120 мб. Если хотите протестировать - пишите в личку
Когда в 2020 году читал статью про M2M-100 насколько он круче всех остальных переводчиков, потом решил протестировать и понял какой это был ужас
Проблема в том, что у LLM не стабильный перевод и если переводить много раз одно и тоже, также они добавляют новые слова и фразы, которых нет в исходном тексте. Это заметно, когда тестируется десятки тысяч строк для перевода. К тому же LLM требуют дорогих GPU. Наша фирма пока еще использует классический нейросетевой перевод, где модели занимают 120mb и 350 миллионов параметров. Но узких задач лучше натренировать маленькую NMT модель со своим глоссарием
Ее лицензия запрещает коммерческое использование модели
Все эти результаты сильно зависят от набора тестовых данных и метрик качества. Их можно подобрать так, что выиграет любой из них на любой паре и данных. В моей компании, мы просто делаем решение под задачу клиента - языковая пара, тематика, стиль и тип данных. Если клиент доволен - это самый лучший показатель :)
Так а сколько вы потратили всего времени и денег, чтобы довести качество перевода до нужного вам уровня?
Мы потратили 4 года и более миллиона долларов до момента, когда качество достигло уровня Google. Даже если брать open-source движки и модели - это все очень длинный путь.
Мы в компании Lingvanex, которая занимается технологиями машинным переводом, перепробовали кучу автоматических метрик для оценки качества. Остановились на метрике COMET как самой оптимальной. BLEU - вообще не работает с синонимами. LLM as a judge - это интересная идея, но не всегда выдает один и тот же результат. До сих пор - оценка человеком самая надежная.
Мы используем это для всех популярных языков (испанский, французский итд), где более 10 млн параллельных строк на датасет. Всего где-то 40 языков
RTX 3090
Написал вам в личку
Давайте попробуем интегрировать его в конференции. Расскажите ваш кейс. Написал вам в личку
Если писать прозу, то и ChatGPT и Claude - с большего ок, по стихам - у них все плохо, коряво и не попадают в рифму.
А также часть стендаперов / комиков, если прикрутить еще генератор голоса - точно )))
Исходные данные предварительно структурируются (у нас написана куча скриптов), например, чтобы не было избыточности и при этом охватить всю семантику языка. Шумы надо добавлять, чтобы сделать устойчивость, когда текст на перевод подается с ошибками. Если просто взять много данных и натренировать модель - на выходе будет очень плохое качество.
Он не лучше, просто сервер с A4500 нам дали бесплатно на год. А за свои деньги в соотношении цена / производительность самый лучший - RTX 3090.
Так и было, особенно когда пытались разобраться почему не запускается тренировка моделей на этой машине, кучу инженеров подключили.