Comments / Profile of Aliaksei

Рудак Алексей @Aliaksei_Rudak

Основатель компании Lingvanex (www.lingvanex.com)

ProfileArticles13PostsNews1Comments103

Как мы построили свой инструмент для работы с LLM

Aliaksei_Rudak Jul 2 at 13:05

тренировка модели

Look

Плюсы и минусы искусственного интеллекта в сфере переводов. ИИ-переводчики против машинных

Aliaksei_Rudak Jun 28 at 07:35

Лучшее решение - это когда делается кастомная языковая модель под запрос клиента (он сам определяет, где хороший перевод, а где - нет). Если клиент доволен - значит задача выполнена, даже если другие люди считают, что перевод недостаточно хороший. Оценка качества перевода - это субъективно.

Look

Переводчик сайтов на JS

Aliaksei_Rudak Jun 28 at 07:25

Если для кого-то цена за Google Translate API - дорого, напишите в личку. У нас есть решение для перевода в докере под Linux, цена получается 50 центов за миллион символов (в 40 раз дешевле Google). Качество не хуже.

Look

Эволюция метрик качества машинного перевода. Часть 3

Aliaksei_Rudak Jun 28 at 07:01

В нашей компании перепробовали кучу метрик, остановились на COMET-22

Look

Дообучение модели машинного перевода

Aliaksei_Rudak Jun 27 at 21:22

Мы тоже сделали модели с хауса на английский, качество уровня Google, занимает 120 мб. Если хотите протестировать - пишите в личку

Look

В Facebook AI продемонстрировали прямой машинный перевод с одного языка на другой

Aliaksei_Rudak Jun 27 at 21:19

Когда в 2020 году читал статью про M2M-100 насколько он круче всех остальных переводчиков, потом решил протестировать и понял какой это был ужас

Look

Что Google Translate может рассказать нам о вайб-кодинге

Aliaksei_Rudak Jun 27 at 21:03

Проблема в том, что у LLM не стабильный перевод и если переводить много раз одно и тоже, также они добавляют новые слова и фразы, которых нет в исходном тексте. Это заметно, когда тестируется десятки тысяч строк для перевода. К тому же LLM требуют дорогих GPU. Наша фирма пока еще использует классический нейросетевой перевод, где модели занимают 120mb и 350 миллионов параметров. Но узких задач лучше натренировать маленькую NMT модель со своим глоссарием

Look

Meta* представила нейросеть SeamlessM4T с функциями распознавания и перевода речи на 100 языков

Aliaksei_Rudak Jun 27 at 19:59

Ее лицензия запрещает коммерческое использование модели

Look

Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL

Aliaksei_Rudak Jun 27 at 19:07

Все эти результаты сильно зависят от набора тестовых данных и метрик качества. Их можно подобрать так, что выиграет любой из них на любой паре и данных. В моей компании, мы просто делаем решение под задачу клиента - языковая пара, тематика, стиль и тип данных. Если клиент доволен - это самый лучший показатель :)

Look

Пошаговый гайд: как мы ВКонтакте делаем собственный переводчик

Aliaksei_Rudak Jun 27 at 18:58

Так а сколько вы потратили всего времени и денег, чтобы довести качество перевода до нужного вам уровня?

Мы потратили 4 года и более миллиона долларов до момента, когда качество достигло уровня Google. Даже если брать open-source движки и модели - это все очень длинный путь.

Look

Машинный перевод

Aliaksei_Rudak Jun 27 at 18:29

Мы в компании Lingvanex, которая занимается технологиями машинным переводом, перепробовали кучу автоматических метрик для оценки качества. Остановились на метрике COMET как самой оптимальной. BLEU - вообще не работает с синонимами. LLM as a judge - это интересная идея, но не всегда выдает один и тот же результат. До сих пор - оценка человеком самая надежная.

Look

Оптимизация нейронных сетей для AI — переводчика

Aliaksei_Rudak Jun 10 at 10:43

Мы используем это для всех популярных языков (испанский, французский итд), где более 10 млн параллельных строк на датасет. Всего где-то 40 языков

Look

Транскрипция речи. Офлайн и без ограничений

Aliaksei_Rudak Jun 10 at 10:21

RTX 3090

Look

API для перевода на 100+ языков

Aliaksei_Rudak May 15 at 05:23

Написал вам в личку

Look

API для перевода на 100+ языков

Aliaksei_Rudak May 14 at 13:31

Давайте попробуем интегрировать его в конференции. Расскажите ваш кейс. Написал вам в личку

Look

Исследование: заменит ли AI писателей?

Aliaksei_Rudak Mar 10 at 09:53

Если писать прозу, то и ChatGPT и Claude - с большего ок, по стихам - у них все плохо, коряво и не попадают в рифму.

Look

Исследование: заменит ли AI писателей?

Aliaksei_Rudak Mar 10 at 09:50

А также часть стендаперов / комиков, если прикрутить еще генератор голоса - точно )))

Look

Как мы тестировали суперкомпьютер DGX-H100 и что из этого вышло

Aliaksei_Rudak Dec 16 2024 at 11:11

Исходные данные предварительно структурируются (у нас написана куча скриптов), например, чтобы не было избыточности и при этом охватить всю семантику языка. Шумы надо добавлять, чтобы сделать устойчивость, когда текст на перевод подается с ошибками. Если просто взять много данных и натренировать модель - на выходе будет очень плохое качество.

Look

Как мы тестировали суперкомпьютер DGX-H100 и что из этого вышло

Aliaksei_Rudak Dec 6 2024 at 20:19

Он не лучше, просто сервер с A4500 нам дали бесплатно на год. А за свои деньги в соотношении цена / производительность самый лучший - RTX 3090.

Look

Как мы тестировали суперкомпьютер DGX-H100 и что из этого вышло

Aliaksei_Rudak Dec 6 2024 at 17:08

Так и было, особенно когда пытались разобраться почему не запускается тренировка моделей на этой машине, кучу инженеров подключили.

Look

2 3 4 5 6

Information

Specialization