Comments / Profile of Aliaksei_Rudak / Habr

Рудак Алексей @Aliaksei_Rudak

Основатель компании Lingvanex (www.lingvanex.com)

ProfileArticles17PostsNews1Comments110

Офлайн переводчик на скорости 1000000 символов в секунду

Aliaksei_Rudak Aug 19 at 20:36

В медицине не нужно переводить большие объемы. Все, что там переводиться - потом проверяется людьми. Машинный перевод просто экономит время на пост-редактуру

0

Офлайн переводчик на скорости 1000000 символов в секунду

Aliaksei_Rudak Aug 19 at 13:34

Мы можем сделать для вашего бизнеса кастомную модель с отличным качеством, где пост-редактура человеком - минимальна. Но это будет одна языковая пара - например Английско-Немецкий и под вашу тематику (нефтехимия, медицина, автомобили и др)

Если нужно переводить большие объемы просто с хорошим качеством, например, чтобы читать сайты на иностранных языках или общаться в мессенджере - то можно взять базовую модель без настроек

0

Офлайн переводчик на скорости 1000000 символов в секунду

Aliaksei_Rudak Aug 19 at 11:22

Да, есть приложение для windows которое может работать офлайн в платной версии. Есть также SDK для офлайн перевода, которое можно интегрировать куда-угодно

0

Пиво. Деньги. Два программиста

Aliaksei_Rudak Aug 1 at 13:43

1) Все сеньоры когда-то были джунами.

2) В свою компанию я принял более 30 стажеров-джунов, из которых за несколько лет сделали толковых специалистов. Лично сам собеседовал и помог людям поменять жизнь из профессий не связанных с IT. В основном - это люди из маленьких провинциальных городов. Половину из-них не прошло тех. собеседование, но я дал им шанс проявить себя, так как видел в них себя 25 лет назад. За стажировку всегда платил деньги, что для этих городов было выше средней ЗП. Прекрасно знаю, как сложно получить первую работу, на которой можно прокачать опыт.

3) Такие "выскочки" не оказывают никакого влияния на индустрию. Кому нужно качество продукта и гарантии - выбирают исполнителя с репутацией, сертификатами и большой ценой. Но даже и это - не всегда гарантия, чтобы будет сделано в срок и качественно. Не всем надо строить шаттлы, кому-то и формочки клепать. Для этого на фриланс биржах сделаны тендеры, чтобы выбрать из разных вариантов.

4) Описанная история произошла в 2002 году в маленьком городе, в котором мало возможностей научиться. Но я не сдавался, пытаясь добывать знания. В школе нас учили на Корветах классическому Basic, дома у меня был dial-up модем, которой еле работал, книжка VisualBasic взятая у друга из статьи (они тогда редки были и дороги)

5) Через 20 лет после событий описанных в статье я стал CEO компании, которая делает сложные решения на AI c портфолио из мировых компаний, стал автором научной работы и собрал крутую команду инженеров. Но я четко и точно помню откуда все начиналось.

+1

Пиво. Деньги. Два программиста

Aliaksei_Rudak Aug 1 at 08:07

Пиво точно помогает в некоторых вопросах :)

У нас сейчас на фирме стал вопрос поиска клиентов и мы начали обсуждать разные идеи. Наш продукт-менеджер говорит, что не надо снижать цену за сервис, чтобы быстрее брать клиентов. Если качество высокое - то клиент заплатит дорого. Часто мы очень громко ругаемся и спорим по поводу этого. Вот я и вспомнил про эту историю :)

Из моего опыта, даже для компании у которых выручка миллиард долларов в год, разница по цене за продукт в 5000$ в год может быть критичной для принятия решения. Даже если продукт стоит 10000$ в год. Хотя в бизнес-книжках пишут, что для таких фирм цена не важна.

P.S. Недавно пришел на почту email от какой-то аутсорс конторы. Заголовок письма был “10 разработчиков по цене 2”. В нем предлогали взять двух сеньоров по рыночной цене. Но если мы их берем, то получаем 2 мидлов и 6 джунов в подарок. Это не шутка! Предложение было в целом интересным, но я предпочел работать с теми, кого знаю. Хотя они дороже.

На самом деле, эта смешная статья поднимает для меня очень важные вопросы ценообразования за свои сервисы и свой труд. Как найти этот баланс :)

+2

5 проблем ИИ-переводов и как их обойти

Aliaksei_Rudak Jul 31 at 11:02

Для больших документов попробуйте https://app.lingvanex.com/ru , там от 1000 страниц можно перевести, просто ждать когда переведется нужно

+1

Переводчик для Slack

Aliaksei_Rudak Jul 21 at 10:47

ок, исправим )

+1

Как мы построили свой инструмент для работы с LLM

Aliaksei_Rudak Jul 2 at 13:05

тренировка модели

+1

Плюсы и минусы искусственного интеллекта в сфере переводов. ИИ-переводчики против машинных

Aliaksei_Rudak Jun 28 at 07:35

Лучшее решение - это когда делается кастомная языковая модель под запрос клиента (он сам определяет, где хороший перевод, а где - нет). Если клиент доволен - значит задача выполнена, даже если другие люди считают, что перевод недостаточно хороший. Оценка качества перевода - это субъективно.

0

Переводчик сайтов на JS

Aliaksei_Rudak Jun 28 at 07:25

Если для кого-то цена за Google Translate API - дорого, напишите в личку. У нас есть решение для перевода в докере под Linux, цена получается 50 центов за миллион символов (в 40 раз дешевле Google). Качество не хуже.

0

Эволюция метрик качества машинного перевода. Часть 3

Aliaksei_Rudak Jun 28 at 07:01

В нашей компании перепробовали кучу метрик, остановились на COMET-22

0

Дообучение модели машинного перевода

Aliaksei_Rudak Jun 27 at 21:22

Мы тоже сделали модели с хауса на английский, качество уровня Google, занимает 120 мб. Если хотите протестировать - пишите в личку

0

В Facebook AI продемонстрировали прямой машинный перевод с одного языка на другой

Aliaksei_Rudak Jun 27 at 21:19

Когда в 2020 году читал статью про M2M-100 насколько он круче всех остальных переводчиков, потом решил протестировать и понял какой это был ужас

0

Что Google Translate может рассказать нам о вайб-кодинге

Aliaksei_Rudak Jun 27 at 21:03

Проблема в том, что у LLM не стабильный перевод и если переводить много раз одно и тоже, также они добавляют новые слова и фразы, которых нет в исходном тексте. Это заметно, когда тестируется десятки тысяч строк для перевода. К тому же LLM требуют дорогих GPU. Наша фирма пока еще использует классический нейросетевой перевод, где модели занимают 120mb и 350 миллионов параметров. Но узких задач лучше натренировать маленькую NMT модель со своим глоссарием

0

Meta* представила нейросеть SeamlessM4T с функциями распознавания и перевода речи на 100 языков

Aliaksei_Rudak Jun 27 at 19:59

Ее лицензия запрещает коммерческое использование модели

0

Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL

Aliaksei_Rudak Jun 27 at 19:07

Все эти результаты сильно зависят от набора тестовых данных и метрик качества. Их можно подобрать так, что выиграет любой из них на любой паре и данных. В моей компании, мы просто делаем решение под задачу клиента - языковая пара, тематика, стиль и тип данных. Если клиент доволен - это самый лучший показатель :)

0

Пошаговый гайд: как мы ВКонтакте делаем собственный переводчик

Aliaksei_Rudak Jun 27 at 18:58

Так а сколько вы потратили всего времени и денег, чтобы довести качество перевода до нужного вам уровня?

Мы потратили 4 года и более миллиона долларов до момента, когда качество достигло уровня Google. Даже если брать open-source движки и модели - это все очень длинный путь.

0

Машинный перевод

Aliaksei_Rudak Jun 27 at 18:29

Мы в компании Lingvanex, которая занимается технологиями машинным переводом, перепробовали кучу автоматических метрик для оценки качества. Остановились на метрике COMET как самой оптимальной. BLEU - вообще не работает с синонимами. LLM as a judge - это интересная идея, но не всегда выдает один и тот же результат. До сих пор - оценка человеком самая надежная.

0

Оптимизация нейронных сетей для AI — переводчика

Aliaksei_Rudak Jun 10 at 10:43

Мы используем это для всех популярных языков (испанский, французский итд), где более 10 млн параллельных строк на датасет. Всего где-то 40 языков

0

Транскрипция речи. Офлайн и без ограничений

Aliaksei_Rudak Jun 10 at 10:21

RTX 3090

0

1