Рудак Алексей @Aliaksei_Rudak
Основатель компании Lingvanex (www.lingvanex.com)
Information
- Rating
- 660-th
- Location
- Warszawa, Польша
- Registered
- Activity
Specialization
Chief Executive Officer (CEO)
Lead
Git
English
Software development
Database
OOP
C++
1) Все сеньоры когда-то были джунами.
2) В свою компанию я принял более 30 стажеров-джунов, из которых за несколько лет сделали толковых специалистов. Лично сам собеседовал и помог людям поменять жизнь из профессий не связанных с IT. В основном - это люди из маленьких провинциальных городов. Половину из-них не прошло тех. собеседование, но я дал им шанс проявить себя, так как видел в них себя 25 лет назад. За стажировку всегда платил деньги, что для этих городов было выше средней ЗП. Прекрасно знаю, как сложно получить первую работу, на которой можно прокачать опыт.
3) Такие "выскочки" не оказывают никакого влияния на индустрию. Кому нужно качество продукта и гарантии - выбирают исполнителя с репутацией, сертификатами и большой ценой. Но даже и это - не всегда гарантия, чтобы будет сделано в срок и качественно. Не всем надо строить шаттлы, кому-то и формочки клепать. Для этого на фриланс биржах сделаны тендеры, чтобы выбрать из разных вариантов.
4) Описанная история произошла в 2002 году в маленьком городе, в котором мало возможностей научиться. Но я не сдавался, пытаясь добывать знания. В школе нас учили на Корветах классическому Basic, дома у меня был dial-up модем, которой еле работал, книжка VisualBasic взятая у друга из статьи (они тогда редки были и дороги)
5) Через 20 лет после событий описанных в статье я стал CEO компании, которая делает сложные решения на AI c портфолио из мировых компаний, стал автором научной работы и собрал крутую команду инженеров. Но я четко и точно помню откуда все начиналось.
Пиво точно помогает в некоторых вопросах :)
У нас сейчас на фирме стал вопрос поиска клиентов и мы начали обсуждать разные идеи. Наш продукт-менеджер говорит, что не надо снижать цену за сервис, чтобы быстрее брать клиентов. Если качество высокое - то клиент заплатит дорого. Часто мы очень громко ругаемся и спорим по поводу этого. Вот я и вспомнил про эту историю :)
Из моего опыта, даже для компании у которых выручка миллиард долларов в год, разница по цене за продукт в 5000$ в год может быть критичной для принятия решения. Даже если продукт стоит 10000$ в год. Хотя в бизнес-книжках пишут, что для таких фирм цена не важна.
P.S. Недавно пришел на почту email от какой-то аутсорс конторы. Заголовок письма был “10 разработчиков по цене 2”. В нем предлогали взять двух сеньоров по рыночной цене. Но если мы их берем, то получаем 2 мидлов и 6 джунов в подарок. Это не шутка! Предложение было в целом интересным, но я предпочел работать с теми, кого знаю. Хотя они дороже.
На самом деле, эта смешная статья поднимает для меня очень важные вопросы ценообразования за свои сервисы и свой труд. Как найти этот баланс :)
Для больших документов попробуйте https://app.lingvanex.com/ru , там от 1000 страниц можно перевести, просто ждать когда переведется нужно
ок, исправим )
тренировка модели
Лучшее решение - это когда делается кастомная языковая модель под запрос клиента (он сам определяет, где хороший перевод, а где - нет). Если клиент доволен - значит задача выполнена, даже если другие люди считают, что перевод недостаточно хороший. Оценка качества перевода - это субъективно.
Если для кого-то цена за Google Translate API - дорого, напишите в личку. У нас есть решение для перевода в докере под Linux, цена получается 50 центов за миллион символов (в 40 раз дешевле Google). Качество не хуже.
В нашей компании перепробовали кучу метрик, остановились на COMET-22
Мы тоже сделали модели с хауса на английский, качество уровня Google, занимает 120 мб. Если хотите протестировать - пишите в личку
Когда в 2020 году читал статью про M2M-100 насколько он круче всех остальных переводчиков, потом решил протестировать и понял какой это был ужас
Проблема в том, что у LLM не стабильный перевод и если переводить много раз одно и тоже, также они добавляют новые слова и фразы, которых нет в исходном тексте. Это заметно, когда тестируется десятки тысяч строк для перевода. К тому же LLM требуют дорогих GPU. Наша фирма пока еще использует классический нейросетевой перевод, где модели занимают 120mb и 350 миллионов параметров. Но узких задач лучше натренировать маленькую NMT модель со своим глоссарием
Ее лицензия запрещает коммерческое использование модели
Все эти результаты сильно зависят от набора тестовых данных и метрик качества. Их можно подобрать так, что выиграет любой из них на любой паре и данных. В моей компании, мы просто делаем решение под задачу клиента - языковая пара, тематика, стиль и тип данных. Если клиент доволен - это самый лучший показатель :)
Так а сколько вы потратили всего времени и денег, чтобы довести качество перевода до нужного вам уровня?
Мы потратили 4 года и более миллиона долларов до момента, когда качество достигло уровня Google. Даже если брать open-source движки и модели - это все очень длинный путь.
Мы в компании Lingvanex, которая занимается технологиями машинным переводом, перепробовали кучу автоматических метрик для оценки качества. Остановились на метрике COMET как самой оптимальной. BLEU - вообще не работает с синонимами. LLM as a judge - это интересная идея, но не всегда выдает один и тот же результат. До сих пор - оценка человеком самая надежная.
Мы используем это для всех популярных языков (испанский, французский итд), где более 10 млн параллельных строк на датасет. Всего где-то 40 языков
RTX 3090
Написал вам в личку
Давайте попробуем интегрировать его в конференции. Расскажите ваш кейс. Написал вам в личку
Если писать прозу, то и ChatGPT и Claude - с большего ок, по стихам - у них все плохо, коряво и не попадают в рифму.