Обновить
87
0
Рудак Алексей@Aliaksei_Rudak

Основатель компании Lingvanex (www.lingvanex.com)

Отправить сообщение

SDK для машинного перевода

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.5K

Привет, Хабр!

Сегодня хочу рассказать о нашем SDK для машинного перевода — библиотеке, которая позволяет встраивать перевод прямо в ваше приложение или систему, без необходимости отправлять данные на внешний сервер.

Читать далее

Как оценить качество машинного перевода

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.5K

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.

При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.

В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.

Читать далее

Расширение для перевода страниц

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели5.5K

Привет, Хабр!

Сегодня хочу рассказать об очередном нашем продукте — браузерном расширении для перевода, которое может переводить выделенный текст на веб-страницах на 109 языков. Доступно авто-определение языка, история переводов и произношение переведенного текста. Все работает бесплатно и доступно для браузеров Chrome, Firefox, Opera, Edge и Safari.

Читать далее

Как протестировать машинный переводчик

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели3.9K

Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества.

В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль.

В этой статье мы подробнее рассмотрим, как наша команда выбирает тестовые наборы данных и обсудим ограничения существующих стандартов.

Читать далее

Офлайн переводчик на скорости 1000000 символов в секунду

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.3K

Привет, Хабр!

Сегодня хочу рассказать о нашем самом главном продукте - офлайн решении для машинного перевода — инструменте, который позволяет компаниям переводить тексты, документы и веб-контент без интернета на 100 языков и на скорости 1 000 000 символов в секунду (на сервере аналогичном 8 x RTX 5090). Переводчик можно бесплатно взять на тест, нужна система с Linux и GPU.

Читать далее

Пиво. Деньги. Два программиста

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели15K

В 11-м классе я начал учить Visual Basic, чтобы зарабатывать деньги создавая приложения на заказ. Это язык был выбран как наиболее простой и дружелюбный для человека не знакомого с программированием. Через несколько месяцев изучения я понял, что готов, и рассказал идею своему другу, который неплохо знал C++. Выпив по кружке пива мы решили создать профиль на фриланс‑бирже и написать, что наша молодая динамичная корпорация готова выполнить проект любой сложности и на любом языке. Мы были молоды, заряжены, и просто рвались в алгоритмический бой! Название компании выбрали первое, что пришло в голову — «SuperSoft».

Выпив по второй кружке пива мы начали искать заказы. Фриланс‑биржа работала по принципу тендера, где каждый может указать условия на которых он готов вписаться в проект.

Через некоторое время мы заметили запрос на разработку CRM системы. Судя по скриншотам и описанию — вроде ничего сложного, за несколько месяцев можно справиться. У проекта уже были ставки от разных компаний с предложением цены, времени разработки и условий. В среднем предложения были по 10 000$ плюс‑минус пару тысяч.

У нас не было прокаченного аккаунта и отзывов клиентов, поэтому единственное что мы могли делать — демпинговать ценой. Мы написали, что наш высокопрофессиональный коллектив сделает этот проект в два раза быстрее конкурентов, а вместо 10 000$ разработает его за 5000$.

Мы разместили заказ и стали ждать. Через какое‑то время часть конкурентов увидела наше предложение и тоже снизила цены. Мы увидели несколько приложений с Индии по 5000$ и сроки разработки такие же как у нас. Мы приняли стратегические решения ещё снизить цены до 3000$ и добавить к своему предложению, что мы также протестируем приложение и сделаем дизайн.

Читать далее

Лиса Алиса и Кот Базилио на стартап-охоте. Как масштабировать B2B продажи?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели732

Каждый день моя фирма атакуется десятками хитрых и коварных агенств, которые обещают мне горы клиентов. Варианты сотрудничества приобретают все более интересные формы, но неизменно лишь одно: 100% — ная предоплата. С одной стороны они предлагают то, что мне нужно. С другой — это почти никогда не приносило результата. Но почему?

Давайте с этим всем разберемся...

Сейчас передо мной стоит стратегическая задача: масштабировать B2B‑продажи так, чтобы этот процесс стал предсказуемым и позволял точно рассчитывать unit‑экономику. Например: вложили X — через определённое время получили Y.

Основные сложности в B2B‑продажах заключаются в том, что у нас сложный продукт, длинный цикл сделки, не всегда понятно, кто является лицом, принимающим решение (ЛПР), и как эффективно выходить на таких людей в холодную.

Каждый день на мою почту приходит куча емейлов от разных рекламных агентств с предложением увеличить мою выручку, найти новых клиентов и захватить новые рынки. Они пишут мне в Linkedin, мессенджеры, звонят на телефон — просто охотятся за мной!

Все эти письма похожи друг на друга и содержат текст о том, что они совсем недавно помогли такой‑то компании поднять прибыль на 300%, привлечь 5000 клиентов или сократить бюджет на продвижение на 90%. Потом они пишут о том, что буквально вчера они успешно закончили очередной проект и у них освободилось время, которое они любезно могут потратить на мой бизнес. Готовьте кошельки!

Эти письма можно условно разделить на три категории:

Первая категория. Агентство сразу говорит, что за любую работу по продвижению они берут деньги, которые не возвращаются, неважно какой будет результат. Бесплатного триала — нет, ведь их сотрудники самоотверженно делают работу, за которую надо щедро платить. Средний контракт от полугода, цена за месяц — $3000. Работать какое‑то время забесплатно, чтобы продемонстрировать пользу — они не хотят, ведь заметный результат может растянуться на месяцы, годы или тысячелетия!

Читать далее

Переводчик для Slack

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели634

Привет, Хабр!

Компания Lingvanex занимается машинным переводом с 2016 года и за это время убедилась, насколько сложным может быть «простой перевод текста».

Мы разработали собственный технологический стек: нейросетевые модели, системы распознавания речи, API для перевода, офлайн-решения и модули интеграции для корпоративных приложений.

Сегодня хочу рассказать о продукте, который появился как ответ на реальную и острую потребность наших пользователей — переводчик внутри Slack. Он помогает командам мгновенно понимать друг друга, даже если они говорят на разных языках.  Это история о том, как мы встроили качественный машинный перевод в мессенджер и сделали так, чтобы все «просто работало». Расскажу, почему мы создали переводчик для Slack, как он работает, в чём его преимущества и в каких сценариях он может стать незаменимым инструментом для вашей команды.

Читать далее

Как мы построили свой инструмент для работы с LLM

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели2.3K

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи.

В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio.

Итак, что же такое Data Studio ?

Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста.

С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое.

Общий процесс создания языковой модели для перевода выглядит так:

1) Предобработка данных: этап подготовки данных перед обучением модели.

2) Фильтрация с использованием структурных и семантических фильтров.

3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка.

4) Тегирование для классификации данных.

5) Загрузка общего набора данных в Data Studio для проверки.

6) Создание данных для валидации и тестирования модели.

7) Обучение модели.

Читать далее

Переводчик документов

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели1.3K

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — команды, которая уже почти десять лет прокладывает путь в мире машинного перевода и распознавания речи. За это время мы достигли определенных результатов: наш API умеет мгновенно переводить тексты на более чем 100 языков, используя языковые модели с 500 миллионами параметров, оптимизированные специально под задачу быстрого и качественного перевода. 

Сегодня я поделюсь тем, как мы смогли удовлетворить еще одну ключевую потребность пользователей и расскажу, почему наше решение для перевода документов может стать важным инструментом в вашей работе с языками..

Читать далее

Вычисление функции потерь и градиентов в AI переводчике

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели624

Привет, Хабр!

Меня зовут Алексей Рудак, я основатель компании Lingvanex, которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf.

Статья предоставляет всесторонний обзор вычисления функции потерь в машинном обучении, особенно в контексте моделей последовательностей. Она начинается с подробного описания того, как матрица логитов, генерируемая после преобразований в декодере, обрабатывается через функцию cross_entropy_sequence_loss. Эта функция играет ключевую роль в измерении расхождения между предсказанными выводами и фактическими метками. В статье описаны шаги, включая преобразование логитов в подходящий формат, применение сглаживания меток для создания сглаженных меток и вычисление кросс-энтропийных потерь с использованием softmax. Каждый этап подробно объясняется, чтобы было понятно, как каждый компонент вносит вклад в общую оценку потерь.

Кроме вычисления потерь, статья рассматривает механизм выравнивания, используемый для улучшения работы модели. Описано, как значение потерь корректируется на основе направляемого выравнивания, что позволяет модели лучше учитывать взаимосвязи между исходными и целевыми последовательностями. Также подробно рассматривается процесс вычисления и применения градиентов, иллюстрируя, как оптимизатор обновляет веса модели для минимизации потерь.

Читать далее

Транскрипция речи. Офлайн и без ограничений

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели2.7K

Привет, Хабр!

Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными.

Сегодня расскажу, как мы прокачали нашу транскрипцию речи, и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:

Читать далее

Оптимизация нейронных сетей для AI — переводчика

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели809

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. 

В этой статье рассматриваются несколько подходов, которые помогают повысить эффективность и качество языковых моделей для перевода. В качестве основы для тренировки моделей мы используем OpenNMT-tf.

Мы поговорим о методах, которые способствуют постепенной настройке параметров модели, что может привести к более стабильным процессам обучения. Эти техники позволяют тонко настроить процесс обновления весов модели, что улучшает сходимость и в конечном итоге дает лучшие результаты.

Кроме того, в статье обсуждаются стратегии управления темпами обучения, которые играют ключевую роль в том, насколько быстро модель обучается. Понимание того, как правильно корректировать темп обучения с течением времени, может существенно повлиять на динамику обучения и сделать модели более быстрыми и точными.

Наконец, мы затронем важность управления контрольными точками, что позволяет эффективнее использовать обученные модели, усредняя веса из нескольких сессий обучения. Это помогает снизить риск переобучения и обеспечивает сохранение лучших характеристик модели, приобретенных в процессе обучения.

Читать далее

API для перевода на 100+ языков

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели1.6K

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. 

За последний год мы сильно переработали наше API переводчика, сделав его максимально удобным и быстрым для интеграции. Формат запроса теперь совпадает с  Google, поэтому переход на наше API занимает в районе 5 минут. Более того, сильно выросло качество перевода. Наши языковые модели включают в районе 500 млн параметров и оптимизированы только на одну задачу - перевод.

Наша ближайшая цель - сделать сделать лучший перевод на популярных языковых парах и постепенно мы к ней движемся. Каждые 2 недели выходит апдейт, который повышает качество перевода. Почему две недели ? Это среднее время одной тренировки языковой модели. Всего у нас 240 языковых моделей размером от 120 до 560 mb, которые можно развернуть локально даже на слабых игровых видеокартах типа RTX 3060.

Ниже для примера представлены результаты тестов качества для перевода с английского на арабский язык. Сейчас перевод на арабский больше всего интересен наши клиентам, которые ходят зайти на этот рынок. Стоит отдельно отметить результаты тестов  на датасетах (NTRex-128, Flores-101, WMT24++) так как это наиболее распространенные виды тестов среди ученых и бизнеса. Зеленым цветом выделены числа, где у нас лучше качество, чем у конкурентов, красным - где хуже. В колонке Lingvanex качество сравнивается между нашей новой и предыдущей моделью.

Читать далее

Исследование: заменит ли AI писателей?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели715

Занимаясь компьютерной лингвистикой в Lingvanex и организовывая поэтические вечера в Варшаве, я задумался: а что, если люди и AI будут выступать по очереди? Сначала генерируем стихи или шутки, затем озвучиваем их с помощью сервисов. Или создаём музыку через Suno на основе сгенерированных стихов и потом слушаем. Насколько качественно AI умеет сочинять? Может ли он конкурировать с человеком?

Я решил провести небольшое творческое исследование и поделиться его результатами в этой статье. Буду тестировать не только генерацию текстов, но и преобразование стиля. Для всех экспериментов использую ChatGPT-4o.

Читать далее

Как мы тестировали суперкомпьютер DGX-H100 и что из этого вышло

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели2.1K

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 7 лет занимается решениями в области машинного перевода и транскрипции речи. 

Время с момента моей первой статьи на Хабре прошло незаметно. Это были годы амбиций, упорства и стремления сделать лучший в мире переводчик, не имея в своем распоряжении тех ресурсов, которые доступны крупным корпорациям. Мне всегда казалось, что небольшие инженерные команды при правильном руководстве, мотивации и ограниченном финансировании, могут быстро создавать решения мирового уровня, порой буквально «из песка и палок». По крайней мере среди моих знакомых было несколько таких случаев, которые сделали их миллионерами. А что будет, если им дать еще суперкомпьютеры? А если дать им размеченные датасеты ? В этой статье я бы хотел порассуждать на эту тему, тем более нашей команде подвернулся интересный случай, о котором я хотел рассказать.

Три месяца назад на мой email пришло предложение с возможностью бесплатного теста вычислительной станции от Nvidia DGX-H100. Одна из компаний продавала эти системы и искала потенциальных покупателей из числа тех, кто тренирует большие языковые модели, – а это как раз мы. Это было предложение, от которого нельзя было отказаться. Все наши предыдущие сервера не шли в какое-либо сравнение с той производительностью, которая оказалась в наших руках. 

Диапазон цены на DGX-H100 составляет от 250 до 350 тыс долларов. Ее заявленная производительность на fp8 составляет около 32 петафлопс (petaFlops). Мы тренируем наши модели для переводчика на fp16 и получаем около 16 petaFlops под задачи. Но что это означает для нас? Для этого стоит вернуться в 2017 год…

Читать далее

Большое тестирование видеокарт для машинного обучения

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели9.5K

Всем привет! Меня зовут Алексей Рудак и я основатель компании Lingvanex, которая занимается решениями в области машинного перевода и транскрипции речи. Для нашей работы мы постоянно тренируем языковые модели. Наша команда использует десятки разных видеокарт, выбранных под разные задачи: где-то нужна мощная станция DGX, а где-то достаточно старой игровой карты типа RTX 2080Ti.  Выбор оптимальной конфигурации GPU сэкономит вам не только время на тренировку, но и деньги.

Интересно то, что в интернете довольно мало статей с тестами GPU именно для скорости тренировки языковых моделей. В основном встречаются только тесты inference. Когда вышел новый чип H100, в отчете NVidia было указано, что при тренировке он быстрее A100 до девяти раз, но для наших задач новая карта оказалась всего на 90% быстрее старой. Для сравнения: у наших облачных провайдеров разница в цене между этими GPU составляла 2 раза, поэтому переходить на новый H100 для экономии денег смысла не было.

В дополнение к этому мы брали на тест станцию DGX, которая состоит из 8 видеокарт A100 80GB и стоит 10 тысяч долларов в месяц. После теста стало ясно что соотношение цена / производительность этой станции нас полностью не устраивает и за эти деньги мы можем взять 66 x RTX 3090, которые в сумме принесут гораздо больше пользы.

Наши языковые модели для перевода имеют до 500 миллионов параметров (в среднем от 100 млн до 300 млн). Возможно, если значительно увеличить кол-во параметров, то соотношение цена / производительность от DGX станет лучше. На данный момент мы не тренируем большие языковые модели, которые могут переводить сразу между всеми языками во всех вариациях, а применяем отдельные языковые модели под каждую языковую пару, например англо-немецкую. Каждая из таких моделей занимает от 120 до 300 Mb.

Читать далее

Переводчик ChatGPT против моего: кто кого?

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.8K

Я видел много статей и восхищенных отзывов, в которых переводчик ChatGPT не уступает по качеству DeepL и Google, а иногда их даже превосходит. Как основателю компании Lingvanex, которая уже 6 лет занимается разработкой собственных решений по переводу, мне стало интересно насколько все это правда, а также насколько наше решение сопоставимо с ChatGPT. Нужно ли мне бояться такого сильного конкурента?

Для сравнения качества перевода мы подготовили тестовые датасеты на семи языковых парах:

Читать далее

Как я потратил 1 000 000$, чтобы сделать свой переводчик. Часть 3

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели12K

Неделю назад исполнилось 6 лет, как я открыл фирму, чтобы заниматься машинным переводом. За это время многое произошло. Сейчас в команде 40 человек, 120 серверов и более миллиона пользователей. Но так было не всегда. Помню те времена, когда нас было двое. Мы сидели в маленькой комнате без вентиляции, и каждый час нужно было открывать окна, чтобы совсем не задохнуться. Мы были полны надежд, идей и большого желания создать переводчик, который сможет конкурировать с Google.

В 2017 году у нас был прототип под Linux, который уже что‑то переводил. Под iOS собрать тоже удалось. А вот с Windows оказалось не все так просто. Клиенты хотели установку под эту ОС, и нужно было действовать. Для этого пришлось бы перекомпилировать много библиотек с кучей зависимостей, но у меня не было такого опыта. Когда я пошёл на сайты фриланса и разместил несколько объявлений, откликнулось всего нескольких заявок. Cтало ясно, что задача не такая простая, какой кажется.

В интернете было много предложений от аутсорс компаний о разработке проектов любой сложности. Так как я по образованию инженер‑программист, то заявление о любой сложности вызывало удивление, но в то же время и интерес. Было решено попробовать! Cо стороны всё выглядело серьёзно, общение велось от имени юридического лица. Наша компания хочет заказать разработку, но сначала требуется получить оценку того, как долго эта задача будет решаться.

Стоит отметить, что компании, с которыми я говорил, были разными по размеру. Одна из них — известный бренд и лидер в Восточной Европе. Я написал менеджеру по продажам, и со мной обещали связаться. В течение недели я не получил ответа, написал им еще раз, и мне еще раз ответили, что точно со мной свяжутся. Не связались. Ну и ладно!

Читать далее

Потратил 1 000 000 $, чтобы сделать свой переводчик. Продолжение истории

Время на прочтение7 мин
Охват и читатели10K

Начало этой истории тут:

https://habr.com/ru/post/492524/

 Вступление

После первой статьи мне написало несколько сотен человек. Надеюсь, ответил всем. В основном были вопросы, как заработать на мобильных приложениях, как уйти из найма в свой бизнес и т.д. Через год несколько человек сказали, что их жизнь очень изменилась в лучшую сторону. Значит, советы помогли и время было потрачено c пользой.

Если выделить самый главный совет, то он будет следующий:

Читать далее
1

Информация

В рейтинге
Не участвует
Откуда
Warszawa, Польша
Зарегистрирован
Активность

Специализация

Генеральный директор
Ведущий
Git
Английский язык
Разработка программного обеспечения
Базы данных
ООП
C++