Pull to refresh
86
0
Рудак Алексей@Aliaksei_Rudak

Основатель компании Lingvanex (www.lingvanex.com)

Send message

Это идея пришла, когда делали стресс-тесты производительности для браузера Vivaldi. Видеокарта GTX 1080 в аренде стоит 120 евро. За сутки она может перевести 300 000 HTML страниц среднего размера. Значит за месяц - 9 млн страниц.

Если посчитать сколько HTML страниц в индексе Google для StackOverflow, то через оператор site:stackoverflow.com показывает 114 млн страниц. Но в реальности их будет меньше. На мой взгляд за 1000 евро Stackoverflow точно можно перевести на любой из языков. Через рекламу, это должно окупиться за неделю. Но это все грубые расчеты, без затрат на инфраструктуру, где будут храниться переведенные страницы, парсер и т.д

Ответы:

1) Отличие от DeepL

a) У нас больше языков чем у DeepL. У нас их 120, у DeepL - 25. Сейчас не все возможные языки доступны у нас на демо-странице.

b) Из продуктов у нас есть сервер для перевода, SDK, desktop приложения которые переводят документы офлайн.

с) У нас в 5 раз дешевле цена на API для перевода

d) Наш сервис со всеми функциями доступен во всех странах. DeepL PRO доступен только в 33 странах

e) Мы стараемся делать фокус на оперативную и качественную поддержку клиентам. Бесплатно помогаем разворачивать сервера, делаем кастомные фукнции (если недолго) и стараемся быстро отвечать. Многие клиенты выбрали нас только из-за этого.

2) Я упомянул DGX-2 в контексте начала 2020 года. Когда не было столько альтернатив, как сегодня. На текущий день, конечно, лучше выбрать другой

Наш сервер для переводов и приложения могут переводить PDF файлы с сохранением форматирования. В отличие от Google мы можем переводить офлайн, что важно, когда информация конфиденциальна (бизнес, медицина и т.д)

По умолчанию, переводчик не понимает примеров языка программирования. Чтобы не переводить определенны куски текста, можно сделать разметку через тег <notranslate> в самом документе и отправить потом на API для перевода.

NCA, NDA и т.д - это для конфиденциальной информации о клиентах, продуктах и показателях компании. Никто не запрещает вам перенять опыт управления людьми, проектами, подходам к разработке продукта и т.д, чтобы потом использовать в своих проектах.

Сейчас не существует единого переводчика, которых будет лучше всех на всех языках и ситуациях. Иногда наши клиенты пишут нам, что мы лучше Google и Deepl для их задач.

У нас есть демо-страница, на которой можно проверить качество перевода. В целом у Google и DeepL качество перевода лучше. Но мы сделали фокус на функциональности (SDK, локальный сервер и т.д.), цене и сервисе

https://lingvanex.com/demo/

Если нужно максимальное качество перевода для небольших текстов - то Google или DeepL будет в целом лучше.

Поговорки и нестандартные обороты - будет сложно для него :)

У нашего переводчика другое позиционирование

1) Для экономии на переводе больших объемов текста (от миллиарда символов в месяц). Переводить через Google API это будет от 20 000$. Если много денег, то лучше выбрать Google. Если хочется сэкономить - можно выбрать Lingvanex.

2) Для перевода, где нужна защита данных. Если переводить школьные рефераты - то Google подойдет. Если надо перевести данные бизнеса, медицины и др, - то нет. И поэтому Lingvanex предлагает переводы офлайн. Ваши данные остаются у вас, а не отправляются Google.

Может кто-нибудь запустить эту модель через веб-интерфейс или API и дать ссылку, чтобы просто поиграться?
Продать компанию более крупному игроку на рынке машинного перевода.
Спасибо, что поделились своей историей, интересно почитать похожие

Я не пытаюсь конкурировать с Google, у меня нет таких ресурсов. Тут расчет на то, что скоро будет передел рынка переводчиков, когда выйдут новые игроки типа DeepL. Скоро не будет монополии Google. Из-за того, что сейчас не нужно десятков миллионов долларов на компьютеры и датасеты, есть шанс захватить каких-то 0.5% большого рынка, что в деньгах для команды в 30 человек в «условной» Беларуси или России будет очень много. Но для Google или Microsoft это будут крохи.

У меня есть знакомые из Минска, которые зарабатывают на приложениях для бега 30 млн $ / год. Для корпорации это копейки, но для фирмы до 100 человек — вполне деньги, ради которых стоит пройти трудный путь.

Согласен, что заработанными деньгами я распорядился неправильно. Но как говориться «Если бы молодость знала, если бы старость могла». Все могло быть по-другому :)

Я не считаю себя оптимистом, просто когда уже потратил $300 тыс на проект, я не смог его закрыть просто так. До этого все проекты закрыл, но там потраченные ресурсы были небольшие. Это было очень тяжелое решение — продолжить. Меня ломало месяца три :)

Самый главный вывод, который я понял за 15 лет IT, что основа любого успешного дела — люди. Не идея, не рынок, не технология, а именно команда. Хорошая команда сделает проект любой сложности. Даже если ошибется дорогой, но все же вырулит к цели. Было много примеров среди знакомых.

Своей главной ошибкой считаю, что я стал «публичным» очень поздно. Надо было на старте писать статьи о проекте, выступать на меприятиях, кричать про эти переводчики из каждого утюга. Не надо было все отдавать на аутсорс и фрилансеров и молча спрашивать советов через личку Facebook.

Статьи о проекте, работают очень круто для поиска нужных людей в команду. Через вакансии я бы никогда их не нашел. И когда, наконец, собрал команду и завел проект из «песка и палок» — тут стали заканчиваться деньги ))))

Когда были первые версии переводчиков, многие пользователи просили работу оффлайн. Это до сих пор актуально, так как за пять лет ситуация с бесплатным Wi-fi в той же Европе не улучшилась. И не думаю, что в ближайшие 10 лет что-либо измениться.

UX в любом случае должен быть лучше конкурентов. Работаем на этим.
Спасибо за пояснения, теперь стало понятно, что вы имели ввиду.

У меня не было тогда опыта сборки серверов, аренды помещений итд, расчета стоимости итд, как и не было с кем посоветоваться. Я думал, что решу задачу API для перевода за 6 месяцев, и было логичным взять в аренду на небольшой срок. Но когда задача растянулась на 3 года, сейчас ясно, что можно было купить свое железо вначале и сильно сэкономить.

Парсер переведенных текстов он сложнее, чем парсер маркета. Там свои нюансы, но задача решаемая, если есть опытные люди. Но мне не всегда везло с исполнителями.

Если бы тогда был сегодняшний опыт, можно было сэкономить 400 тыс $ из 600. Жаль, конечно, но что делать :)
Мне написало много людей, и я уже не успеваю всем отвечать. По технической части — лучше сделаю отдельную статью позже, чисто про работу переводчика. А вторую — только по раскрутке мобильных приложений.

Программа для Android — это новые переводчики, там минимум скачек. Все деньги и 20 млн были заработаны на старых версиях. Напишите в Facebook, я покажу статистику и все остальное.
Напишите мне в Facebook, я покажу аккаунты, где расположены старые переводчики вместе со статистикой в 20 млн закачек. Эти закачки в сумме на 40 приложений для перевода (тестов языковых пар)
Да, это реклама моего проекта, результатов и всего пути, который я прошел, чтобы найти редких NLP специалистов к себе в команду и быстро достичь качества Google в переводе.

А теперь ответы:
1) Миллион был потрачен на налоги, покупку квартиры, аутсорс разработку (около 600 тыс ), на жизнь в течении 7 лет + помощь родителям + остальное. Я понимаю, что деньги это больная тема, особенно для небольших городов как России, так и Беларуси. Те, кто меня знает, может подтвердить что я живу скромно вплоть до сегодняшнего дня. Не хочу больше поднимать этот вопрос. Из этого миллиона у меня больше не осталось денег.

Железо сначала бралось в аренду у разных поставщиков. Сервера были как с одной GTX 1080 за 100$ так и AWS V100 за 32$ / час. В разное время было разное количество.

Из своего железа собрал только компьютер для тестов на 2 x 2080 RTX Ti

2) Есть все графики обучения и другое, у нас в Lingvanex Control Panel

3) Я не смог взять DGX-2 в аренду из-за того, что фирма, на которую будет договор лизинга должна быть в США, а у меня на Кипре и они строго за этим следят. Как бы удивительно это не звучало. В то время это было так

4) Много людей: мобильная и backend разработка, data-science. Разработка обошлась где-то в 600 тыс $

5) Я управлял разработкой и выступал в роли продукт-менеджера. Сам код писал, но совсем немного.

6) Надо было собирать свою команду в офис с самого начала, вместо найма на аутсорс. Эта самая большая ошибка.

7) Кеш подключили позже

8) Хороший вопрос. Сейчас бы я вложился в такие активы. Но тогда решил все потратить на бизнес.

9) Дома у меня был 1 компьютер для тестов с 2 GPU RTX 2080 Ti, который был в 4 раза быстрее, чем сервера с 1 x GTX 1080, которые я арендовал как dedicated.

10) Это не будет дешево. Узнайте их расценки.

11) Писали парсеры, но с учетом трудозатрат для их настройки под разные форматы и исправления ошибок – прекратили. Невыгодно

12) Потому что open-source проекты, когда они только начинаются – они сырые. И баги в них – это нормальное явление

13) Все смотрели. Это был очень долгий и сложный путь, который не описать в одной статье.

14) Переводчик – это сложная тема и нужны тысячи часов консультаций, которые очень дорого стоят (Мне сказали $250 в час). В то время было мало людей, к кому можно было обратиться. Когда появился openNMT меня консультировали бесплатно.

15) У нас как раз было постепенное развитие продукта в течении 8 лет. Просто 4 года назад оно стало интенсивным, как появились деньги.

16) Распознавание голоса убрали, чтобы сфокусироваться на переводчиках. Нельзя все охватить, даже если хочется.

17) План в первую очередь найти NLP специалистов в команду. Инвестор не помешает, но он должен разбираться в этом рынке, а таких не много.

18) Сейчас делается ставка на физиков ( приложения), как будет готово качественное API на много языков – ставка будет на компании (B2B).

Вам не обязательно уметь делать все подряд (программировать, дизайн, маркетинг). Не надо распыляться и пытаться все в одиночку, как это делал я :) Это неэффективно.

Важно иметь друзей / знакомых, кто может закрыть нужные компетенции и собрать их вместе. Для этого нужно иметь большой круг общения, учавствовать в хакатонах, конкурсах стартапов и т.д и быть на виду. Вы соберете команду и все будет зависить от вас, получиться ли строить бизнес, когда есть все составляющие

Information

Rating
Does not participate
Location
Warszawa, Польша
Registered
Activity

Specialization

Генеральный директор
Ведущий
Git
Английский язык
Разработка программного обеспечения
Базы данных
ООП
C++