Как стать автором
Обновить

Потратил 1 000 000 $, чтобы сделать свой переводчик. Продолжение истории

Время на прочтение7 мин
Количество просмотров9.8K
Всего голосов 34: ↑34 и ↓0+34
Комментарии30

Комментарии 30

У меня были мысли использовать сервер, чтобы создавать клоны сайтов типа
Stackoverflow, Quora и другие зарубежные проекты на разные языки, и
потом зарабатывать на рекламе.

Судя по количеству таких сайтов в выдаче яндекса и гугла, не только вам пришла в голову такая идея.

Это идея пришла, когда делали стресс-тесты производительности для браузера Vivaldi. Видеокарта GTX 1080 в аренде стоит 120 евро. За сутки она может перевести 300 000 HTML страниц среднего размера. Значит за месяц - 9 млн страниц.

Если посчитать сколько HTML страниц в индексе Google для StackOverflow, то через оператор site:stackoverflow.com показывает 114 млн страниц. Но в реальности их будет меньше. На мой взгляд за 1000 евро Stackoverflow точно можно перевести на любой из языков. Через рекламу, это должно окупиться за неделю. Но это все грубые расчеты, без затрат на инфраструктуру, где будут храниться переведенные страницы, парсер и т.д

На мой взгляд за 1000 евро Stackoverflow точно можно перевести на любой из языков. Через рекламу, это должно окупиться за неделю. 

Бан от гугла прилетит раньше чем страницы попадут в выдачу. Этих клонов уже сотни, если не тысячи, но только единицам удается попасть в топ, остальные болтаются с посещаемостью 200-500 юников на язык. Такое на рекламе не окупить и за полгода, а если добавить к этому высокий процент пользования адблоком среди посетитей а-ля SO, то цифры можно смело делить пополам.

Да вот что-то всё не банят, в выдаче первым висит :(

Можно посмотреть сравнение между вами, Deepl и Google trantlator?

У нас есть демо-страница, на которой можно проверить качество перевода. В целом у Google и DeepL качество перевода лучше. Но мы сделали фокус на функциональности (SDK, локальный сервер и т.д.), цене и сервисе

https://lingvanex.com/demo/

Начинание хорошее, но еще долго придется идти к хорошей версии конечного продукта.

Технические ошибки (в переводе откуда-то появляются: точки, запятые с пробелами лишние), не верное оформление текста - путь еще длинен и суров, но идея сама имеет место быть. Поддерживаю вас - сил и успехов.

Сделайте возможность создания API-key без ввода данных карты. Я хочу попрбовать, но не хочу вводить данные карты

Спасибо! Будем исправлять.

А лучше устроиться в компанию со сходным проектом и просто перенять положительный опыт. Так намного быстрее.

А как же всякие NCA, NDA? И даже без них роде после увольнения надо еще полгода посидеть, а потом уже начинать свой коммерческий проект, чтобы не получилось как с nginx.

В данный момен обычно использую bing или deepl, качество обоих на много лучше google translate по крайней мере для русского языка. Также из-за своих увлечений постоянно пользуюсь переводчиками с китайского, корейского и японского и вот там все очень плохо и нормального перевода на русский язык не найти. Была идея запилить проект по типу lnmtl.com для русского комьюнити, но пока не нашел времени на реализацию.

NCA, NDA и т.д - это для конфиденциальной информации о клиентах, продуктах и показателях компании. Никто не запрещает вам перенять опыт управления людьми, проектами, подходам к разработке продукта и т.д, чтобы потом использовать в своих проектах.

Сейчас не существует единого переводчика, которых будет лучше всех на всех языках и ситуациях. Иногда наши клиенты пишут нам, что мы лучше Google и Deepl для их задач.

Скорее будет проблема если вы заключите "соглашение о неконкуренции" в некоторых странах это законно. И вероятно вас могут просто не взять в некоторый стартап/компанию занимающийся специфической узкой темой, без подписания подобного договора. Возможно только если вы не какой то уже очень ценный специалист который может себе позволить торговаться.

Если будет соглашение о неконкуренции - то да, вы правы. Но только если вы делаете точь-в-точь такие же продукты.

Если вы работаете в компании, которая делает приложения для йоги, то никто не мешает вам делать приложения для бега или подсчета калорий, но использовать знания маркетинга (закупка трафика, рекламные каналы и т.д ) которым вы научились. Рынок - большой, всегда многих ниш, которые не пересекаются с вашим работадателем.

Подскажите пожалуйста Вы также как Google переводите и PDF файлы?
(и какие другие файлы документов поддержаны и насколько хорошо)

И понимает ли переводчик, к примеру, контекст наличия в документе «примеров» того или иного языка программирования и не перевода их исходного текста, но переводa языковых комментариев к ним?

Наш сервер для переводов и приложения могут переводить PDF файлы с сохранением форматирования. В отличие от Google мы можем переводить офлайн, что важно, когда информация конфиденциальна (бизнес, медицина и т.д)

По умолчанию, переводчик не понимает примеров языка программирования. Чтобы не переводить определенны куски текста, можно сделать разметку через тег <notranslate> в самом документе и отправить потом на API для перевода.

Спасибо, очень интересно
Есть 2 вопроса:
1) Все же, корректнее сравнивать себя с Deepl, а не с Google, и интересно, чем вы лучше их?
2) Из своего опыта работы с видеокартами для вычислений помню, что все датацентровые продукты NVIDIA имеют искусственно завышенный прайс, и могут быть интересны лишь в трех случаях: если надо получить перфоманс fp64 (да и то, есть слух, что можно программно снять ограничение, поставленное из-за жадности маркетологов), если критична надежность, если принципиально важно не нарушить пункт EULA. В остальном это деньги на ветер. Поэтому интересно, почему вы так хотите дорваться до DGX-2, а не смотрите в сторону чего-то вроде https://www.rackmountpro.com/product/3271/4029GP-TRT2.html

Ответы:

1) Отличие от DeepL

a) У нас больше языков чем у DeepL. У нас их 120, у DeepL - 25. Сейчас не все возможные языки доступны у нас на демо-странице.

b) Из продуктов у нас есть сервер для перевода, SDK, desktop приложения которые переводят документы офлайн.

с) У нас в 5 раз дешевле цена на API для перевода

d) Наш сервис со всеми функциями доступен во всех странах. DeepL PRO доступен только в 33 странах

e) Мы стараемся делать фокус на оперативную и качественную поддержку клиентам. Бесплатно помогаем разворачивать сервера, делаем кастомные фукнции (если недолго) и стараемся быстро отвечать. Многие клиенты выбрали нас только из-за этого.

2) Я упомянул DGX-2 в контексте начала 2020 года. Когда не было столько альтернатив, как сегодня. На текущий день, конечно, лучше выбрать другой

Спасибо, по отстройке от Deepl, интересно.

Но насчёт альтернатив не соглашусь: для меня собрали маленький кластер из 2u rackmount с 4мя(!) 1080ti в каждой коробке в 2017м;) Когда я увидел фотоотчет, это впечатляет. Плотность и размещение деталей в корпусе напоминает фото подкапотного пространства суперкаров. И это на базе платформы gigabyte с камнями xeon. Хотя... мы таки помучались с этими железками. У них глубина чуть больше распространенной, и надо уточнять по стойкам сразу + один блок питания не вывозит мощность системы, и процессор начинает уменьшать частоту в моменты, когда только один БП подключён к сети.

f) перевод текста на изображениях в браузере.

Cчитывает текст вроде толково, но по первым впечатлениям переводит слабо. В расширениях оставлю для перевода изображений, но пока продолжу пользоваться Reverso.

https://www.reddit.com/r/aww/comments/ss9qnt/this_pupper_knows_the_drill_when_its_raining/

PLEASE WIPE COOPERS FEET BEFORE HE RUNS INSIDE THANKS Mum

Ваш ПОЖАЛУЙСТА, ПОЙДИТЕ КУПЕРЫ НОГИ ДО того, как он бежит ВНУТРИ. Мама СПАСИБО (3 раза по разному: wipe то пойдите, то победите. В третий раз runs не перевел.)

Яндекс ПОЖАЛУЙСТА, ВЫТРИ КУПЕРУ НОГИ, ПРЕЖДЕ ЧЕМ ОН ПОБЕЖИТ ВНУТРЬ, СПАСИБО, МАМА

Deepl Пожалуйста, вытрите ноги Куперса перед тем, как он забежит внутрь, спасибо, мама.

Google вообще не загружается )) Можно сделать как в Grammarly - отключение на данной странице. GooglePlay тоже висит при вашем расширении в Хроме.

& при автоопределении языка иконки фотоаппарата нету - или вы думаете пользотели японские иероглифы от корейских отличат?))

А в сторону людей изучающих языки нет желания подвигаться? Или пока хотите на b2b жирок нагулять?

Пахать вам ещё ребята и пахать и внутри и снаружи и в продажах (800 подписчиков в Ютубе, и на Реддите вас нет). Можете сделать такого плана бота (для перевода изображений в постах) попиаритесь. https://www.reddit.com/user/savevideo/

GL, землячки, киприоты )).

Спасибо за отзыв )

Согласен, что расширение браузера содержит кучу ошибок. У нас сейчас нет ресурсов, чтобы их чинить, так как фокус бизнеса сместился. Но когда-нибудь мы к нему вернемся.

На Youtube у нас 800 подписчиков. Для сравнения - у Promt на Youtube 400 подписчиков, хотя компания 30 лет на рынке и раз 30 больше нашей :)

В любом случае, планируем развивать наш канал.

Были мысли идти в сторону изучения языков. В мобильные приложения добавили функцию слов изучения по карточкам. Но сильно туда не копали.

Aliaksei_Rudak попробовал поставить ваше расширение для перевода и оно, внедрёнными стилями, только за 2 минуты успело сломать мне меню в админке и комментарии на хабре.
Заголовок спойлера
Откл:


Вкл:


В отзывах к расширению об этом, если что, год назад уже писать начали.
Заголовок спойлера

Согласен, у расширения для перевода есть технические проблемы. Оно бесплатное. Сейчас у нас фокус на B2B, чтобы зарабатывать деньги. Сейчас у нас еще нет самоокупаемости.

Поэтому на расширения не хватает сил и времени. Но в будущем планируем к нему вернуться.

Я технический переводчик и корректор с 15-летним стажем. Ни одна уважающая себя фирма не использует машинный перевод, а заказы MTPE берут только студенты и дамы, сидящие в декрете.

Я уверен, что MTPE (Редактирование после перевода машиной) широко используют фирмы с мировым именем в локализации. И с каждым годом процент использования MTPE растет. Локализация - это дорогой процесс, а рынок очень чувствителен к цене перевода за слово. У них ничего не останется, как сильно уменьшать цену в ущерб небольшому снижению качества перевода. Такие бизнес процессы происходят повсеместно в IT из-за того, что растет конкуренция.

"Из тысячи вопросов, которые мне задали за последние пять лет, примерно 950 из них были “Чем вы лучше Google”. Я пробовал давать разные ответы, но сейчас стараюсь отвечать коротко - приватность данных, функциональность, цена, качество сервиса поддержки." Цена? А я не путаю ничего? Продукт от Google же бесплатный для конечных юзеров? Качество сервиса поддержки? За десять лет пользования сервиса от Google и тысяч переводов я ни разу не столкнулся с необходимостью куда то звонить или писать и просить поддержку. Неплохо для бесплатного продукта. Функциональность? Да, это если надо перевести сложный текст с кучей таблиц и графиков, особенно в PDF, но тут я понял и ваше решение не очень то. Приватность? Для онлайн решения - я лучше с гуглем поделюсь инфо, чем с неизвестной компанией, а оффлайн решение - тут да, согласен, выигрывает, но опять же, для кого это важно - для 0.01% пользователей, которые согласы к тому же купить продукт? При этом я не сравниваю качество переводов.

Так что сравнение с Google Translate - это как то самоуверенно, не находите?

Мои ответы:

1) Продукт от Google же бесплатный для конечных юзеров

>>Потому что Google продает ваши данные рекламодателям. Для вас продукт бесплатен, потому что товар это вы. На рынке всегда кто-то за что-то платит.

Для большинства людей на приватность плевать. Но ровно до поры до времени.

Наш целевой рынок - пользователи, которым важно, чтобы их данные (личное, работа итд) не попали в руки нехороших людей. За это они готовы нам платить.

2)  Качество сервиса поддержки? За десять лет пользования сервиса от Google и тысяч переводов я ни разу не столкнулся с необходимостью куда то звонить или писать и просить поддержку.

Потому, что вы используете его для ваших нужд. Я про это писал в статье. Когда будете использовать для бизнеса и в нужный момент что-то перестанет работать, а вы потеряете кучу денег - ваши взгляды изменяться

Основная идея моей статьи - что мы переключились с бесплатных приложений (для большинства пользователей которые не хотят платить) на рынок бизнес-решений. Для небольшого круга клиентов, для которых важна поддержка и приватность. Но эти 0.01% бизнес клиентов принесут в 1000 раз больше денег, чем 99.9% бесплатных. И это основная идея, к которой я пришел через несколько лет.

Приветствую! Интересные у Вас статьи.

  1. Как у Вас дела после февральских событий? Зарубежные заказчики отвалились? Новые появляются?

  2. Изменилось ли качество перевода с момента публикации Вашей последней статьи от 14.02.2022? Больше интересует направление ecommerce - описания товаров, обзоры товаров лонгриды, также финансовая и криптовалютная тематика.

  3. Тестировали скорость перевода на видеокартах GeForce RTX 4090? Имею ввиду для продукта offline server.

  4. При покупке offline server на год русский язык идет для русскоязычных в подарок? =) Рассматриваю вариант взять на год сервер. Нужны английский, словацкий, испанский ну и конечно русский.

  5. Есть ли у Вас возможность принять оплату с российского ИП по безналу?

переводить письма клиентов, накладные, справки и прочие внутренние документы через бесплатные онлайн-сервисы может быть небезопасно, так как такие компании собирают ваши данные, чтобы потом продать их рекламодателям


Нередко слышу вот такое от маркетологов. Ну подскажите ли к кому в Гугле можно обратиться, чтобы они мне слили данные моих конкурентов?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации