Как стать автором
Обновить

Как я потратил 1 000 000$, чтобы сделать свой переводчик. Часть 3

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров11K
Всего голосов 52: ↑50 и ↓2+70
Комментарии37

Комментарии 37

Мне понравилось как Вы пишете. Статья стоит потраченного времени и дает позитив. Спасибо.

Ага, и ощущается как фантастика

Все реально так и было ) Но в тот момент нам было не смешно, так как мы теряли деньги из-за недобросовестных исполнителей

Совершенно согласен. Видно что автор работает с языками.

Было решено собирать свою команду полностью, а чтобы быстро найти специалистов, мы начали публиковать статьи о проекте.

Вам снова потребовались специалисты? :)

Вне зависимости от этого статья огонь! Спасибо за поднятие настроения с утра!

Когда мы потратили очень много денег впустую и нервов на аутсорс и фрилансеров, стало ясно - надо что-то менять. Свою команду было нелегко собирать, но когда стали выходить статьи о проекте, люди стали сами приходить, причем специалисты очень крутого уровня и порядочные как люди.

Вот, к слову, с нашей клиенты работают 6-7 и более лет. Никогда среди коллег по цеху не слышал таких криповых подходов, которые Вы на себе испытали. Можно только посочувствовать, что так получалось. Испортили впечатление об аутсорс-компаниях.

У нас были и успешные кейсы с аутсорсом, часть из них привел в статье. Все зависит от сложности проекта. Для небольших стандартных задач - аутсорс хороший выбор, где есть много людей с одинаковой экспертизой. Также вначале мы не знали, как правильно выбирать аутсорс компании, как собеседовать людей и т.д, поэтому совершали много ошибок.

Хороший аутсорсер работает быстрее in-house продуктовой команды. Это я говорю как человек, который и там и там присутствует.

Только зверь это крайне редкий, прямо таки краснокнижный в джунглях то

Ну с "Быстро" для аутсорса определились, осталось выбрать оставшееся одно из двух: "Качественно", "Недорого".

конвертировать 30000 часов аудио в текст.

Не нашел у вас на сайте ни документации, ни демки для STT конвертации.
30000 часов это очень много, мне нужно 2-3 часа в месяц. Есть ли возможность платить за stt поминутно, как у OpenAI whisper, например?
Есть ли автодетекция языка, когда в одной записи люди говорят на русском и английском, например? Делается ли привязка фраз к разным людям, привязка фраз ко времени, как в субтитрах?
Есть ли возможность получать мета-данные с точностью распознавания, чтобы подсветить сомнительные места в сгенерированном тексте?

На сайте нет информации про STT, это совсем новая функция. У нас решение для больших объемов аудио, например колл-центров. Поминутного API -нет. Для 2-3 часов в месяц можно воспользоваться Yandex или Google. Автодетект языка есть, но без привязки к людям. Привязка ко времени (субтитры) есть. "Возможность получать мета-данные с точностью распознавания" - в данный момент нет, но можем сделать если надо.

 неограниченном переводе на 100 языков

Обратный перевод:

А теперь у меня возникает вопрос.

Как асистент, мне лучше всего подходит GPTchat, потому что я могу задать "стилистику" перевода, или попросить сохранить идиомы. Он подбирает зачастую аналогичные по смыслу идиомы из других языков.

Как автоматический переводчик он тоже довольно хорош: я попросил перевести текст на китайский, и попросил знакомого китайца проверить. Тексты теперь локализую в нем.

Итого, ваше конкурентное преимущество - это
* Большие объемы
* Сервис на собственном железе? Или как понять "ваши данные останутся у вас"?

И у меня вопрос: а правда есть ниши, в которых есть потребность в миллиардах символов в месяц без редактуры? Потому что если нужна редактура, то десятку редакторов проще купить подписку на GPT.
И второй вопрос: если вы разворачиваете сервис на железе заказчика, то как вы монетезируетесь "помесячно", в качестве сервиса? А если не на железе заказчика, как обеспечивается гарантия "ваши данные останутся у вас".

Вы можете использовать ChatGPT или Google для небольших объемов текста, где не нужна защита данных. Также вы правы насчет наших преимуществ:

1) Неограниченный объем по фиксированной цене

2) Сервис на собственном железе (защита данных)

Есть много ниш где не нужна редактура. Например перевод описаний отелей, отзывов, аукционов и любых международных площадок, где много контента. Также для задач аналитики, где нужно перевести много данных на английский, чтобы потом их анализировать.

Мы даем клиенту контейнер, он сам его разворачивает. Там все автоматизировано, поэтому быстро.

Если заказчик хочет месячную подписку, то ему надо каждый месяц обновлять ключ, который привязывается к его железу. Удобней купить на год, а чтобы попробовать - мы даем бесплатную 2 - недельную демку. На месяц также можем дать бесплатно.

Хммм. Откровенно говоря, я не ожидал, что эта ниша окажется достаточно большой, чтобы оправдать усилия. Если это так - рад за вас.

Касательно контейнера с ключом - интересная идея. Звучит как нечто уязвимое для взлома, но, с учетом стоимости, скорее всего должно быть невыгодно. Поправьте, если не прав.

Взломать можно что угодно, вопрос во времени. Мы продаем юрлицам в основном, там защита не столько техническая, а юридическая - через договор.

У openai цена $0.006 за минуту, это $10800 за 30 тыс часов, а тут $200 - вот и преимущество.
Качество распознавания сравнить пока невозможно, а это важно.

К примеру VOSK - вообще бесплатно на своем железе, отлично распознает четкую речь из новостей, или диктора с радио, но для "обычных людей", с их бормотанием, выходит довольно большой процент ошибок.

Напишите на info@lingvanex.com, мы дадим вам ссылку на страницу, где можно проверить качество распознавания.

Вопрос еще и в качестве перевода. Ради интереса перевел пару абзацев примерно на 100 слов с английского на русский и сравнил результат. По моему мнению, порядок получился примерно таким:

  1. ChatGPT

  2. Deepl

  3. Google

  4. Bing

  5. Lingvanex

  6. Translate.ru

Два первых условно можно оставить без коррекции, Google требует коррекцию в 3-х местах, Bing - в 6, Lingvanex - в 12, Translate.ru - мусор.

Ммм... перевод следующего абзаца оказался для Lingvanexа смертельным. Толком даже непонятно, о чем в оригинале шла речь. Текст вполне себе обычный - про доставку кофеварки и варку кофе. Deepl и ChatGPT справились практически на отлично, Google похуже, Bing еще похуже...

Результат зависит от текста (тематика, язык, направление, стилистика, локаль итд). Каждый выбирает переводчик под свои данные.

Оно, конечно, да, но, как я сказал, мой тест был достаточно простым и наиболее распространенным - с английского на русский, бытовой текст, практически без специальной терминологии, если не считать таковой "double shot" про двойной эспрессо. И если один абзац требовал коррекции в паре мест в каждом предложении, то другой вообще потерял смысл.

Попробовал что-то посложней - перевод новости с венгерского на русский - результат практически бессмысленный. То есть совсем, непонятно, о чем речь.

Венгерско -русский очень сложное направление перевода. У нас перевод сделан через конвертацию в английский сначала, как у других переводчиков. Мы можем сделать прямой перевод для этой пары - если будет заказ, там будет лучше качество намного. Датасеты венгерского -русский есть

Верю. Но смысла рекламировать такие "сложные направления" не вижу. Переведет так кто-то на незнакомый ему язык и даже знать не будет, что "перевод" - практически бессмысленный набор слов.

Интересно, яндекс не имеет собственного сервиса? Как еще объяснить его отсутствие в Вашем тесте? По крайней мере эстонско-русский перевод яндекса превосходит гугловский, а эстонский язык с венгерским имеет общие корни.

>> Как еще объяснить его отсутствие в Вашем тесте?

Все очень банально. Я живу не в России, Яндексом не пользуюсь, искренне ненавижу и блокирую Яндекс.Директ, периодически Яндекс заставляет меня ввести каптчу, поэтому Яндекс просто не пришел мне в голову :)

Перевел им английский текст. Я бы сказал, где-то между Гуглом и Бингом (необходимы 4-5 коррекций), хотя пара оборотов была переведена удачнее всех.

Что касается перевода венгерского текста - абсолютный мусор. Совсем.

НЛО прилетело и опубликовало эту надпись здесь

Напишите на info@lingvanex.com, вам скинут список с онлайн демкой

Статья и правда крутая. Автор пусть продолжает.

 Я жёстко вцепился в последний шанс и начал обещать хорошие деньги, поток заказов и все что угодно, только сделайте мне это. Пусть он посмотрит задание прямо сейчас. «Хорошо, уговорил». При мне менеджер начал звонить этому разработчику на телефон, параллельно разговор шел по Скайпу.

На заднем фоне были слышны недовольные фразы, немного мата, крики детей и пьяной компании — видно, человек умеет не только работать, но и отдыхать:) 

Имхо пример плохого взаимодействия с людьми. Выдергивать человека с отдыха просто потому что хочется побыстрее найти решение, а по факту задача не "горящая" и вполне могла подождать понедельника - был риск испортить отношения с этим разработчиком и получить принципиальный отказработать с таким клиентом

Согласен, что по-человечески это не культурно. Но задача была горящей для нас. Вначале мы потеряли много крутых клиентов, из-за того, что не поставили демо-версию в срок.

кто в agency работал, тот в цирке не смеётся) аж ностальгия накрыла. Там менеджеры и тим лиды придумывают подобные схематозы с разводом заказчика. Собеседование проходит один, код пишет второй, а через месяц кидают джуна за $200 в месяц для учебы на место кодера ибо синъЁр нужен на другом проекте. На все неудобные вопросы будет 100500 тупейших ответов вида: sorry for the delay I was deep in the code!


Самое обидное подобные конторы на апворке получают кучу звезд и зарабатывают миллионы.

Все так! Пока это понял, потратил огромную кучу денег впустую.

Я понимаю что скорее всего нетактично такие вопросы задавать, вот до сих пор ни кто и не спросил, инвесторские деньги скорее всего, да? Ибо за два миллиона рублей уже можно купить студию в Питере, так что эти миллионы ни о чем, а миллион долларов делает человека долларовым миллионером, тут оказывается на Хабре долларовые миллионеры среди простых смертных обитают, а они и не знают)

Да, нашел уже в профиле, прочитал, прям впечатляет, всегда прямо с уважением относился к тем, кто зарабатывает своим честным трудом, особенно такие деньги, ибо я такой прям весь из себя специалист высшего класса, прям такой весь из себя специалист, но получаю 3, никакие не 30, да, это баснословные деньги для этой страны (для Европы не очень, так, средне, даже для Эстонии (хотя почему "даже"?)), но не 30, не 30. А вообще удивлен что в мобайле в то время вертелись такие бабки, я и сам уже начинал тогда писать, поэтому не мог не знать эту область, ладно бы все просто были бы не в курсе, но я застал даже доткомы, а там инет-то только развивался, хотя уже каждый сапожник об этом говорил, я даже ребенком это знал, да и биток 20 года тоже, до сих пор гудит насколько резонанс был.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории