Как стать автором
Обновить

Автоматический перевод текста, HTML, файлов без ограничений на 100 языков для ваших проектов. Офлайн. API, сервер, SDK

Я пиарюсь

Я занимаюсь переводчиками с 2012 года, и эта тема выбрана не случайно. Еще тогда было замечено, насколько сильно переводы могут влиять на показатели бизнеса. В нашем случае поддержка всего 15 языков вместо одного позволила увеличить количество скачиваний мобильных приложений до 35 миллионов без затрат на рекламу. Никакие другие действия не давали такой пользы с учетом потраченного времени и денег. И это стало основной причиной того, почему я выбрал это направление.

Несмотря на глобализацию, проблема языкового барьера до сих пор актуальна. В мире насчитывается более 7 тысяч языков, на которых общаются более 7 миллиардов жителей. По статистике, каждый год более 1 миллиарда человек ищут в интернете решения, связанные с переводами.

Каждый день увеличивается количество данных на разных языках. Доля английского языка в интернете сократилась до 25% в последние годы.

· Согласно недавнему опросу в восьми странах, более 72% потребителей заявили, что у них больше шансов совершить покупку на веб-сайте, если он будет на их родном языке.

· 42% потребителей Европейского Союза не покупают товары или услуги, представленные на иностранном языке, даже если они свободно говорят на этом языке.

· Компании, которые локализовали свой контент, в 2,5 раза чаще испытывают рост прибыли в годовом исчислении и в 1,8 раза чаще испытывают рост доходов.

· Для предприятий, локализовавших информацию, предназначенную для коммуникации с клиентами и партнерами, увеличение выручки было в 2,67 раза более вероятным, а рост прибыли — в 2,6 раза более вероятным.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 2.2K
Комментарии 9

Опубликована программа конференции AINL

Я пиарюсь
26 мая в субботу в Санкт-Петербурге пройдет конференция AINL: Искусственный интеллект и естественный язык. На однодневной конференции будут представленны 25 докладов ведущих специалистов в области автоматической обработки естественного языка и искусственного интлеллекта.

Программа поделена на 7 секций:
— Искусственный Интеллект
— Речевые технологии
— Управление знаниями
— Text mining
— Лингвистические технологии
— Машинный перевод
— Интернет-технологии

Основной фокус конференции: онтологическое представление знаний, диалоговые системы, речевые технологии. Будет организована он-лайн трансляция и видеозапись докладов.
У желающих выступить с постером есть еще пять дней (до 22 мая), чтобы подать заявку на участие.
Зарегистрироваться в качестве слушателя можно на сайте конференции до 23-ого мая включительно.
Участие в конференции — бесплатное.

Посмотреть подробную программу
Всего голосов 25: ↑24 и ↓1 +23
Просмотры 979
Комментарии 19

Переводчик из машины, или как научить МФУ переводить документы

Блог компании ABBYY Проектирование и рефакторинг *Обработка изображений *
Привет, %username%!

Недавно мы, ABBYY LS, совместно с Xerox запустили Xerox Easy Translator Service — сервис, который позволяет получить машинный перевод документа – для этого его нужно отсканировать при помощи МФУ на базе технологии Xerox ConnectKey или же сфотографировать камерой телефона. Через эту же платформу можно заказать и профессиональный перевод.



Как это работает? Давай разбираться!
Читать дальше →
Всего голосов 17: ↑17 и ↓0 +17
Просмотры 6.2K
Комментарии 2

Transformer — новая архитектура нейросетей для работы с последовательностями

Машинное обучение *

Необходимое предисловие: я решил попробовать современный формат несения света в массы и пробую стримить на YouTube про deep learning.


В частности, в какой-то момент меня попросили рассказать про attention, а для этого нужно рассказать и про машинный перевод, и про sequence to sequence, и про применение к картинкам, итд итп. В итоге получился вот такой стрим на час:



Я так понял по другим постам, что c видео принято постить его транскрипт. Давайте я лучше вместо этого расскажу про то, чего в видео нет — про новую архитектуру нейросетей для работы с последовательностями, основанную на attention. А если нужен будет дополнительный бэкграунд про машинный перевод, текущие подходы, откуда вообще взялся attention, итд итп, вы посмотрите видео, хорошо?


Новая архитектура называется Transformer, была разработана в Гугле, описана в статье Attention Is All You Need (arxiv) и про нее есть пост на Google Research Blog (не очень детальный, зато с картинками).


Поехали.

Читать дальше →
Всего голосов 64: ↑61 и ↓3 +58
Просмотры 54K
Комментарии 7

Главные достижения в области обработки естественного языка в 2017 году

Блог компании Московский физико-технический институт (МФТИ) Блог компании Open Data Science Data Mining *Математика *Машинное обучение *
Перевод

Всем привет. Сразу поделим аудиторию на две части — тех, кто любит смотреть видео, и тех, кто, как я, лучше воспринимает тексты. Чтобы не томить первых, запись моего выступления на Дата-Ёлке:



Там есть все основные моменты, но формат выступления не предполагает подробного рассмотрения статей. Любители ссылок и подробных разборов, добро пожаловать под кат.

Читать дальше →
Всего голосов 61: ↑61 и ↓0 +61
Просмотры 19K
Комментарии 3

Deep Learning in Natural Language Processing

Блог компании Московский физико-технический институт (МФТИ) Машинное обучение *Учебный процесс в IT Natural Language Processing *
image

Лаборатория нейронных сетей и глубоко обучения МФТИ открывает курс Deep Learning in Natural Language Processing. Он стартует 21 февраля и будет проходить каждую среду в 19:00 в 105 БК, необходимо зарегистрироваться. Длительность курса — 10 занятий, их проведёт сотрудник лаборатории Валентин Малых (madrugado). Курс открыт для всех желающих углубить свои знания в Deep Learning и Natural Language Processing. Занятия также будут транслироваться в режиме онлайн в Youtube-канале лаборатории.
Читать дальше →
Всего голосов 18: ↑18 и ↓0 +18
Просмотры 9.3K
Комментарии 2

OmegaT: переводим с помощью компьютера

Софт Изучение языков
Tutorial
image

Как переводить документ в Word и не париться с форматированиемКак не переводить одно и то же? Как сохранять единообразие? Как не покупать дорогие программы? Как работать эффективно и быстро?

Если вы знакомы с Trados, MemoQ или CrowdIn, переходите сразу к инструкции по установке. Если же это новые для вас слова — добро пожаловать в прекрасный мир Computer Aided Translation. 
Читать дальше →
Всего голосов 31: ↑29 и ↓2 +27
Просмотры 25K
Комментарии 29

Machine Learning and Theory of Constraints

Машинное обучение *Веб-аналитика *Управление продуктом *Бизнес-модели
Backlog prioritization requires simplification and weighting of tasks. Each one belongs to strategy like ads acquisition or CRO. We may consider turnover, operational costs, other metrics as input; profit margin, ROI — as output in case of retail. The perfect goal is to find 20/80 solution and focus resources on a single strategy at a time. Metrics tied to strategies gives the dimension of model. Sometimes unit economy relations are violated because of non-linearity. In practice it means low/insignificant correlation and poor regression. Example: it is impossible to separate acquisition and conversion — the quantity of acquisition affect its quality and vice versa. Decomposition of tasks/strategies assumes linear decomposition of nonlinear system. Besides nonlinear statistical evaluation of strategies is required when CJM can't be tracked or online/offline channels can't be separated.
Read more →
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 1.3K
Комментарии 2

Natural Language Processing. Итоги 2019 и тренды на 2020

Блог компании Huawei Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *
Всем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.

BERTs, BERTs are everywhere


Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:


Всего голосов 32: ↑32 и ↓0 +32
Просмотры 8.1K
Комментарии 0

Курс Natural Language Processing (обработка естественного языка)

Блог компании Huawei Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *

Всем привет!


UPD. 04.03.2020: Удалось договориться о записи лекций. Для первой лекции будет организована трансляция.


Huawei Russian Research Institute (Huawei RRI) в рамках программы взаимодействия с ведущими российскими университетами (МФТИ, МГУ, МГТУ им. Н. Э. Баумана) представляет открытый курс “Natural Language Processing” или “Обработка естественного языка”, который пройдет на площадке московского корпуса Физтеха.


Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 9.8K
Комментарии 23

Машинный перевод. От Холодной войны до наших дней

Блог компании Huawei Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *
Машинный перевод в последние годы получил очень широкое распространение. Наверняка, большинство моих читателей хоть раз пользовались сервисами Google.Translate или Яндекс.Перевод. Также вероятно, что многие помнят, что не так уж и давно, лет 5 назад пользоваться автоматическими переводчиками было очень непросто. Непросто в том смысле, что они выдавали перевод очень низкого качества. Под катом краткая и неполная история машинного перевода, из которой будет виден в этой задаче и некоторые его причины и последствия. А для начала картинка, которая показывает важную концепцию относительно машинного перевода:


Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 3.9K
Комментарии 30

Делаем параллельный корпус из книг с помощью sentence embeddings

Python *Data Mining *Машинное обучение *Изучение языков Natural Language Processing *
Tutorial

Parallel trucks (image by Unsplash


При поиске параллельных корпусов для своих нужд, — это может быть обучение модели машинного перевода или изучение иностранного языка, можно столкнуться с тем, что их не так уж и много, особенно, если речь идет не об английском, а каком-то редком языке. В этой статье мы попробуем создать свой корпус для популярной языковой пары русский-немецкий на основе романа Ремарка "Три товарища". Любителям параллельного чтения книг и разработчикам систем машинного перевода посвящается.


Задача


Такая задача называется выравниванием текстов и может быть до какой-то степени решена следующими способами:


  • Использовать эвристики. Можно считать количество предложений в текстах, количество слов в них и на основе этого производить сопоставление. Такой способ не дает хорошего качества, но может тоже быть полезным.
  • Использовать sentence embeddings. Наверняка вы слышали про модели типа word2vec или sent2vec или видели такой пример их использования — "король" + "женщина""мужчина" = "королева". Если коротко, то суть в том, чтобы перевести слова (предложения, тексты) в векторное пространство с сохранением семантического расстояния между ними. Такой подход открывает перед нами замечательные возможности по оценке близости текстов и их кусочков по смыслу.
Читать дальше →
Всего голосов 13: ↑13 и ↓0 +13
Просмотры 4.3K
Комментарии 4