Привет, Хабр!
Сегодня хочу рассказать о нашем самом главном продукте офлайн решении для машинного перевода — инструменте, который позволяет компаниям переводить тексты, документы и веб-контент локально, безопасно и на скорости 1 000 000 символов в секунду (на сервере аналогичном 8 x RTX 5090)
Почему мы решили сделать это решение
Многие компании хотят использовать мощные нейросетевые модели, но при этом не могут позволить себе передавать конфиденциальные данные в облако. Это особенно актуально для финансовых учреждений, юридических фирм, медицинских организаций и государственных структур.
Перед нами возникла непростая задача ー сделать быстрый и точный перевод с сохранением высокого качества перевода, всех необходимых терминов, структуры и контекста, без риска утечки данных.
Облачные сервисы, конечно, удобны, но не всегда безопасны. Поэтому, мы решили создать альтернативное решение, которое компании могут развернуть у себя на собственных серверах, с полным контролем над данными и без ограничений на объемы текста.
Что такое локальный машинный перевод?
Локальный машинный перевод — это технология, которая позволяет компаниям переводить тексты, документы и веб-контент на своих серверах, без передачи данных в облако, с полной защитой информации и контролем над процессом перевода.
Основные функции
Мгновенный перевод текста, аудио и документов на более чем 100 языков.
Перевод документов и веб-контента (поддерживаются только цифровые PDF и PDF с текстовым слоем; сканированные или "только изображение" PDF пока не поддерживаются).
Обработка больших объёмов данных без ограничений — можно переводить неограниченное количество документов и пользователей.
Сохранение структуры документа, контекста, терминологии и глоссария.
Развертывание в Docker-контейнере на локальных серверах и кластерах GPU.
Оффлайн-режим — перевод без подключения к интернету.
Поддержка неограниченного числа продуктов и пользователей в рамках корпоративного развертывания.
Сверхбыстрая скорость перевода, подходящая для больших объёмов данных.
Легкая интеграция с вашими продуктами и возможность масштабирования под нужды компании.
Простая кастомизация и настройка под корпоративные требования.
Регулярные бесплатные обновления и поддержка.Фиксированная цена, без скрытых платежей и ограничений на использование.
Принцип работы очень похож на облачный API Lingvanex, но все вычисления происходят локально, что обеспечивает полный контроль над корпоративными данными и максимальную безопасность.
Поддерживаемые форматы
DOC / DOCX / ODT — сохраняем таблицы, стили и колонтитулы.
PDF — цифровые файлы с текстом, поддержка OCR.
XLS / XLSX / CSV — таблицы и формулы сохраняются.
PPTX — слайды переводятся без потери структуры.TXT / RTF — базовое форматирование и текст.
Оценка качества перевода
Для оценки точности перевода наши модели используют BLEU и COMET:


BLEU измеряет совпадение машинного перевода с эталонным текстом. Значения выше 50 считаются очень хорошими.
COMET оценивает качество перевода с учётом контекста и семантики, приближая результат к оценке человека. Значения выше 90 считаются отличными.
Наши on-premise модели демонстрируют высокие показатели по обеим метрикам, сопоставимые или превышающие популярные облачные сервисы.
Результаты тестирования
Lingvanex демонстрирует превосходство над конкурентами по обеим метрикам. Особенно заметно это при переводе на европейские языки — французский, португальский, испанский — где система стабильно показывает лучшие результаты и по BLEU, и по COMET.
Даже при работе со сложными языками, такими как арабский и хинди, где из-за структурных различий с английским обычно сложнее добиться высокого качества, Lingvanex остаётся лидером, обеспечивая точность перевода, которая опережает другие решения на рынке.
Преимущества настройки под клиента
Lingvanex предлагает возможность кастомизации под конкретные бизнес-задачи и отрасли:
Адаптация моделей к различным тематикам: медицина, юриспруденция, финансы и т.д..
Подстройка под корпоративный стиль, терминологию и предпочтения в лексике.
Улучшение качества перевода и восприятия текста конечным пользователем. Такая персонализация делает Lingvanex незаменимым инструментом для компаний, работающих с специализированными текстами, и позволяет значительно повысить точность и естественность перевода.
Отличие от бесплатных open source моделей.
Наше качество перевода лучше open source LLM, даже тех, которые на сотни миллиардов параметров. Отсутствие галлюцинаций.
Скорость работы более чем в 50+ раз быстрее на той жей конфигурации сервера. Как следствие - цена перевода миллиона символов в 50+ раз дешевле.
Где востребован локальный машинный перевод
Наш продукт особенно полезен там, где конфиденциальность данных критична. Мы уже помогаем множеству организаций безопасно переводить информацию без риска утечки информации.
Финансовые и юридические компании
Безопасный перевод контрактов, отчетов, документов, положений, правил, инструкций.
Сохранение структуры документов, таблиц, формул, что важно для финансовой и юридической документации.
Обработка больших объемов данных без потери качества.
Медицинские учреждения
Перевод научных публикаций, историй болезни, протоколов, справок, заключений, справок, медицинских свидетельств.
Поддержка терминологии, которая очень важна для точного и качественного перевода.
Локальная интеграции на серверах медицинского учреждения для полной конфиденциальности.
Государственные организации
Перевод официальных документов, отчетов, нормативных актов, приказов, распоряжений, инструкций, законов, постановлений, регламентов, статистических данных, протоколов заседаний, решений комиссий, документов международного взаимодействия и соглашений.
Поддержка интеграции с внутренними системами и платформами, что позволяет ускорить обработку документов и повысить эффективность рабочих процессов.
Почему это важно
Современный бизнес всё чаще работает с клиентами и партнерами из разных стран. Это означает постоянный обмен документами, контрактами, инструкциями, презентациями — и всё это на разных языках.
Когда в документах содержится конфиденциальная информация, передача их в облачные сервисы может представлять риск. Утечка данных способна привести не только к финансовым потерям, но и к репутационным ударом, а в некоторых случаях — к нарушению закона.
Lingvanex On-premise Machine Translation решает эту проблему: перевод выполняется прямо на серверах компании, без выхода данных наружу. При этом скорость и качество перевода остаются на уровне лучших облачных решений, а вы полностью контролируете процесс.
Хотите протестировать?
Lingvanex On-premise Machine Translation — это безопасный, быстрый и точный инструмент, позволяющий компаниям обрабатывать информацию локально.
Если хотите протестировать, напишите нам на info@lingvanex.com или заполните форму — предоставим демо, протестируете наше решение бесплатно, чтобы перевести миллионы веб-страниц за день.