Обновить
16
0
Антон Рябых@lenant

CTO, Лид машинного обучения

Отправить сообщение

Как мы сделали бота, который не просто переводит, а объясняет язык

Привет, Хабр! Меня зовут Антон Рябых, я занимаюсь развитием ML-направления Doubletapp. Когда я изучал испанский язык, заметил простую вещь: различных сервисов для перевода с одного языка на другой много, но ни один из них не объясняет, почему фраза строится так, а не иначе. Почему используется именно эта форма глагола? Что за идиома, которую не найти в словаре?

Так родилась идея создать инструмент, который помогает не просто перевести, но и понять язык. 

Что это за бот?

Telegram-бот помогает изучать иностранный язык через разбор фраз. Что он делает:
переводит текст с русского на иностранный и обратно;
подробно разбирает каждое слово и его роль в предложении;
объясняет грамматику;
показывает примеры употребления;
даёт аудио с правильным произношением;
умеет распознавать идиомы и фразеологизмы, объясняя их.

Сейчас бот поддерживает английский, испанский, немецкий, китайский и португальский. 

Для кого этот бот?

Ботом воспользовались 2280 пользователей, наш переводчик обработал более 50 тыс. их запросов.

Он помогает тем, кто:
учит язык с нуля и хочет разобраться в основах самостоятельно;
готовится к экзаменам;
путешествует;
хочет развить навык аудирования;
изучает язык для работы.

Как работает бот 

Выбираете язык, пишете слово или фразу, значение которой хотите узнать.
Получаете перевод текста на русский язык.
Читаете пояснение, какие именно грамматические формы использованы в тексте.
Бот может раскрыть специфические региональные особенности, например, градусы по Фаренгейту преобразует в градусы по Цельсию.
Получаете дополнительные полезные фразы по теме
Можете прослушать аудиоверсию фразы на английском

Функциональность бота-переводчика реализована с помощью модели GPT-4.1 mini. Мы разработали специальные промпты, которые задают, как именно обрабатывать пользовательские запросы на перевод. Эти промпты отличаются в зависимости от языковой пары — например, с русского на английский, с русского на португальский и обратно. Промпты содержат в себе по несколько примеров, чтобы точнее настроить ответ модели.

Когда пользователь отправляет запрос, он объединяется с подходящим промптом и передается в языковую модель. В ответ бот возвращает переведённый текст с учётом контекста и особенностей языка.

Чтобы меньше платить за токены, промпт подается в начале, а сообщение пользователя идет за промптом: таким образом у LLM на повторяющуюся часть промпта активируется механизм кеширования токенов префикса (KV cache) и они стоят в 4 раза дешевле.

Чтобы пользователю было удобнее, после выбора иностранного языка он может писать либо на русском языке (и система сама поймет, что нужно перевести на иностранный), либо на иностранном — и тогда система сама поймет, что нужно перевести на русский. Для определения, на каком языке пользователь написал сообщение, используется библиотека lingua-py.

Что дальше

Сейчас мы постепенно добавляем новые языки, планируем возможные интеграции с приложениями и расширяем возможности объяснений, чтобы можно было изучать язык на более глубоком уровне. 

Попробуй бота бесплатно

Бота можно протестировать – переходи по ссылке, выбирай язык и пользуйся. Каждый день можно сделать 5 бесплатных запросов.

Будем рады получить обратную связь: что удобно, чего не хватает, что было бы круто изменить. 

В Doubletapp мы развиваем ML-направление: создаём ботов под разные бизнес-задачи, автоматизируем процессы в бизнесе и HR, исследуем возможности современных языковых моделей и применяем их на практике.

Больше кейсов и новостей – в Telegram-канале Doubletapp. Подпишись! 

Теги:
Рейтинг0
Комментарии1

Информация

В рейтинге
Не участвует
Дата рождения
Зарегистрирован
Активность

Специализация

Технический директор, Machine Learning Engineer
Ведущий
Управление людьми
Управление компанией
Разработка под Android
Машинное обучение
PyTorch
TensorFlow
Компьютерное зрение
Обработка естественного языка
Deep Learning
Управление IT-услугами