Как стать автором
Обновить

Язык твой — друг твой. Дообучаем языковые модели, собираем корпуса, делаем книги на малых языках

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров6.3K
Всего голосов 47: ↑45 и ↓2+43
Комментарии11

Комментарии 11

Спасибо большое. Очень крутые инстурменты и инструкции. Особенно для тех языков, где данных очень мало.
По поводу SuperMinor предлагаю сделать такую доработку: подключить переводчики или даже чатжпт. Например при переводе вики можно использовать автоматический перевод NLLB. Человек обычно переводит автоматом, а потом правит руками. Это намного быстрее, нежели самому писать весь перевод.

Можно, а ты думаешь будет нормально работать с башкирским, чувашским и т.д.?

В случае с ChatGPT можно сделать возможность указать свой токен и пусть запросы идут из клиента. Или если это сложно, просто довериться тебе.
Для яндекс,bing, goolgle можно так же указать токены и пусть из сервера по API перевод запрашивает.
Если есть переводчики для этого языка, которые могут работать без токена, то их можно то же включить. Например для башкирского есть https://bashkortsoft.ru/ где просто POST запрос. Для малых языков как правило первым появляется свой переводчик и только потом они в Яндекс/Bing/Google добавляются.

Ну да, просто тут упор на малые языки и к качеству автоматического перевода большие вопросы.

Так-то можно просто предварительно добавить машинный перевод, а пользователи пусть исправляют.

Спасибо за вашу работу, жду теперь superminor чтобы попробовать.
Если сравнивать с Яндекс транслейтом, то насколько лучше переводит? По моему опыту он плохо справляется, из десяти предложений одно правильно переведет уже хорошо.

Привет, спасибо. В SuperMinor идея не сделать машинный перевод, а получить набор данных, чтобы можно было обучить на них нечто вроде чат-бота. Сами тексты будут на русском, а носители языков смогут их переводить на свой язык.

Это, конечно, можно будет в дальнейшем использовать для улучшения моделей машинного перевода. Но суть в том, чтобы сначала получить такие данные при помощи людей. Если вы являетесь носителем языка, для которого смогли бы перевести тексты, то тоже сможете подключиться к работе.

За Марийский лайк )

Тау.

Интересно, а можно ли сгенерировать параллельные тексты, где марийский будет с подсветкой грамматики - ты наводишь на слово в определенной форме, и видишь и перевод корня, и разбор окончаний, поясняющих в какой форме слово, и окончательный перевод словоформы, и полный перевод предложения (с идиомами, если есть)? Чтобы пытаться читать, но натыкаясь на незнакомое, мгновенно через подсветку узнавать, как оно устроено?

Похоже на морфологический анализатор и поиск по словарю и фразам. Если бы на марийском был словарь типа wiktionary, то можно было бы сделать что-то простое в таком духе.

Что можно сделать, так это поиск похожей фразы по смыслу в базе предложений или пример использования этого слова в другом предложении.

Очень интересная статья! Спасибо :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории