Как стать автором
Обновить

Комментарии 20

Спасибо, познавательно. Есть человечек https://github.com/averkij (тут @averkij) который занимается схожими темами (в телеграмме ведет свой канал "градиент обреченный" https://t.me/doomgrad) в котором пишет о машинном обучении (не реклама, не имею к нему отношения) - думаю найдете общие темы для беседы.

Спасибо! Да, с Сергеем мы общаемся)

Это конечно хорошо, но думаю лучше было заниматься не в одиночку, а скооперироваться с крупной компанией - например яндекс переводит чувашский и якутский, у них есть в этом опыт

Привет! Тут как повезет, насколько я знаю башкирские энтузиасты (AigizK) сами собрали несколько сотен тысяч паралелльных текстов и писали в Яндекс, но ответа не получили. Писали в Сбердевайсы — башкирский добавили в мультиязычную модель mGPT (но это не переводчик, а генеративная модель). Ну а русско-башкирский переводчик помогли бесплатно сделать товарищи из glosbe, причем по словам ребят, он довольно качественный.

Затестил переводчик, о качестве судите сами)

текст на башкирском

Тау бите текә. Уның түбәһенә таштар өйөлгән. Был таштар тауға шомло төҫ бирә. Улар алыҫтан төрлө кейектәрҙе хәтерләтә. Таштарҙан уңдараҡ - артыш өйөмө. Унан арыраҡ аҡ ҡайындар күренә. Улар тауҙы яҡтыртып торған төҫлө. Тауҙың һул яҡ башында ҡарағайҙар теҙелеп баҫҡан. Улар тауҙы тағы ла ҙурыраҡ, серлерәк күрһәтә кеүек. Тау итәге тулып һары мәтрүшкә үҫә. Улар шул тиклем күп. Әйтерһең һары диңгеҙ.

перевод через glosbe

А горы круто. И поднимут его плечи. Эти камни освещает тот волку. Они напоминают о самых разных оттенков. Встань рядом с бриллиантом Более того, как белые березы ожидают бечевку. Между собой они освежают свет, они освежают. На вершине горы выстроились из отборной сосны. Благодаря тому, что горы больше, может быть, даже большей загадкой, как это. У подножия горы растет желтая - желто-то, как много, так и мира. Они так много. Словно море бабочке.

мой перевод

Склон горы крутой. На его вершине сложены камни. Эти камни придают горе зловещий вид. Они издалека напоминают разных зверей. Неподалёку от камней куча можжевельника. А еще дальше виднеются белые берёзы. Они освещают гору. На левой вершине горы выстроились сосны. Из-за них гора кажется еще больше и загадочнее. У подножия горы цветет зверобой. Его очень много. Как будто желтое море.

Прикольно, есть, куда улучшаться :)

Для полноты картины:

Перевод через Bing
Скала горы крутая. На его вершине были уложены камни. Эти камни придают горе неглубокий цвет. Они напоминают различную одежду издалека. Справа от камней находится отставание. Оттуда появляется березовая береза. Это цвет, который освещает крепление. С левой стороны горы выстроились сосны. Они, кажется, показывают гору еще больше и загадочнее. Предгорья заполнены и вырастают в желтые маты. Их так много. Можно сказать желтое море.

Перевод через Яндекс
Склоны крутые. На его вершину насыпана каменная глыба. Эти камни придают горе мрачный вид. Они образовывали своего рода своеобразное подобие дичи, издали напоминая различные виды дичи. Справа от камней расположены кучи можжевельника. Чуть дальше видны белые березы. Именно они составляют цвета, обозначающие гору. На левом склоне горы произрастают сосны. Они делают гору казаться еще больше, таинственнее. У подножья горы растет душистый перец. Вот как их много. Это словно желтое море.

Перевод через NLLB (открытая модель от MetaAI, 1.3B параметров)
Вершина горы крутая, на вершине которой находятся каменные скопления, которые издалека напоминают какую-то скалу. Справа от камней — куча арсиса, за ней — белые берёзы, окрашенные в свет горы, с левой стороны на вершине горы — ряды сосновых деревьев, которые показывают еще большую и более таинственную гору. У подножия горы — полное мерцание, растущее в таких количествах, как жёлтое море.

Ну и добавим перевод от https://bashkortsoft.ru/

Вершина горы крутая. Вершина его была завалена камнями. Эти камни придают горе тревожный оттенок. Они напоминают диких зверей издалека. Правее камней - можжевельник. Дальше видны белые березы. Они имеют вид света, который светит гору. На левом конце горы выстроились сосны. Казалось, они показывали гору еще больше, реже. Подножие горы заполнено жёлтым душицем. Их так много. Как будто желтое море.

Как видно, ближе всего к вашему переводу этот результат. А построен он на этом коде: https://marian-nmt.github.io/ . Для обучения использовали больше 1M пар. Плюс сейчас то что мы собираем через телеграм бота, то же туда пойдет. Так что на вопрос, всегда ли только крупные корпорации могут сделать такое, ответ будет нет.

К слову перевод от NLLB передает смысл почти полностью и при этом он собирает несколько предложений в одно предложение. То же очень прикольно. Тут получается использовали в основном вики-ресурсы. Так что, если даже у вас нет программистов, кто может сделать переводчик, благодаря вики и таким гигантам, у вас может появится хороший переводчик.

Тогда уж рядышком положим и гуглоперевод:
Гора крутая. На его могилу положили камень. Скалы придают горе гладкий цвет. Издалека они напоминают различных оленей. Справа от стола находится стопка излишков. Вдалеке виднеются белые облака. Это волосы, из-за которых курица сияет. По ту сторону горы росли сосны. Они ищут более глубокое, более таинственное видение. Предгорья заполнены водой. У них такое отношение. Пожалуйста, скажите мне.

если выбрали автоопределение, то гугл на самом деле детектить это как татарский. и видно, что качество татарского там то же хромает.

Да, я знаю парочку человек из Яндекса, которые там занимаются машинным переводом. Если они возьмут мои наработки и доведут до продакшн-уровня, я буду только рад)

Арпад, а вы активист венгерского языка?)

я активист эрзянского и мансийского языка :)

но венгерский тоже знаю и говорю

О, интересно! А ты наблюдаешь какие-то параллели между венгерским и эрзянским языками? Они из одной Уральской семьи, но, насколько я себе представляю, очень далёкие. Интересно, как для носителя обоих языков это ощущается.

Там всё очень сложно. Языки крайне далёкие, и взаимопонимания нет. Более того, взаимопонимание отсутствует между разными угорскими языками (хантыйским, мансийским и венгерским) и даже между отдельными диалектами хантыйского и мансийского. Равно как нет взаимопонимания между эрзянами и эстонцами (языки примерно как русский и литовский) Есть параллели как общефинноугорские (но их мало и они почти незаметны), так и параллели исключительно между эрзянским/мокшанским и венгерским (как будто венгерский заимствовал слова оттуда в эпоху миграций).

У вас пары текстов, которые нужно было бы выровнять? Например, какое-нибудь произведение на русском и его перевод на марийский или наоборот.
*есть пары текстов
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.