Комментарии 20
Спасибо, познавательно. Есть человечек https://github.com/averkij (тут @averkij) который занимается схожими темами (в телеграмме ведет свой канал "градиент обреченный" https://t.me/doomgrad) в котором пишет о машинном обучении (не реклама, не имею к нему отношения) - думаю найдете общие темы для беседы.
Это конечно хорошо, но думаю лучше было заниматься не в одиночку, а скооперироваться с крупной компанией - например яндекс переводит чувашский и якутский, у них есть в этом опыт
Затестил переводчик, о качестве судите сами)
текст на башкирском
Тау бите текә. Уның түбәһенә таштар өйөлгән. Был таштар тауға шомло төҫ бирә. Улар алыҫтан төрлө кейектәрҙе хәтерләтә. Таштарҙан уңдараҡ - артыш өйөмө. Унан арыраҡ аҡ ҡайындар күренә. Улар тауҙы яҡтыртып торған төҫлө. Тауҙың һул яҡ башында ҡарағайҙар теҙелеп баҫҡан. Улар тауҙы тағы ла ҙурыраҡ, серлерәк күрһәтә кеүек. Тау итәге тулып һары мәтрүшкә үҫә. Улар шул тиклем күп. Әйтерһең һары диңгеҙ.
перевод через glosbe
А горы круто. И поднимут его плечи. Эти камни освещает тот волку. Они напоминают о самых разных оттенков. Встань рядом с бриллиантом Более того, как белые березы ожидают бечевку. Между собой они освежают свет, они освежают. На вершине горы выстроились из отборной сосны. Благодаря тому, что горы больше, может быть, даже большей загадкой, как это. У подножия горы растет желтая - желто-то, как много, так и мира. Они так много. Словно море бабочке.
мой перевод
Склон горы крутой. На его вершине сложены камни. Эти камни придают горе зловещий вид. Они издалека напоминают разных зверей. Неподалёку от камней куча можжевельника. А еще дальше виднеются белые берёзы. Они освещают гору. На левой вершине горы выстроились сосны. Из-за них гора кажется еще больше и загадочнее. У подножия горы цветет зверобой. Его очень много. Как будто желтое море.
Для полноты картины:
Ну и добавим перевод от https://bashkortsoft.ru/
Вершина горы крутая. Вершина его была завалена камнями. Эти камни придают горе тревожный оттенок. Они напоминают диких зверей издалека. Правее камней - можжевельник. Дальше видны белые березы. Они имеют вид света, который светит гору. На левом конце горы выстроились сосны. Казалось, они показывали гору еще больше, реже. Подножие горы заполнено жёлтым душицем. Их так много. Как будто желтое море.
Как видно, ближе всего к вашему переводу этот результат. А построен он на этом коде: https://marian-nmt.github.io/ . Для обучения использовали больше 1M пар. Плюс сейчас то что мы собираем через телеграм бота, то же туда пойдет. Так что на вопрос, всегда ли только крупные корпорации могут сделать такое, ответ будет нет.
К слову перевод от NLLB передает смысл почти полностью и при этом он собирает несколько предложений в одно предложение. То же очень прикольно. Тут получается использовали в основном вики-ресурсы. Так что, если даже у вас нет программистов, кто может сделать переводчик, благодаря вики и таким гигантам, у вас может появится хороший переводчик.
Тогда уж рядышком положим и гуглоперевод:
Гора крутая. На его могилу положили камень. Скалы придают горе гладкий цвет. Издалека они напоминают различных оленей. Справа от стола находится стопка излишков. Вдалеке виднеются белые облака. Это волосы, из-за которых курица сияет. По ту сторону горы росли сосны. Они ищут более глубокое, более таинственное видение. Предгорья заполнены водой. У них такое отношение. Пожалуйста, скажите мне.
Да, я знаю парочку человек из Яндекса, которые там занимаются машинным переводом. Если они возьмут мои наработки и доведут до продакшн-уровня, я буду только рад)
написал в лс :)
я активист эрзянского и мансийского языка :)
но венгерский тоже знаю и говорю
О, интересно! А ты наблюдаешь какие-то параллели между венгерским и эрзянским языками? Они из одной Уральской семьи, но, насколько я себе представляю, очень далёкие. Интересно, как для носителя обоих языков это ощущается.
Там всё очень сложно. Языки крайне далёкие, и взаимопонимания нет. Более того, взаимопонимание отсутствует между разными угорскими языками (хантыйским, мансийским и венгерским) и даже между отдельными диалектами хантыйского и мансийского. Равно как нет взаимопонимания между эрзянами и эстонцами (языки примерно как русский и литовский) Есть параллели как общефинноугорские (но их мало и они почти незаметны), так и параллели исключительно между эрзянским/мокшанским и венгерским (как будто венгерский заимствовал слова оттуда в эпоху миграций).
Я тоже собираю параллельные предложения. Русско-марийские. Пока собрали 369 тыс. предложений: https://cloud.mail.ru/public/apAp/pehZnrVU1
Прошу прощения. Та ссылка битая. Обновил архив, забыл ссылку обновить: https://cloud.mail.ru/public/TgL1/Bj2LRU5ai
Первый нейросетевой переводчик для эрзянского языка