Комментарии 41
Переводит как "Щука в Деньгах", вместо "Денег нет"
https://translate.yandex.ru/?utm_source=wizard&text=%D1%83%D0%BA%D1%89%D0%B0%20%D1%89%D1%83%D0%BA&lang=cv-ru
Как боретесь с распознаванием "транскрипции" и несколькими вариантами написания букв, есть несколько вариантов Юникод/Заимствования из Европейских языков и итд?
Или подобные тексты просто игнорируются?
В таком дереве транскрипции окажутся в некотором кластере этого общего «деревянного пространства». Их можно групповым действием обобщить и отметить маркером, а также определить правила перехода из них в «нормальные ноды дерева».
Кстати, составить список всех слов в тексте (из которых строится такое дерево) можно автоматическим очень простым способом. Составляете список всех символов встречаемых в тексте — это ваш алфавит, включая знаки препинания и спецсимволы.
Далее для каждого символа полученного алфавита, один раз вы заполняете маркер контекста. Например, все буквы, цифры и можно знак подчеркивания отнести к контексту «слова», все виды пробелов, переноса строк и прочие подобные им — выделяются в контекст «пробелы». Знаки препинания, арифметические операторы и по сути все остальные символы можно обобщить в контекст «знаки». Теперь просто бежите по текстам как по строке и накапливаете слова, как только контекст следующего символа начинает отличаться от контекста предыдущего — слово закончено, записываете в словарь и накапливаете «слово», состоящее из пробелов или знаков, идущих подряд после этого. Потом контекст снова меняется и вы можете сохранять слова только из контекста «слова» или уделять внимание еще и словам из знаков и словам из пробелов.
П.С. Так и интернет можно серфить, собирая слова в синтаксическое дерево, которое потом удобно анализировать, если найти его удачное отображение.
Удивительно! А как быть со словами в родственных языках, которые близки по написанию, но различны по семантике? Не портит ли это модель?
От Гугл есть, но там нужно говорить медленно и четко. Может Яндекс сможет убыстрить процесс, чтобы решать задачу в режиме реального времени?
Тавтапуç, Яндекс!
Питĕ кăмăллă!
А как вы находите энтузиастов? Для примера башкирский переводчик местами у вас не может перевести даже просто слова, хотя есть башкирско-русские словари и там эти слова есть. Может вам помочь с организацией переводчиков, которые некие базовые примеры ваши переведут?
начнёт что-то выдумывать в надежде угадать правильный ответ. Иногда она угадывает, иногда — нет.
Можно ли как-то в переводе помечать фрагменты, которые алгоритм попытался угадать, а не точно знает?
Конечно же кажется будто нейросеть всё делает сама, но верно замечено:
К счастью, нам на помощь пришли энтузиасты, которые за год помогли собрать 250 тыс. примеровКрасавчики! Большой труд.
И надеюсь когда-то технологии переводчиков будут способны сохранять вымирающие языки.
Маттур Яндекс!!! Малалла тӑрӑшӑр! Тавта пуҫ!
Кроме того, совмещение переводчика с заложенными в нём экспертными знаниями (основанного на словаре и правилах) с нейросетью может дать синергетический эффект. Если подобрать правильный рецепт готовки этой смеси.
Он же, пусть и мёртвый последние лет 100, но зато развитый литературный язык с большим корпусом текстов, особенно религиозной тематики. И общей со всеми остальными лексики в нём должно быть больше всего. (Графика была арабская, но это частности же.)
Хоть бы малость рассказали про техническую часть. Какие нейросети, какие алгоритмы, и т.д, и т.п.
Автор, заходите к нам в Викисловарь, помогайте наполнять чувашский раздел.
В чем стимул.
Во-вторых, почему нет?
Кроме того, мы работаем над поддержкой и других языков народов России.
А можете сказать о каких языках идет речь?
Фразу "красна девица" переводит дословно — "хĕрлĕ хĕр". В чувашском для слова "красивый" используют не красный, а жёлтый(яркий). Вот если я захочу помочь с переводом и нажму кнопочку редактирования, насколько полезным будет такое действие? Достаточно одного меня или нужно, чтоб несколько человек такое сделали? И насколько это повлияет на другие варианты использования слова "красный"?
Вы не пытаетесь идти в сторону некоторой унификации? Через перевод в промежуточный язык с точной семантикой(не уверен что подобрал точное слово) построения предложений. Как у Логлана. Тогда не пришлось бы делать переводчик из любого языка в любой на прямую, а достаточно сделать из каждого в один и обратно.
Мне интересно какие трудности возникают на этом пути?
Спасибо. Вообще Чувашия одна из двух монореспублик, где коренное начеление (более 60%) преобладает. А Чебоксары — это прекрасный столичный город. Попробуйте найти 10 отличий (слева — Рио-де-Жфнейро), справа столица Чувашии — Чебоксары:
Встречайте чувашский язык в Яндекс.Переводчике: как мы решаем главную проблему машинного перевода