Думаю, что все можно до какой-то степени натренировать со временем. У Шерешевского в этом смысле был крайний случай, он буквально «видел» цвета, слыша даже абстрактные понятия или бессмысленные наборы букв, видел как они пишутся у него на воображаемой доске. А потом говорил, что «просто» читает с доски и ничего необычного в этом не видит.
С многократным повторением образы запоминаются у всех обычных людей. Если человек путает шляпу с женой, то это уже другой случай. В остальных же случаях нужно использовать подсказки, — 88 -> В.В -> Владимир Высоцкий. И представлять нужно не только его лицо, а то как он поет песню сидя у костра, и то что вы ощущаете тепло и слышите музыку.
Для этого как раз и нужны зацепки в виде инициалов и других подсказок. Чтобы запомнить, что 2 это (д)ва, а 3 — (т)ри, а 1 — это первая буква алфавита, воображение совсем не обязательно. Следовательно 15 перевести в А.П. тоже не должно составить труда, а перевести А.П. в Пушкина мне видится уже довольно очевидным (если ассоциации вы составляли сами для себя). Цифру в слово тоже было бы полезно, но, если не получается, то можно обойтись и без этой связки.
Еще есть предобученные модели от UKPLab — sentence-transformers с их мультиязыковыми моделями на 13 и на 100 языков. Есть USE от гугла и новейший LaBSE на 109 языков от них же. Немного написал про них тут https://habr.com/ru/post/517226/. Соль в том, что они выровненные и можно в них подавать предложения на разных языках без указания самого языка.
Довольно просто будет завернуть в докер контейнер, используя Flask и uwsgi, тогда наружу при запуске будет торчать API для методов, которые вы пробросите.
Если сопоставлять именно по словам, то есть такая мысль — перевести текст машинно со второго языка на первый, привести слова к нормальной форме (гуляли — гулять, стулом — стул) и считать соответствия с учетом синонимов. Но считать моделями мне все же видится проще, да и поддержка множества языков из коробки это большой плюс.
Согласен, для относительного сравнения, думаю, нормально так делать.
Сейчас над универсальным автоматическим выравнивателем на основе ембеддингов по предложениям работаю, — для распространенных языков мультиязыковые модели типа USE и sentence-transformers хорошо работают, а для малоресурсных типа чувашского можно выравнивать через прокси-текст (машинный перевод на русский), а потом делать обратное сопоставление. Тоже будет дополнительный ресурс для обучения.
Мне вот такие запоминалки на ум приходят:
My Very Educated Mother Just Served Us Nine Pizzas
Mein Vater erklärt mir jeden Sonntag unsere neun Planeten
Согласные, которые произносятся на конце французских слов (остальные не произносятся)
А напишите еще парочку :)
Классика жанра. Вообще много всяких трюков, было бы желание. Вы ничего такого не тренировали?
А если число подлиннее? :)
Сейчас над универсальным автоматическим выравнивателем на основе ембеддингов по предложениям работаю, — для распространенных языков мультиязыковые модели типа USE и sentence-transformers хорошо работают, а для малоресурсных типа чувашского можно выравнивать через прокси-текст (машинный перевод на русский), а потом делать обратное сопоставление. Тоже будет дополнительный ресурс для обучения.
А на каком подкорпусе BLEU считался? 30+ для бейзлайна это сильно.
Пиньинь — это просто способ транскрипции иероглифов, сам по себе он никакой новой информации о словах к тексту не добавит.