Pull to refresh
4K+
240
Сергей Аверкиев@averkij

ML Engineer

190
Subscribers
Send message
Думаю, что все можно до какой-то степени натренировать со временем. У Шерешевского в этом смысле был крайний случай, он буквально «видел» цвета, слыша даже абстрактные понятия или бессмысленные наборы букв, видел как они пишутся у него на воображаемой доске. А потом говорил, что «просто» читает с доски и ничего необычного в этом не видит.
Под такую технику придется таблицу умножения менять.
Здорово!

Мне вот такие запоминалки на ум приходят:

  • Порядок планет на английском и немецком:
    My Very Educated Mother Just Served Us Nine Pizzas
    Mein Vater erklärt mir jeden Sonntag unsere neun Planeten
  • careful (c, r, f, l):
    Согласные, которые произносятся на конце французских слов (остальные не произносятся)


А напишите еще парочку :)
С многократным повторением образы запоминаются у всех обычных людей. Если человек путает шляпу с женой, то это уже другой случай. В остальных же случаях нужно использовать подсказки, — 88 -> В.В -> Владимир Высоцкий. И представлять нужно не только его лицо, а то как он поет песню сидя у костра, и то что вы ощущаете тепло и слышите музыку.
Для этого как раз и нужны зацепки в виде инициалов и других подсказок. Чтобы запомнить, что 2 это (д)ва, а 3 — (т)ри, а 1 — это первая буква алфавита, воображение совсем не обязательно. Следовательно 15 перевести в А.П. тоже не должно составить труда, а перевести А.П. в Пушкина мне видится уже довольно очевидным (если ассоциации вы составляли сами для себя). Цифру в слово тоже было бы полезно, но, если не получается, то можно обойтись и без этой связки.

Классика жанра. Вообще много всяких трюков, было бы желание. Вы ничего такого не тренировали?

А если число подлиннее? :)

Да, будем на методы менять.
vue-numeral-filter

  • {{ 1.46 | percentage }} => 146%
  • {{ 123987.202 | exponential }} => 1.24e+5
  • {{ 22.674199 | numeral(«0.00») }} => 22.67

Еще есть предобученные модели от UKPLab — sentence-transformers с их мультиязыковыми моделями на 13 и на 100 языков. Есть USE от гугла и новейший LaBSE на 109 языков от них же. Немного написал про них тут https://habr.com/ru/post/517226/. Соль в том, что они выровненные и можно в них подавать предложения на разных языках без указания самого языка.
Под языковыми моделями вы понимаете предсказание следующего слова по предыдущим? Если да, то нет, не использовал. Если нет, то поясните, пожалуйста.
Да, очень удобно. Спасибо за труд, вещи полезные в работе.
Довольно просто будет завернуть в докер контейнер, используя Flask и uwsgi, тогда наружу при запуске будет торчать API для методов, которые вы пробросите.
Если сопоставлять именно по словам, то есть такая мысль — перевести текст машинно со второго языка на первый, привести слова к нормальной форме (гуляли — гулять, стулом — стул) и считать соответствия с учетом синонимов. Но считать моделями мне все же видится проще, да и поддержка множества языков из коробки это большой плюс.
Согласен, для относительного сравнения, думаю, нормально так делать.
Сейчас над универсальным автоматическим выравнивателем на основе ембеддингов по предложениям работаю, — для распространенных языков мультиязыковые модели типа USE и sentence-transformers хорошо работают, а для малоресурсных типа чувашского можно выравнивать через прокси-текст (машинный перевод на русский), а потом делать обратное сопоставление. Тоже будет дополнительный ресурс для обучения.
Популярные машинные переводчики наверняка на этом корпусе тоже тренировались.

А на каком подкорпусе BLEU считался? 30+ для бейзлайна это сильно.

Пиньинь — это просто способ транскрипции иероглифов, сам по себе он никакой новой информации о словах к тексту не добавит.

12 ...
22

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity

Specialization

Фулстек разработчик, ML разработчик
Ведущий
From 600,000 ₽