PatientZero Jan 18 2024 at 07:16

Как работают трансформеры: разбираем математику

Medium

28 min

25K

Mathematics*Machine learning*Artificial Intelligence

Tutorial

Translation

+40

Comments 8

johnfound Jan 18 2024 at 08:28

Статья, нужная. Но я с самого начала не понял что это эмбединг, зачем он нужен и как он из токенов получается. И понятное дело, вся остальная статья потом звучала как на китайском.

В переводе ли дело, или статья и так неясная была изначально трудно сказать. Но мне кажется, что второе.

Firsto Jan 18 2024 at 19:51

Это так называемые векторы слов для определения контекстного сходства.

То есть слова, которые регулярно встречаются рядом в тексте, также будут находиться в непосредственной близости в векторном пространстве.

P.S.: Статья сложная, согласен, ещё бы все предыдущие осилить, на которые тут ссылаются.)

Kreastr Jan 19 2024 at 08:20

Эмбеддинг это словарь переводящий слова/токены в вектора. Сам словарь составляется на отдельном этапе обучения. ЕМНИП принцип составления - задать такие значения многомерных векторов, чтобы для любой пары слов векторное произведение максимально хорошо коррелировало с вероятностью встретить их рядом в одном предложении в исходном корпусе текстов.

johnfound Jan 19 2024 at 09:36

А зачем тогда нужны токены? Можно сразу по словарю преобразовать в эмбединги. Ведь, они однозначно идентифицируют токен.

Kreastr Jan 19 2024 at 11:39

Токен не всегда равен слову. В ранних системах токенами были слова больше минимальной длины и с обрезанными формами (падежами, лицами и временами смотря какой язык). Сейчас вроде как токенайзеры делят на группы букв сами. То есть отдельно токен приблизительно равный корню, отдельно окончания. Но может и приставку отделить и суффикс. Там нет четкой цели, чтобы оно совпало с грамматической интерпретацией.

johnfound Jan 19 2024 at 13:33

Я имел ввиду, что если из токена однозначно получается эмбединг и наоборот из эмбединга однозначно получается токен, то сам токен не нужен. Можно из текста сразу получать эмбединги.

Kreastr Jan 19 2024 at 14:13

Вообще не однозначно. Разные схемы токенизации дают разные разбиения на токены с разными свойствами. Разные способы рассчета и размерности матриц эмбеддингов дают еще один слой ддя оптимизаций. То, что в примере из it is student получается три вектора причем каждое слово дает ровно один вектор - просто упрощение процесса. Так делали раньше. Но сейчас есть более эффективные подходы к токенизации и эмбеддингам, поэтому слова уже почти никогда не то же, что и токен, но объяснить проще, когда слово принимается за токен.

Nehc Jan 25 2024 at 05:46

Головы смотрят на разные части эмбеддинга. Размерность голов должна быть 2х3, для данного примера.