Комментарии 8
Статья, нужная. Но я с самого начала не понял что это эмбединг, зачем он нужен и как он из токенов получается. И понятное дело, вся остальная статья потом звучала как на китайском.
В переводе ли дело, или статья и так неясная была изначально трудно сказать. Но мне кажется, что второе.
Это так называемые векторы слов для определения контекстного сходства.
То есть слова, которые регулярно встречаются рядом в тексте, также будут находиться в непосредственной близости в векторном пространстве.
P.S.: Статья сложная, согласен, ещё бы все предыдущие осилить, на которые тут ссылаются.)
Эмбеддинг это словарь переводящий слова/токены в вектора. Сам словарь составляется на отдельном этапе обучения. ЕМНИП принцип составления - задать такие значения многомерных векторов, чтобы для любой пары слов векторное произведение максимально хорошо коррелировало с вероятностью встретить их рядом в одном предложении в исходном корпусе текстов.
А зачем тогда нужны токены? Можно сразу по словарю преобразовать в эмбединги. Ведь, они однозначно идентифицируют токен.
Токен не всегда равен слову. В ранних системах токенами были слова больше минимальной длины и с обрезанными формами (падежами, лицами и временами смотря какой язык). Сейчас вроде как токенайзеры делят на группы букв сами. То есть отдельно токен приблизительно равный корню, отдельно окончания. Но может и приставку отделить и суффикс. Там нет четкой цели, чтобы оно совпало с грамматической интерпретацией.
Я имел ввиду, что если из токена однозначно получается эмбединг и наоборот из эмбединга однозначно получается токен, то сам токен не нужен. Можно из текста сразу получать эмбединги.
Вообще не однозначно. Разные схемы токенизации дают разные разбиения на токены с разными свойствами. Разные способы рассчета и размерности матриц эмбеддингов дают еще один слой ддя оптимизаций. То, что в примере из it is student получается три вектора причем каждое слово дает ровно один вектор - просто упрощение процесса. Так делали раньше. Но сейчас есть более эффективные подходы к токенизации и эмбеддингам, поэтому слова уже почти никогда не то же, что и токен, но объяснить проще, когда слово принимается за токен.
Головы смотрят на разные части эмбеддинга. Размерность голов должна быть 2х3, для данного примера.
Как работают трансформеры: разбираем математику