Как стать автором
Обновить

Комментарии 8

Статья, нужная. Но я с самого начала не понял что это эмбединг, зачем он нужен и как он из токенов получается. И понятное дело, вся остальная статья потом звучала как на китайском.

В переводе ли дело, или статья и так неясная была изначально трудно сказать. Но мне кажется, что второе.

Это так называемые векторы слов для определения контекстного сходства.

То есть слова, которые регулярно встречаются рядом в тексте, также будут находиться в непосредственной близости в векторном пространстве.

P.S.: Статья сложная, согласен, ещё бы все предыдущие осилить, на которые тут ссылаются.)

Эмбеддинг это словарь переводящий слова/токены в вектора. Сам словарь составляется на отдельном этапе обучения. ЕМНИП принцип составления - задать такие значения многомерных векторов, чтобы для любой пары слов векторное произведение максимально хорошо коррелировало с вероятностью встретить их рядом в одном предложении в исходном корпусе текстов.

А зачем тогда нужны токены? Можно сразу по словарю преобразовать в эмбединги. Ведь, они однозначно идентифицируют токен.

Токен не всегда равен слову. В ранних системах токенами были слова больше минимальной длины и с обрезанными формами (падежами, лицами и временами смотря какой язык). Сейчас вроде как токенайзеры делят на группы букв сами. То есть отдельно токен приблизительно равный корню, отдельно окончания. Но может и приставку отделить и суффикс. Там нет четкой цели, чтобы оно совпало с грамматической интерпретацией.

Я имел ввиду, что если из токена однозначно получается эмбединг и наоборот из эмбединга однозначно получается токен, то сам токен не нужен. Можно из текста сразу получать эмбединги.

Вообще не однозначно. Разные схемы токенизации дают разные разбиения на токены с разными свойствами. Разные способы рассчета и размерности матриц эмбеддингов дают еще один слой ддя оптимизаций. То, что в примере из it is student получается три вектора причем каждое слово дает ровно один вектор - просто упрощение процесса. Так делали раньше. Но сейчас есть более эффективные подходы к токенизации и эмбеддингам, поэтому слова уже почти никогда не то же, что и токен, но объяснить проще, когда слово принимается за токен.

Головы смотрят на разные части эмбеддинга. Размерность голов должна быть 2х3, для данного примера.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории