FinnymPargarut Jan 12 at 14:15

Почему токенизация – костыль? Передовые подходы для больших языковых моделей следующего поколения

Medium

14 min

13K

Machine learning*Natural Language Processing*Artificial Intelligence

From sandbox

+32

Comments 6

Technomorph Jan 12 at 17:34

а что за канал?

sunsexsurf Jan 12 at 20:22

вероятно, речь об этих ребятах: t.me/gonzo_ML

MrDragar Jan 12 at 21:52

Отличная статья! Токенизация хороша как временная эвристика, но как будто скоро мы достигнем пределов в том, как сильно можно ее улучшить. В этом плане альтернативы типа байт-уровневых моделей и LCM реально крутые. Особенно их динамичные подходы и работа на более высоком уровне, а не просто предсказание следующего токена. Думаю, это то, что нам нужно для будущего. Автор, молодец! Ждем еще таких разборов!

FinnymPargarut Jan 13 at 04:55

Спасибо за добрые слова!

rubyrabbit Jan 13 at 12:40

Мне всё время было интересно, как LLM работают с иероглифическими языками. Там ведь иероглиф — это и есть токен/концепт.

Ну и также напрашивается идея собрать несколько LLM и предложить им создать собственный символьно-концептуальный язык для общения между собой. Они сами сформируют базовый словарь ёмких терминов-токенов, и это будет не просто лингво франко для моделей, но и позволит им более эффективно думать на таком вымышленном языке.

FinnymPargarut Jan 13 at 13:45

Насколько я пониманию, иероглифов слишком много, поэтому в двоичном коде один иероглиф обычно представляется как несколько байтов. Отсюда можно применить алгоритмы типа byte-level BPE (тот же BPE, только вместо начальной инициализации отдельными символами, инициализируются байты). В итоге один иероглиф может представляться несколькими токенами.

Не уверен, насколько это будет практично. LLM ведь в любом случае "мыслят" в рамках латентного пространства токенов, которое при применении одного и того же токенизатора будет одинаковым. Но звучит интересно.