Pull to refresh

Comments 6

вероятно, речь об этих ребятах: t.me/gonzo_ML

Отличная статья! Токенизация хороша как временная эвристика, но как будто скоро мы достигнем пределов в том, как сильно можно ее улучшить. В этом плане альтернативы типа байт-уровневых моделей и LCM реально крутые. Особенно их динамичные подходы и работа на более высоком уровне, а не просто предсказание следующего токена. Думаю, это то, что нам нужно для будущего. Автор, молодец! Ждем еще таких разборов!

Мне всё время было интересно, как LLM работают с иероглифическими языками. Там ведь иероглиф — это и есть токен/концепт.

Ну и также напрашивается идея собрать несколько LLM и предложить им создать собственный символьно-концептуальный язык для общения между собой. Они сами сформируют базовый словарь ёмких терминов-токенов, и это будет не просто лингво франко для моделей, но и позволит им более эффективно думать на таком вымышленном языке.

Насколько я пониманию, иероглифов слишком много, поэтому в двоичном коде один иероглиф обычно представляется как несколько байтов. Отсюда можно применить алгоритмы типа byte-level BPE (тот же BPE, только вместо начальной инициализации отдельными символами, инициализируются байты). В итоге один иероглиф может представляться несколькими токенами.

Не уверен, насколько это будет практично. LLM ведь в любом случае "мыслят" в рамках латентного пространства токенов, которое при применении одного и того же токенизатора будет одинаковым. Но звучит интересно.

Sign up to leave a comment.

Articles