@Pemuul Aug 20 at 03:48

Токены в нейросетях. Что это и откуда берётся?

Medium

13 min

14K

Big Data * Python *

Recovery Mode

+12

Comments 6

@Yozh-lyudoyed Aug 20 at 10:19

Для нас, людей, часто токены не будут нести смысл.

Почему, если токены это слова и знаки препинания?

@Pemuul Aug 20 at 10:36

Если датасет у нас средний, и проходок мало, то токены буду только кусочками слов.

Например если зайти в токинизатор от Chat GPT, в старую версию 3.5, то получим разбивку не похожую на слова:

https://neiro-hub.ru/static/uploads/21c9231d7493a882.png

(с телефона фото не смог загрузить)

В новой версии 4o уже токен больше бъётся на слова.

@Afiligran Aug 20 at 13:12

Извиняюсь за глупый вопрос, но зачем нужен Вектор? Почему не просто число int или даже long?

@Pemuul Aug 20 at 13:28

Это хороший вопрос!

У меня есть поверхностная статья про токены, там я ужедил внимание Векторам, можете там как раз почитать)

https://neiro-hub.ru/articles/10

Если в 2 словах, это необходимо, чтобы токены группировались по смыслу в многомерном пространстве. Но этот процесс уже происходит на стороне нейронки, когда мы её обучаем, так что подробнее напишу в следующий статье.

@kelegorm Aug 21 at 08:42

Очень хотелось почитать, но из-за кучи ошибок в тексте - пунктуационных и опечаток - не смог погрузиться. А еще из-за ошибок появилось большое недоверие к самому материалу.

@Pemuul Aug 21 at 13:30

Понял вас, учту на будущее, и чуть позже займусь и поправлю текст.

Хоть и проверял, но видимо недостаточно.

Sign up to leave a comment.