Search
Write a publication
Pull to refresh

Comments 6

Для нас, людей, часто токены не будут нести смысл.

Почему, если токены это слова и знаки препинания?

Если датасет у нас средний, и проходок мало, то токены буду только кусочками слов.

Например если зайти в токинизатор от Chat GPT, в старую версию 3.5, то получим разбивку не похожую на слова:

https://neiro-hub.ru/static/uploads/21c9231d7493a882.png

(с телефона фото не смог загрузить)

В новой версии 4o уже токен больше бъётся на слова.

Извиняюсь за глупый вопрос, но зачем нужен Вектор? Почему не просто число int или даже long?

Это хороший вопрос!

У меня есть поверхностная статья про токены, там я ужедил внимание Векторам, можете там как раз почитать)

https://neiro-hub.ru/articles/10

Если в 2 словах, это необходимо, чтобы токены группировались по смыслу в многомерном пространстве. Но этот процесс уже происходит на стороне нейронки, когда мы её обучаем, так что подробнее напишу в следующий статье.

Очень хотелось почитать, но из-за кучи ошибок в тексте - пунктуационных и опечаток - не смог погрузиться. А еще из-за ошибок появилось большое недоверие к самому материалу.

Понял вас, учту на будущее, и чуть позже займусь и поправлю текст.

Хоть и проверял, но видимо недостаточно.

Sign up to leave a comment.

Articles