Comments 6
Для нас, людей, часто токены не будут нести смысл.
Почему, если токены это слова и знаки препинания?
Если датасет у нас средний, и проходок мало, то токены буду только кусочками слов.
Например если зайти в токинизатор от Chat GPT, в старую версию 3.5, то получим разбивку не похожую на слова:
https://neiro-hub.ru/static/uploads/21c9231d7493a882.png
(с телефона фото не смог загрузить)
В новой версии 4o уже токен больше бъётся на слова.
Извиняюсь за глупый вопрос, но зачем нужен Вектор? Почему не просто число int или даже long?
Это хороший вопрос!
У меня есть поверхностная статья про токены, там я ужедил внимание Векторам, можете там как раз почитать)
https://neiro-hub.ru/articles/10
Если в 2 словах, это необходимо, чтобы токены группировались по смыслу в многомерном пространстве. Но этот процесс уже происходит на стороне нейронки, когда мы её обучаем, так что подробнее напишу в следующий статье.
Очень хотелось почитать, но из-за кучи ошибок в тексте - пунктуационных и опечаток - не смог погрузиться. А еще из-за ошибок появилось большое недоверие к самому материалу.
Токены в нейросетях. Что это и откуда берётся?