rotor10 июн 2023 в 11:07

Как считать токены для GPT-3/GPT-4

2 мин

11K

C++ * Искусственный интеллект

Комментарии 7

benone 10 июн 2023 в 11:12

Opeani предлагает для подсчета использовать https://github.com/openai/tiktoken

rotor 10 июн 2023 в 11:15

Всё верно. Но не все используют Python для своих проектов.
Именно для этих случаев и нужны альтернативные решения.

vagon333 10 июн 2023 в 14:41

Успешно использую C# вариант - SharpToken.
https://www.nuget.org/packages/SharpToken
Считаю токены перед API вызовом, чтоб не перевалить предел.
Посчитывает аккуратно.
Кстати, линк на C# файл битый.
https://github.com/valmat/gpt-tokenator/test/tok_count_cs/Program.cs

Lachezis 10 июн 2023 в 12:10

Отличная работа, предполагаю что должно работать шустрее чем родной tiktoken.

GitHub умер пытаясь отрендерить https://github.com/valmat/gpt-tokenator/blob/master/src/bpe_ranks.cpp
Ссылки на примеры в статье битые.

rotor 10 июн 2023 в 16:32

Ссылки поправил. Спасибо.
GitHub не смог отрендерить этот файл потому что там предопределённый unordered_map с 50000 значений. Я вкомпилировал словарь в бинарь библиотеки, что бы не нужно было загружать его отдельно. Это довольно большой файл.

google_fan 10 июн 2023 в 21:20

>предполагаю что должно работать шустрее чем родной tiktoken.

Почему вы так думаете?

HemulGM 11 июн 2023 в 18:51

В ближайшее время сделаю порт на Delphi. Спасибо за работу. Все хотел тоже заняться адаптацией с питона.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий