Комментарии 7
Opeani предлагает для подсчета использовать https://github.com/openai/tiktoken
Всё верно. Но не все используют Python для своих проектов.
Именно для этих случаев и нужны альтернативные решения.
Успешно использую C# вариант - SharpToken.
https://www.nuget.org/packages/SharpToken
Считаю токены перед API вызовом, чтоб не перевалить предел.
Посчитывает аккуратно.
Кстати, линк на C# файл битый.
https://github.com/valmat/gpt-tokenator/test/tok_count_cs/Program.cs
Отличная работа, предполагаю что должно работать шустрее чем родной tiktoken.
GitHub умер пытаясь отрендерить https://github.com/valmat/gpt-tokenator/blob/master/src/bpe_ranks.cpp
Ссылки на примеры в статье битые.
Ссылки поправил. Спасибо.
GitHub не смог отрендерить этот файл потому что там предопределённый unordered_map с 50000 значений. Я вкомпилировал словарь в бинарь библиотеки, что бы не нужно было загружать его отдельно. Это довольно большой файл.
>предполагаю что должно работать шустрее чем родной tiktoken.
Почему вы так думаете?
В ближайшее время сделаю порт на Delphi. Спасибо за работу. Все хотел тоже заняться адаптацией с питона.
Как считать токены для GPT-3/GPT-4