svetofor_columb Apr 10 2023 at 07:36

О чём все эти люди говорят, ChatGPT?

Easy

7 min

6.5K

Python * Big Data * Machine learning * Natural Language Processing *

Tutorial

+10

Comments 4

ramiil Apr 10 2023 at 07:42

А как вы заставили тикитокен работать с текстом на кириллице? У меня получилось только разбить кириллический текст на отдельные символы, а не на би/триграммы.

svetofor_columb Apr 10 2023 at 07:48

Честно — никак. Здесь смысл токенизации только в подсчёте стоимости, поэтому n-граммы тут не нужны. Судя по всему OpenAI так же считают токены. Потому что количество потраченных токенов сходится со значением в личном кабинете.

Lailore Apr 10 2023 at 09:38

А упоковка данных не поможет сэкономить? (Спрашиваю, как дилетант)

Например вырезать все приветствия, а так же распространенные словосочитания "медицинские справки" и т.п. привести к специальному коду?

svetofor_columb Apr 10 2023 at 10:22

Да, поможет. Даже можно посчитать сумму токенов от сообщений. Если их 8-10, то, скорее всего, это приветствия или формальные фразы, которые можно спокойно пропустить.

Но так же это могут быть и фразы, на которые стоит обратить внимание. Например это положительные отзывы или благодарность.

К тому же, выделением ключевых фраз, можно будет выстрелить себе в ногу. Потому что словосочетания могут быть упомянуты вскользь, а на самом деле основная суть сообщения может быть в другом.

Очень сильно зависит от области применения и стоит быть аккуратным.