Comments 4
А как вы заставили тикитокен работать с текстом на кириллице? У меня получилось только разбить кириллический текст на отдельные символы, а не на би/триграммы.
А упоковка данных не поможет сэкономить? (Спрашиваю, как дилетант)
Например вырезать все приветствия, а так же распространенные словосочитания "медицинские справки" и т.п. привести к специальному коду?
Да, поможет. Даже можно посчитать сумму токенов от сообщений. Если их 8-10, то, скорее всего, это приветствия или формальные фразы, которые можно спокойно пропустить.
Но так же это могут быть и фразы, на которые стоит обратить внимание. Например это положительные отзывы или благодарность.
К тому же, выделением ключевых фраз, можно будет выстрелить себе в ногу. Потому что словосочетания могут быть упомянуты вскользь, а на самом деле основная суть сообщения может быть в другом.
Очень сильно зависит от области применения и стоит быть аккуратным.
О чём все эти люди говорят, ChatGPT?