что касается выбора аппликации , то я пока не вижу преимущетсв аппликаций от OpenAI , тем более платных, я предпочитаю Телеграм бота . Тот что я выбрал достаточно гибкий и gpt-4 пока условно бесплатно. При чем у него общий контекст для чат моделей , можно говорить с gpt-3,5 и в любой момент переключить скажем на gpt-4 и обратно . Удобно для экономии токенов. Кроме того он дает точную статистику сколько потрачено и имеет достаточно прозрачные алгоритмы работы с контекстом можно выбрать что ты хочешь имеенно сейчас , либо он использует весь лимит и в какой-то момент говорит что надо почистить или переключиться на модель с большим лимитом без потери контекста , либо выбирает из истории , похожие запросы , либо подмешивает в контекст релевантные результаты поиска в интернет , ищет сам, удобно когда модель еще чего-то не знает из последних событий. В общем у каждого режима свои плюсы и минусы , но под свою ситуацию можно подобрать так чтобы было поменьше галюцинаций.
Есть OpenAI модели , одна из характеристик котрых есть максимальное число токенов на 1 запрос. Это проверять смысла нет , модели не держат в пямяти никакого контекста , они его получают в запросе . В максимальное число входит служебная информация , например описание желаемого поведения модели , собственно контекст (история предыдущих запросов и ответов в определенном формате с некоторыми служебными добавлениями), запрос юзера и что важно ответ модели, другими словами невозможно послать например в gpt-4 8192 токена и ожидать что-то от нее , на ответ у неео остается 0 токенов. По документации так:
gpt-4 - 8,192
gpt-4-32k - 32,768
gpt-3.5-turbo - 4,097
gpt-3.5-turbo-16k - 16,385
Есть доступ к этим моделям , OpenAI предлагает свои аппликации под названием ChatGPT с разными планами. И API для сторонних разработчиков. Информации что ChatGPT не использует тот же самый API у меня нет. Задача этих аппликаций кроме UI состоит в том чтобы облегчить инжиниринг запросов и все таки дать возможность юзеру получить ответ . Тоесть ограничить его контекст например половиной от максимального числа токенов и половину оставить на ответ. Именно туда деваестя та разница которая вам не понятна. В зависимости от продвинутости и конфигурации аппликаций будут те или иные алгоритмы. Но, ни про какие 8к токенов контекста gpt-4 говорить не приходится вообще чисто технически , 4к звучит реально. И понятно что в случае русского языка надо оставлять на ответ на русском языке больше во столько же раз во сколько запрос больше чем аналогичный английский. Тоесть если в английском варианте аппликация оставляет на ответ 1к токенов и 7к отдает на запрос , то в русском это будет 4к и 4к. Понятно что это не точно , но смысл в том числе и ваших графиков такой.
По поводу разницы в токенах между текстом на латыни и на кирилице - разница в том что именно эта аппликация закодировала кирилицу скажем в UTF32 и имеем токен на символ вместо токена на слово как в случае латыни. На самом деле хорошо бы знать как в итоге посчитала сама модель , и какую статистику вернула. И как считает другая аппликация. Но да аппликации, а не модели, могут таким образом вносить дополнительные ограничения , каждая по своему. И каждая по своему оптимизирует историю если она не помецается в отведенный лимит , отсюда всякие разные впечатления.
что касается выбора аппликации , то я пока не вижу преимущетсв аппликаций от OpenAI , тем более платных, я предпочитаю Телеграм бота . Тот что я выбрал достаточно гибкий и gpt-4 пока условно бесплатно. При чем у него общий контекст для чат моделей , можно говорить с gpt-3,5 и в любой момент переключить скажем на gpt-4 и обратно . Удобно для экономии токенов. Кроме того он дает точную статистику сколько потрачено и имеет достаточно прозрачные алгоритмы работы с контекстом можно выбрать что ты хочешь имеенно сейчас , либо он использует весь лимит и в какой-то момент говорит что надо почистить или переключиться на модель с большим лимитом без потери контекста , либо выбирает из истории , похожие запросы , либо подмешивает в контекст релевантные результаты поиска в интернет , ищет сам, удобно когда модель еще чего-то не знает из последних событий. В общем у каждого режима свои плюсы и минусы , но под свою ситуацию можно подобрать так чтобы было поменьше галюцинаций.
Давайте все таки разберемся с терминологией
Есть OpenAI модели , одна из характеристик котрых есть максимальное число токенов на 1 запрос. Это проверять смысла нет , модели не держат в пямяти никакого контекста , они его получают в запросе . В максимальное число входит служебная информация , например описание желаемого поведения модели , собственно контекст (история предыдущих запросов и ответов в определенном формате с некоторыми служебными добавлениями), запрос юзера и что важно ответ модели, другими словами невозможно послать например в gpt-4 8192 токена и ожидать что-то от нее , на ответ у неео остается 0 токенов. По документации так:
gpt-4 - 8,192
gpt-4-32k - 32,768
gpt-3.5-turbo - 4,097
gpt-3.5-turbo-16k - 16,385
Есть доступ к этим моделям , OpenAI предлагает свои аппликации под названием ChatGPT с разными планами. И API для сторонних разработчиков. Информации что ChatGPT не использует тот же самый API у меня нет. Задача этих аппликаций кроме UI состоит в том чтобы облегчить инжиниринг запросов и все таки дать возможность юзеру получить ответ . Тоесть ограничить его контекст например половиной от максимального числа токенов и половину оставить на ответ. Именно туда деваестя та разница которая вам не понятна. В зависимости от продвинутости и конфигурации аппликаций будут те или иные алгоритмы. Но, ни про какие 8к токенов контекста gpt-4 говорить не приходится вообще чисто технически , 4к звучит реально. И понятно что в случае русского языка надо оставлять на ответ на русском языке больше во столько же раз во сколько запрос больше чем аналогичный английский. Тоесть если в английском варианте аппликация оставляет на ответ 1к токенов и 7к отдает на запрос , то в русском это будет 4к и 4к. Понятно что это не точно , но смысл в том числе и ваших графиков такой.
По поводу разницы в токенах между текстом на латыни и на кирилице - разница в том что именно эта аппликация закодировала кирилицу скажем в UTF32 и имеем токен на символ вместо токена на слово как в случае латыни. На самом деле хорошо бы знать как в итоге посчитала сама модель , и какую статистику вернула. И как считает другая аппликация. Но да аппликации, а не модели, могут таким образом вносить дополнительные ограничения , каждая по своему. И каждая по своему оптимизирует историю если она не помецается в отведенный лимит , отсюда всякие разные впечатления.