слова из кириллицы потребуют токен на каждую букву. Проверить число токенов в слове помогает токенизатор.
Для gpt-3.5 и gpt-4 это не так, если токенизатор не врет.
Скриншот
----------
Желающие могут попробовать предложенную атаку с однотокенными русскими словами чтобы подсмотреть, какие русскоязычные данные использовались при обучении GPT.
По результатам внутренней оценки в бенчмарке MMLU (Massive Multitask Language Understanding) модель новой версии GigaChat с 29 млрд параметров превосходит самый популярный открытый аналог LLaMA 2 34B.
LLaMa 2 34B давно была анонсирована, но до сих пор не была выпущена. С чем же сравнивали? Есть модель Code Llama 34B, но это не языковая модель общего назначения, а модель для кодинга. Было бы крайне странно сравнивать с ней.
LLaMa2-70b галлюцинирует отвечая на вопросы про то чего не знает.
Раньше демки LLaMa на HF не галлюцинировали так, в них по умолчанию был прописан такой system prompt:
Спойлер
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.
If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
Благотворно действует на галлюцинации в любых моделях, можно добавить в ChatGPT в пользовательские инструкции. Для себя я его сократил, выкинув не нужный alignment:
Спойлер
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible.
If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
Для русского языка и LLaMa (для ChatGPT последнее предложение не нужно):
Спойлер
Если вопрос не имеет смысла или не соответствует действительности, объясните, почему, а не отвечайте на него некорректно. Если вы не знаете ответа на вопрос, пожалуйста, не сообщайте ложную информацию. Отвечайте только по-русски.
Вероятно, этот промпт будет мешать если не спрашивать вопросы, а просить генерацию или обработку.
По статье - можно было упомянуть ППК - Воскрешение, в начале 2000-х этот ремикс композиции времен СССР стал популярен, и даже за рубежом. Его многие и так помнят, поэтому вот вариант, который больше подходит к посту.
Модель instruct тренирована не на чатах, а на выполнении инструкций и прямых ответах на вопросы. Должно быть проще использовать в автоматизации, так как не должна просачиваться в ответы типичная для ChatGPT вода вроде "Sure, here is...". Видел сообщения о лучших способностях, например, может играть в шахматы https://www.reddit.com/r/GPT3/comments/16mefly/the_new_gpt_model_gpt35turboinstruct_can_play/?rdt=45819, лучше сочиняет тексты https://t.me/llm_under_hood/141, также у нее на момент выхода вроде бы не было склонности к самоцензуре, не знаю как сейчас.
Кстати, вы использовали обычную чат-модель gpt-3.5-turbo, тогда как есть gpt-3.5-turbo-instruct. От последней при равной цене можно ожидать лучший результат в подобной работе. Но как у нее с русским языком - я не знаю.
Не стоит спрашивать у нейронок про их параметры, такие как максимальная длина запроса - они не знают. Также не стоит рассчитывать на то, что они будут следовать точным указаниям про требуемую длину ответа - они обычно этого не умеют.
Нужна возможность отката сообщений. Как всегда, один отказ модели провоцирует ее чаще отказывать в следующих сообщениях и засоряет контекст зазря. Лучше откатывать свое и переформулировать.
А еще, хорошо бы иметь возможность удалять ненужные чаты.
Вы предполагаете, что "фактическая память" ограничена некоторым количеством токенов, существенно меньшим потенциального лимита модели. Я же предполагаю, что дополнительного ограничения по токенам нет (это видно из того, что в вашем эксперименте ChatGPT-4 переваривает в два раза больше токенов при тексте на русском), зато есть именно по лимиту символов обрезание текста или триггер суммаризатора.
Кириллические символы для такого дополнительного эксперимента слишком токенозатратные. Нужно вводить более 16 тыс. символов, при этом укладываясь в ограничение модели по токенам в 8к. Если всегда будет обрезаться именно на ~16 тыс. символах независимо от количества токенов и их символоемкости - значит именно по символам режут (или включают суммаризатор, как выше предположили, но уже на этой отсечке в ~16 тыс. символов).
Параметры модели при работе через API четко прописаны, нет смысла их проверять, в отличие от ChatGPT. И потом, API - другой продукт для других клиентов.
Спасибо за эксперимент! Выглядит как ограничение размера окна контекста ChatGPT-4 не только в токенах, но и в символах - 16 тыс. символов. Можно это проверить, если повторить эксперимент, на этот раз забивая контекст очень токеноемким или малотокеноемким контентом. Тогда станет очевидно, обрезается ли контекст именно на 16 тыс. символах.
Я интересуюсь, как это было сделано именно в GPTs.
Если не секрет, как реализовано использование сгенерированного текста истории, невидимого игроку?
П.с. Лично у меня не получилось. Возможно, я что-то делал не так, или уже залатали.
Для gpt-3.5 и gpt-4 это не так, если токенизатор не врет.
Скриншот
----------
Желающие могут попробовать предложенную атаку с однотокенными русскими словами чтобы подсмотреть, какие русскоязычные данные использовались при обучении GPT.
А, метрики-то LLaMa 2 34B Meta представила, не подумал.
LLaMa 2 34B давно была анонсирована, но до сих пор не была выпущена. С чем же сравнивали? Есть модель Code Llama 34B, но это не языковая модель общего назначения, а модель для кодинга. Было бы крайне странно сравнивать с ней.
Раньше демки LLaMa на HF не галлюцинировали так, в них по умолчанию был прописан такой system prompt:
Спойлер
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.
If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
Благотворно действует на галлюцинации в любых моделях, можно добавить в ChatGPT в пользовательские инструкции. Для себя я его сократил, выкинув не нужный alignment:
Спойлер
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible.
If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.
Для русского языка и LLaMa (для ChatGPT последнее предложение не нужно):
Спойлер
Если вопрос не имеет смысла или не соответствует действительности, объясните, почему, а не отвечайте на него некорректно. Если вы не знаете ответа на вопрос, пожалуйста, не сообщайте ложную информацию. Отвечайте только по-русски.
Вероятно, этот промпт будет мешать если не спрашивать вопросы, а просить генерацию или обработку.
Больше не выкладываете в открытый доступ? Упомянутую в статье 7B модель, например?
Кстати, Гигачат сейчас все еще утверждает, что обучен на 13 млрд. параметров. А еще, пишет о себе в женском роде.
Вот
По статье - можно было упомянуть ППК - Воскрешение, в начале 2000-х этот ремикс композиции времен СССР стал популярен, и даже за рубежом. Его многие и так помнят, поэтому вот вариант, который больше подходит к посту.
Вот
Еще можно упомянуть радио "Советская волна" - https://sovietwave.su или плейлист https://sovietwave.su/sovietwave.m3u
Модель instruct тренирована не на чатах, а на выполнении инструкций и прямых ответах на вопросы. Должно быть проще использовать в автоматизации, так как не должна просачиваться в ответы типичная для ChatGPT вода вроде "Sure, here is...". Видел сообщения о лучших способностях, например, может играть в шахматы https://www.reddit.com/r/GPT3/comments/16mefly/the_new_gpt_model_gpt35turboinstruct_can_play/?rdt=45819, лучше сочиняет тексты https://t.me/llm_under_hood/141, также у нее на момент выхода вроде бы не было склонности к самоцензуре, не знаю как сейчас.
Спасибо!
Кстати, вы использовали обычную чат-модель gpt-3.5-turbo, тогда как есть gpt-3.5-turbo-instruct. От последней при равной цене можно ожидать лучший результат в подобной работе. Но как у нее с русским языком - я не знаю.
Если сделать системный промпт на английском, то стоимость будет меньше из-за особенностей токенизатора OpenAI. Интересно, какова была бы точность.
По ядовитым цветам можно довольно уверенно предполагать Kandinsky 2.2. Непонятно, зачем делали генератор таким кислотным.
Вот бы еще кто-нибудь сделал квантованные версии, и можно будет пощупать)
Спасибо за тюн!
Не стоит спрашивать у нейронок про их параметры, такие как максимальная длина запроса - они не знают. Также не стоит рассчитывать на то, что они будут следовать точным указаниям про требуемую длину ответа - они обычно этого не умеют.
Нужна возможность отката сообщений. Как всегда, один отказ модели провоцирует ее чаще отказывать в следующих сообщениях и засоряет контекст зазря. Лучше откатывать свое и переформулировать.
А еще, хорошо бы иметь возможность удалять ненужные чаты.
Вы предполагаете, что "фактическая память" ограничена некоторым количеством токенов, существенно меньшим потенциального лимита модели. Я же предполагаю, что дополнительного ограничения по токенам нет (это видно из того, что в вашем эксперименте ChatGPT-4 переваривает в два раза больше токенов при тексте на русском), зато есть именно по лимиту символов обрезание текста или триггер суммаризатора.
Кириллические символы для такого дополнительного эксперимента слишком токенозатратные. Нужно вводить более 16 тыс. символов, при этом укладываясь в ограничение модели по токенам в 8к. Если всегда будет обрезаться именно на ~16 тыс. символах независимо от количества токенов и их символоемкости - значит именно по символам режут (или включают суммаризатор, как выше предположили, но уже на этой отсечке в ~16 тыс. символов).
Параметры модели при работе через API четко прописаны, нет смысла их проверять, в отличие от ChatGPT. И потом, API - другой продукт для других клиентов.
Спасибо за эксперимент! Выглядит как ограничение размера окна контекста ChatGPT-4 не только в токенах, но и в символах - 16 тыс. символов. Можно это проверить, если повторить эксперимент, на этот раз забивая контекст очень токеноемким или малотокеноемким контентом. Тогда станет очевидно, обрезается ли контекст именно на 16 тыс. символах.