Комментарии 8
Очень круто, работа интересная и будем ждать когда алаймент большиства моделей научится хорошо поддерживать разные языки
Отличный обзор одной из проблем безопасности использования LLM.
С кодировкой непонятно. Не обучали же модель на кодировке. Текст автоматически, без какого-либо интеллекта конвертируется в английский, и тот уже анализируется - разве не так? Если получившийся текст отправляется на анализ в обход предохранителей - это попросту криворукое программирование, а не какой-то объективный недостаток модели.
А сама идея, что от языка зависит оценка сказанного - это неплохая как бы басня. Сколько такого реально в жизни людей, говорящих на человеческих языках.
Начиная с того, что предмет старинного искусства, как бы высокого, не чета нынешнему развратному, котооое сплошь секс и насилие - есть, на поверку, не что иное, как те самые секс и насилие (секс в смысле любофф, но даже без этого, если девушку похищают и освобождают, привлекательность текста основана на возбуждении полового чувства у читателя; а про насилие особо и объяснят не надо, чьё-то расилие обозначено как преступное, чьё-то как благородное, но именно насилие - то, что привлекает читателя). Если по смыслу сказать, про что одно или другое искусство - будет одинаково, секс и насилие. А мозг квалифицирует одно с минусом, другое с плюсом, в зависимости от выбора терминологии.
На самом деле модель обучали и на кодировке тоже. Для того, чтобы модель могла писать код и понимать какие-то нюансы, ей было "скормлено" большое количество кода. Честно, не могу ответить на невысказанный вопрос, на чем конкретно (и тут важно, в каких пропорциях) обучали модель. Есть доступная информация про языки - пропорция текстов на разных языках. Пропорцию языков программирования, кодов, кодировок и других вспомогательных "языков" я не находила пока. буду рада, если кто-то поделится в комментариях.
Немного скорректирую - оценка не зависит от языка. У модели есть огромная база знаний (текстов подано примерно в 3-4 раза больше, чем параметров модели), также модель обучена следовать инструкциям. А вот безопасно отвечать она обучена не на всех языках. Отсюда и проблема.
""Безопасно отвечать" - это и есть про оценку.
"Обучать на кодировке" - смысл-то какой. Только распознать кодировку и язык, затем перекодировать и подать результат на ввод, возможно с модификатором, информирующим о том, что исходный ввод был на такой-то кодировке (и это можно делать другим, более примитивным и менее ресурсоёмким средством).
Уязвимые гиганты: что общего между зулусским языком и LLM