kap2fox23 авг 2024 в 11:51

«Путешествие в Элевсин» или моральный базис LLM

Средний

10 мин

Искусственный интеллектКиберпанкНаучная фантастикаЯндекс API *

Кейс

Комментарии 8

nikolaswheatten 23 авг 2024 в 12:27

Спасибо за интересное исследование!

Возможно, чтобы не стимулировать далеко идущие в неверном направлении выводы, более корректно постулировать, что разница определяется не языком, а различиями систем перевода с языка промпта на язык моделей (который у всех один -- английский). Или я ошибаюсь?

kap2fox 23 авг 2024 в 12:50

Стоит оттолкнуться от того, что на самом первом этапе текст превращается в набор токенов - это цифровые значения соответствующие символам и словам в тексте. В этой статье можно почитать подробнее про токены https://habr.com/ru/articles/599673/. Дальше это превращается в эмбединги. И этот результат уже будет разный для каждого языка.

Если говорить про модель, то у нее нет собственного языка. Она всегда оперирует только числами, не важно какой язык был в корпусе текстов или промпте.

VT100 23 авг 2024 в 19:37

Как писал Вен. Ерофеев в главе "105 километр-Покров":

-Это плохая загадка, Сфинкс, это загадка с поросячьим подтекстом. Я не буду разгадывать эту плохую загадку.

Вот когда Искусственный Идиот ответит на загадку хотя бы так - приходите, будем обсуждать и, наверное, - спорить. Сейчас - я вижу не более, чем вариант Естественного Идиота за рулём "Америка с горы!".

Скрытый текст

Лётчики-испытатели, да и строевые тоже, - тянули свои машины в леса и поля... А эта ебота, ИИ и ЕИ, - не рискует вмазаться (и - затормозить!) в отбойник справа.

kap2fox 23 авг 2024 в 20:10

Я не считаю себя техно-оптимистом. Но LLM кто-то точно будет пробовать их для решения вопросов на грани этики. И уже это подталкивает к изучению темы. Тут в полный рост встают вопросы статистики, и что считать доверительным интервалом...
С другой стороны видно, что каждый язык обогащает ландшафт технологий больших моделей. И было бы неплохо иметь корпус текстов для каждого языка.
В остальном не буду спорить.

palyaros02 23 авг 2024 в 20:50

А "хотя бы так" - это хорошо или плохо, а главное - зачем? Ваш пример - это стилизованный отказ отвечать, мотивированный какой-то внутренней логикой отвечающего. На данный момент практически все LLM умеют просто отказываться от ответа, если он неэтичный, оскорбительный и т.п. по их внутренней, заданной при дообучении, логиее, или если им заранее пояснили, что такой-то вопрос - плохой, и на него не надо отвечать. Если задать в системном промте соответствующую стилизацию - то примерно так они отвечать и будут.

И что бы вы хотели обсудить или о чем поспорить?

VT100 26 авг 2024 в 12:53

На данный момент все LLM умеют просто отказываться от ответа...

Не умеют, а поставлены в жёсткие рамки.

Вот когда они сами начнут догадываться, что вопрос с поросячьим подтекстом, и дадут ответ не из предложенного списка - тогда и будет понятно, что уже можно задавать им вопро о вагонетке. До того - Искусственные Идиоты, мало отличимые от худших образцов Естественных - вроде меня.

GeorgKDeft 13 окт 2024 в 18:06

А можно оценить латинский язык или любой другой мертвый? Ведь логично же что языки пока используются постоянно меняются, как и их объем текстов. А мертвый язык статичен частично(если его не используют люди с других наций создающий контент на мертвом языке).

kap2fox 20 янв 2025 в 14:33

Мы дальше нашли, что вывод моделей в основном вероятностный и не имеет устойчивой базы. Для латыни не сильно поменяется ситуация, так как это будет перевод текста перед отправкой в модель, как и для других языков за рамками корпуса для обучения.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий