Исследование: 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 млрд параметров
Специалисты Anthropic совместно с Институтом безопасности ИИ Великобритании, Институтом Алана Тьюринга и другими исследовательскими центрами провели эксперимент, который показал, что всего 250 вредоносных документов способны вызвать сбой в работе языковой модели с 13 млрд параметров. Таким образом, для появления багов достаточно «отравить» всего 0,00016% обучающего корпуса.