Чтобы человек доверял ИИ, а тот не имел возможность обманывать людей, необходимо решить проблему объяснимости, то есть описать, как нейросеть пришла к тому или иному выводу. Похожая проблема существует и в мышлении человека, который далеко не всегда может объяснить, как он приходит к тем или иным выводам (вспомним таблицу Менделеева). Решить ее, и довольно успешно, пытался еще Федор Михайлович Достоевский в рамках своего специального проекта «Дневник писателя».
Проблеме объяснимости рассуждений и выводов нейросетей посвящено множество исследований, в частности, книга «Взломать все. Как сильные мира сего используют уязвимости систем в своих интересах?», написанная экспертом по кибербезопасности, криптографом, гарвардским профессором Брюсом Шнайером.
Проблема объяснимости состоит в том, что ИИ, по сути, являются черными ящиками, в которые с одного конца поступают данные, а с другого выходит ответ, и понять, как как получен этот ответ, не могут даже разработчики нейросетей. Более того, ход «рассуждений» ИИ может не соответствовать формату понятных для человека объяснений в принципе. По мнению Брюса Шнайдера, в ближайшей перспективе ИИ будет все более непрозрачным, поскольку системы усложняются, становясь все менее похожими на человека, а значит, и менее объяснимыми.
Тем не менее, он считает, что «Система ИИ должна не просто выдавать ответы, но объяснять ход своих рассуждений в формате, понятном человеку. Это необходимо нам как минимум по двум причинам: чтобы доверять решениям ИИ и чтобы убедиться, что он не был хакнут с целью воздействия на его объективность». Кроме того, «аргументированное объяснение … считается основным компонентом идеи надлежащей правовой процедуры в соответствии с законом».