Комментарии 3
А как ИИ ведёт себя, если ему подать на вход неоднозначные высказывания?
Для этого надо ввести метрику неоднозначности входного текста. В этой книжке есть только два способа задания априорного знания о входных данных - для текста это механизм (само)внимания, который всего лишь отражает силу связи слов между собой, но это не то же самое, что неоднозначность, а для графики используются латентные переменные, как например, разные выражения одного лица характеризуются параметризованными состояниями лицевых мускулов (сорок две штуки). Про латентные переменные в применении к тексту я не помню, надо поискать. Мне стало интересно, я поищу, спасибо вам за вопрос. Если найду - сообщу.
Я погуглил, что называется, и вот что получается, если вам еще интересно. Метрик неоднозначности слов, выражений, и других фрагментов текста я нашел сколько угодно, но все они придумываются в области вычислительной лингвистики, которая успешно развивается немного параллельно всей истории с LLM. Сведений о том, какой аппарат используется при тренировке LLM, найти не удалось, видимо это относится к области проприетарных секретов разработчиков больших моделей. Тем не менее, удалось получить ответ от друга, который этим занимается, что да, в процессе обучения модели они объясняют ей, что такое неоднозначность в языке, но как это алгоритмически уестествляется, ей неизвестно. Я попросил друга скормить модели мое любимое неоднозначное сочетание из русской литературы - "Ожидание обезъян", это заглавие повести Андрея Битова, которая также входит составной частью в роман "Оглашённые". Неоднозначность в том, что непонятно, - то ли обезъяны ждут, то ли обезъян ждут. Это выражение скормили модели GPT-4 Omni и модели Claude 3.5 Sonnet. GPT не справилась, а Claude справился, хотя и не сразу. Если просто попросить объяснить, как понимает, модель начинает искать метафору и пускается в графоманию, а если дать задание "разбери грамматически выражение "ожидание обезъян", кто кого ждет?", тогда справляется и объясняет, в чем неоднозначность, и что без дополнительного контекста нельзя утверждать, кто кого ждет. Вот примерно такое современное состояние в области LLM.
Как понять нейронные сети? Часть 2