Pull to refresh

Comments 5

Вот кстати да, есть задачи с которыми у чатгпт и ко большие проблемы, расставить ударения или восстановить букву ё в тексте они похоже не могут. Считать не умеют.

А русские модели умеют считать?

Они могут пытаться обнаружить в запросе то что можно передать в калькулятор и так посчитать. Получается не всегда.

Про LLM любят говорить, что они часто галлюционируют и потому целиком полагаться на их ответ нельзя. В целом, это правда, но если копнуть глубже, то у кого они этого понахватались? Они научились этому у людей, чьи ответы на что-либо зачастую тоже нельзя считать идеальными, ибо люди находятся в разных состояниях, когда делают работу (особенно такую монотонную, как разметка): устают, просто не вовлечены, находятся под давлением/стрессом, и так далее.

При чем здесь идеальность ответов и состояние на работе? Ошибки это частности. ЯМ так же как и люди фантазируют на заданные темы. Это неотъемлемая часть ассоциативного мышления, которое худо-бедно моделируется в ЯМ, а оно только одно из списка типов мышления, которые имеются у человека (здесь полнее классифицировано). Фантазирование (связанное с ассоциативностью) отвечает за часть творческих способностей человека, уравновешиваясь другими приемами мышления - логикой, критикой, моделированием на образном уровне, и тд. Одним манипулированием промптингом ЯМ, в том виде, как они есть сейчас, можно улучшить ситуацию, но не устранить ее полностью. Хотя выводы в конце статьи по разметке, по результатам тестирования, видятся достаточно адекватными.

Спасибо за развернутое дополнение, мне было интересно прочитать и сам ответ и ссылки в нем.

Мы просто работаем в достаточно узком понимании биологии людей и моделей тоже, поэтому не все аналогии могут быть удачны для биофизика :) С точки зрения разметки, не совсем важно то, как именно мы назовем что именно происходит с ответом разметчика (и что стало его первопричиной) - логическая ошибка, фантазия, незнание, галлюцинация, некая "оптимизация времени трудовой деятельность" - как угодно, нам важно лишь то, чем является конечный (часто бинарный) результат.

С людьми мы неизбежно выкидываем часть их ответов, процент разный в разных типах задач, но эта величина практически постоянна на длинных дистанциях. Идеей было лишь сравнить этот феномен с моделями, то есть, неизбежность принятия лишь части ответов.

Вы подсветили интересную штуку, которую мы поизучаем дополнительно: более глубокое понимание происходящих процессов, так скажем, "генерации ответа" позволит нам сделать более
серьезные инструменты анализа этих ответов, а может быть и вообще постановки изначально самого задания.

Большое спасибо!

Sign up to leave a comment.

Articles