Комментарии 9
Кто-то верит, что можно сделать хоть сколько-нибудь хороший ИИ-чат-сервис, не читая переписку людей с ботом на регулярной основе и без мешающей работать обфускации?
Думаете яндекс реально не знает КАК его алиса отвечает в телеграме юзерам на просьбу решить задачку?

его алиса отвечает в телеграме юзерам
А точно Яндекс причем? Проверили нативный вариат? Может к телеге вопросы надо?
Я после такой же дичи ушёл из Гигачата в тг (это их официальный бот причём)
ИИ обучаются с помощью других ИИ. Если просто, то принцип такой, что есть 2 модели-коуча. Одна проверяет на согласованность (корректность предложений, связность текста), другая на факты (чтоб не нёс ерунды и не сочинял). Обе бьют основную модель по попе, пока она не научится выполнять их требования в определённой степени. Руками это никто не делает, там же триллионы циклов в день прогоняются, это невозможно отсмотреть физически. Смотрятся только корнер кейсы и сценарии на итоговой модели, которой человек задаёт вопросы с листочка и смотрит удовлетворяет его ответ или нет.
Если коучи Алисы это другие Алисы, то понятно почему всё так хреново. Судя по ответам сотрудников Яндекса тут на хабре, а они всегда идут в отрицание проблем и газлайт юзеров, это какая-то внутренняя политика компании всё отрицать. Не знаю от кого идёт и зачем. Конечно, как минимум кто-то видит проблемы, но вынужден их отрицать ибо сверху директива такая. Как они до такого дошли и зачем не знаю, может считают что отрицать проблемы дешевле и выгоднее чем решать.
у Gemini в системном промпте (который неоднократно сливали на реддите) очень четко прописано "не использовать latex", прям вот капсом. и полюс он сам при генерации, ранее в show thinking, проверял что бы текст не содержал латех. я как-то его спросила, почему это вынесено в отдельное требование. говорит что это потому что обучен на тоннах текста с arxiv, научных статьях, а там все в латехе. и поэтому когда его начинают грузить чем-то, по чему надо написать формулу, он "инстинктивно" воспроизводит латех и ему надо напоминать что бы он его не использовал. видимо в Яндексе до этого ещё просто не додумались
(да, знаю, что обсуждать с ИИ его системные инструкции так себе затея, но на самом деле его выдумки имеют такое же право на существование как и мои, или любого рандома из интернета. а как оно на самом деле, знает лишь тот кто инструкцию писал)
Красивый код всегда усыпляет бдииельность, не только от ИИ )
Новички принимают говнокод от Claude сразу. Опытные программисты не принимают, и заставляют исправить. Какая неожиданность.
Красивый код усыпляет бдительность
Про красивый код даже речи не шло.
"85% диалогов содержали доработку первого ответа". Как красиво они обозначили сессию с галлюцинациями ))) и преподносят это как продвинулось пользователей, а не глючность моделей

Красивый код усыпляет бдительность: Anthropic выяснила, когда пользователи перестают проверять ИИ