runaway_llm23 фев в 20:43

Красивый код усыпляет бдительность: Anthropic выяснила, когда пользователи перестают проверять ИИ

2 мин

13K

Искусственный интеллектМашинное обучение *

Комментарии 9

Кто-то верит, что можно сделать хоть сколько-нибудь хороший ИИ-чат-сервис, не читая переписку людей с ботом на регулярной основе и без мешающей работать обфускации?

Думаете яндекс реально не знает КАК его алиса отвечает в телеграме юзерам на просьбу решить задачку?

Что это за месиво, олимпиадники из яндекса не знают как сконвертить латех в юникод или просто не знают о такой проблеме?

Arhammon 24 фев в 05:08

его алиса отвечает в телеграме юзерам

А точно Яндекс причем? Проверили нативный вариат? Может к телеге вопросы надо?

K0Jlya9 24 фев в 06:02

Телега не поддерживает латех. Как и хтмл. Для веба яндекс почему то прикрутил конвертер из маркдауна от ллм, в котором встречается латех, а для телеги палец о палец не ударил.

grigr 24 фев в 06:20

Я после такой же дичи ушёл из Гигачата в тг (это их официальный бот причём)

R3B3LL10N 24 фев в 08:55

ИИ обучаются с помощью других ИИ. Если просто, то принцип такой, что есть 2 модели-коуча. Одна проверяет на согласованность (корректность предложений, связность текста), другая на факты (чтоб не нёс ерунды и не сочинял). Обе бьют основную модель по попе, пока она не научится выполнять их требования в определённой степени. Руками это никто не делает, там же триллионы циклов в день прогоняются, это невозможно отсмотреть физически. Смотрятся только корнер кейсы и сценарии на итоговой модели, которой человек задаёт вопросы с листочка и смотрит удовлетворяет его ответ или нет.

Если коучи Алисы это другие Алисы, то понятно почему всё так хреново. Судя по ответам сотрудников Яндекса тут на хабре, а они всегда идут в отрицание проблем и газлайт юзеров, это какая-то внутренняя политика компании всё отрицать. Не знаю от кого идёт и зачем. Конечно, как минимум кто-то видит проблемы, но вынужден их отрицать ибо сверху директива такая. Как они до такого дошли и зачем не знаю, может считают что отрицать проблемы дешевле и выгоднее чем решать.

nakesreong 25 фев в 05:22

у Gemini в системном промпте (который неоднократно сливали на реддите) очень четко прописано "не использовать latex", прям вот капсом. и полюс он сам при генерации, ранее в show thinking, проверял что бы текст не содержал латех. я как-то его спросила, почему это вынесено в отдельное требование. говорит что это потому что обучен на тоннах текста с arxiv, научных статьях, а там все в латехе. и поэтому когда его начинают грузить чем-то, по чему надо написать формулу, он "инстинктивно" воспроизводит латех и ему надо напоминать что бы он его не использовал. видимо в Яндексе до этого ещё просто не додумались

(да, знаю, что обсуждать с ИИ его системные инструкции так себе затея, но на самом деле его выдумки имеют такое же право на существование как и мои, или любого рандома из интернета. а как оно на самом деле, знает лишь тот кто инструкцию писал)

achekalin 24 фев в 05:17

Красивый код всегда усыпляет бдииельность, не только от ИИ )

LinkToOS 24 фев в 05:47

Новички принимают говнокод от Claude сразу. Опытные программисты не принимают, и заставляют исправить. Какая неожиданность.

Красивый код усыпляет бдительность

Про красивый код даже речи не шло.

grigr 24 фев в 06:23

"85% диалогов содержали доработку первого ответа". Как красиво они обозначили сессию с галлюцинациями ))) и преподносят это как продвинулось пользователей, а не глючность моделей

Зарегистрируйтесь на Хабре, чтобы оставить комментарий