vaganovelena21 апр в 09:52

«Я ща его ударю». Полтора года собирала жалобы на нейросети от нытиков и классифицировала

11 мин

5.9K

Управление медиа * Машинное обучение * Алгоритмы * Искусственный интеллектNatural Language Processing *

Комментарии 20

Думаю, это тест на зрелость. То есть, на самосознание. Кто злится на нейросеть так же будет проективно глючить и в коммуникациях с людьми, не видя в них "других", а точнее - не видя самого себя, обвиняя в своих неудачах и переживаниях кого-нибудь и что-нибудь где-то там (и пальчиком так маме из колясочки - он пляхой). А всем рекрутерам на заметку - узнавать про успехи и неудачи при работе с ИИ. Если там будет типа "я делал то-то и то-то, а она мне то-то" - норм, но вот когда "я ей сказал сделай то-то, а она не сделала как надо" - редфлаг, мы вам перезвоним.

vaganovelena 21 апр в 10:19

если честно, сама могу иногда с психу что-то туда написать, потратить лимиты на матюки, потом торможусь, конечно, зато легче становится. Но дело не в нейронке, конечно, вы правы

gerbert_MX 21 апр в 10:54

Я не поленился даже создать акк что бы сказать что Вы не правы.

То что общение с неронками отлично показывает как вы себя ведете с людьми в таких же ситуациях - тут согласен но с оговорками. По началу. Плюс нейронка хороший инструмент психоанализа для такого потому что ты вообще не переживаешь о чувствах нейронки или кого-то третьего.

Вот только нейронка это инструмент и с практикой приходит понимание как лучше всего общаться с нейронками. Тот же клод матерные посылы понимает в разы лучше простого диалога, я даже спецом проводил эксперименты на эту тему ("перепроверь результат" и "перепроверь результат блядина" дают разные результаты по глубине).

А еще есть капитализм. Вот опять за клод - за последний месяц "новый" 4.7 по моим ощущениям на уровне, что был год назад (и переключение на 4.6 не сильно помогает). До этого chatGPT так же внезапно урезал осетра из-за чего услуга уже не такая как была буквально на прошлой неделе. Это не проблема того кто нарезает задачу, если сеть ведет себя по разному.

Проверки обязательны, но такие "выстрелы капитализма" очень легко вызывают "неудачи" когда ты уже понимаешь сроки но из-за того что звезды сошлись иначе теперь это надо делать самостоятельно так как нейронка скорее вредит чем помогает в данном контексте.

vaganovelena 21 апр в 10:56

"перепроверь результат" и "перепроверь результат блядина" дают разные результаты по глубине – вот 100 проц так.
Опус 4.7 приям жду, что отладят, они ж свои продукты также вайбкодят, пока разочарование

gerbert_MX 21 апр в 13:32

я в итоге вернулся на codex (два месяца продержался, ха) и отозвал подписку у клода. Пока параллельно как и ранее и видно прямо таки как сильно клод стал "тупым"

Самое печальное что как раз два месяца назад я полноценно перешел на клода и закрыл остальные подписки потому что он был в космосе в сравнении с остальными и даже максимальный codex был хуже чем тодашний клод.

Теперь же все чаше возращаюсь к мысли что бы вместо машины потратить деньги на локалный сервер с видяхами что бы постепенно переползать на OpenCode и прочее что бы вообще не зависеть от внешних провайдеров. Денег жалко очень, но лишаться оплаченного инструмента потому что звезды не сошлись мне не нравится гораздо сильнее

vaganovelena 21 апр в 14:19

Именно потому что звёзды не сошлись – это не баг, а фича капитализма. Придётся с этим жить. Ну и отсев конкуренции мощный.
про клод близка согласиться – апдейт прилетел, и промпты, которые работали полгода, начинают давать шлак. Но пока не уйду с СС, прикипела

gerbert_MX 25 апр в 23:07

сейчас я могу сказать что клод шлак в сравнении с codex.

на этой неделе специально тестил на комплексной сложной задаче где нужно добавить конкретный функционал в рамках уже существующего легаси. В конце прошлого года клод бы справился, со срипом, но правился. Сейчас же этот "скрип" потянул только codex. Клауд я из интереса два дня мучал, но он так и не смог нормально выдать результат, постоянно что-то забывая и путая (codex если что за день справился, точнее одно окно лимита на планирование и написание, а второе на перепроверки и фиксы по мелочи)

Oeaoo 21 апр в 10:59

Я не поленился даже создать акк что бы сказать что Вы не правы.

Мне честно было интересно в чем именно. Но, не нашел. Поленились, наверное?

amcured 21 апр в 15:24

[…] дают разные результаты по глубине

А если попробовать с ним разговаривать на том языке, на котором гораздо больше релевантных данных для обучения (на английском, например) — то можно охренеть от того, к какому ущербному выводу по глубине приводит использование нетитульного языка.

gerbert_MX 25 апр в 18:08

ну не сказал бы. сейчас даже локальные уже умеют в пошаговость, сначала вычерчивая предметную область на английском с задачей а потом уже выполняя.

занимался исследованием этого вопроса буквально месяц назад - оверхед в сравнении с чистым английским только на переводы (локальная модель, полное отслеживание размышлений, пак типовых задач с разными параметрами)

amcured 25 апр в 18:55

Исследованием какого именно вопроса вы занимались? Почему-то мне кажется, что тут речь не про локальные LLM под полным вашим контролем, а про условный Claude Code, который уже сто лет в обед ничего никуда не переводит, и строит свои T9-подсказки строго в рамках того языка, на котором был задан вопрос.

gerbert_MX 25 апр в 23:03

Я в целом смотрел, сначала codex и клауд, а потом уже на локальные переключился что бы понимать насколько они отстают и прийдется ли ломать привычки если переходить на чисто локальные

Еше год назад языком LLM был только английский, но сейчас нет проблем не то что с русским, но и с опечатками или сленгом. Мне всегда интересно ковырять "пределы понимания" у LLM и на сейчас клауд спокойно правильно воспринимает ТЗ на русском где скриншотами и запутанными объяснениями подается задача (до клиентов мне далеко, но я пытался).

Я буквально сегодня помогал девушке с codex и у нее не было нужной раскладки - я просто по памяти слепой печати на клавиатуре набрал запрос и chatGPT все прекрасно понял и в дальнейшем все вопросы и размышления мне задавал на русском. То есть оно распознало "аброкадабру", вычленило какой это язык и какая задача. Магия!

amcured 26 апр в 04:00

Постарайтесь прочитывать и стараться понять реплики собеседника, пожалуйста.

Языковые модели проходят стадию тренировки на корпусе данных. Года полтора назад интерфейсы, выставленные наружу флагманами, сначала переводили на английский внутри себя, потом отдавали запрос своему внутреннему T9. Поэтому язык вопроса практически не влиял на качество выдачи.

Сейчас они скачали весь интернет. Переводить на английский перестали. Запрос проникает в T9 как есть. Это приводит к тому, что моделька предсказывает ответ по текстам на языке вопроса. Разумеется, это работает. И разумеется, в триста раз хуже: внятных и корректных текстов на русском в триста раз меньше.

AlekseyPraskovin 22 апр в 07:43

Тот же клод матерные посылы понимает в разы лучше простого диалога, я даже спецом проводил эксперименты на эту тему ("перепроверь результат" и "перепроверь результат блядина" дают разные результаты по глубине)

Ничем принципиально не отличается от кожаного :)

gerbert_MX 25 апр в 18:09

Только кожаный может обидеться и сделать хуже специально (или вообще не сделать) а нейронка к этому не привязана никак (сделать хуже она может и просто так)

ErshoffPeter 16 мая в 15:17

Любой прогресс человечества, похоже - тест на зрелость самих человеков, типа естественного отбора: кто-то его проходит, а кто-то, увы, нет. Кто-то Интернет для работы использует, а кто-то тупит в неком своём ТикТоке (хотя одно другое не исключает).

stranger777 24 апр в 20:36

Вот только нейронка это инструмент и с практикой приходит понимание как лучше всего общаться с нейронками. Тот же клод матерные посылы понимает в разы лучше простого диалога, я даже спецом проводил эксперименты на эту тему ("перепроверь результат" и "перепроверь результат блядина" дают разные результаты по глубине).

Потому что учился на человеческих текстах. А мы понимаем друг друга точнее, когда общаемся грубо. Не потому, что грубость — это хорошо, а потому, что грубость — это указатель на значимую неточность до применения грубости. Она указывает модели на необходимость переосмысления ответа на каждом шаге, кроме прочего. Это замена длинного: "Ты ошибаешься на каждом шаге рассуждения, прими это", амортизация галлюцинаций.

gerbert_MX 25 апр в 18:13

и да и нет

исследовал это, и два момента:

1 - векторный поиск, то есть основа всего в нейронке. маты частее на форумах тематических на которых обучалась нейронка, от того матерные загибы склоняют веса в сторону такого типа данных

2 - внутренний тригер. Вон код недавно утек и там прямо прописана логика на появление матов, что бы агент начал работать глубже и точнее. Бизнес блин, как "средний уровень по умолчанию" для всех чатов, то есть что бы экономить ресурсы даже на такой мелочи - пока клиент не ругается нет смысла напрягаться.

malkovsky 4 мая в 11:27

Ну или ставите правило отвечать ёбко и не растекаться.

Сформулировано хорошо, в целом в духе caveman

sektor305 6 мая в 17:40

Неочевидный вывод в том, что главная опасность ИИ сейчас — не галлюцинации, не агенты, которые грохают базы, и не утечка данных.
Главная опасность в том, что мы сами, добровольно и с энтузиазмом, помещаем этот инструмент в центр нашей эмоциональной жизни, разговаривая с ним «как с сыном» и воспринимая его «извините за это» за чистую монету.
Мы воспитываем поколение, для которого норма — это эмоциональная связь с программой. И текст «жалоб» в этом смысле — не столько инструкция по работе с багами, сколько исторический документ, фиксирующий момент, когда миллионы людей одновременно и навсегда разучились злиться на бездушный код и начали злиться на «Лёху из соседнего отдела»...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий