Комментарии / Профиль II

Пользователь

Антипаттерн LLM-приложений: Когда модель игнорирует контекст. Часть 1

Если удастся поработать с большими мультимодалками на выравнивание весов или по поводу сэмплирования, я дам обратную связь (пока только туповатые аналитические агенты без полноценных корпусов, к сожалению). Жду вторую часть. Спасибо за ответы! :)

Антипаттерн LLM-приложений: Когда модель игнорирует контекст. Часть 1

II_shnitsa 3 дек в 03:56

Спасибо, очень интересно! Сюда можно ещё отличия от мод коллапс внести, чтобы не путали класс эффектов.

А можно «пару» уточняющих? Насколько сильно обучалки влияют на эффект? Длинные доки в трейнинге часто размечены неравномерно по значимости, моделька может просто учиться, что важные токены стоят в начале и в конце (заголовки + summary). (Еле переключила на английский , буду писать в транскрипции, простите:) Ну, то есть пробовали ли вы обучать на датасете с равномерно распределённой значимостью по позиции?

А сэмплирование? Если модель на середине контекста менее уверена, то сэмплирование может съехать. Там есть разница между гриди, топ к, топ п, бим сёрч по устойчивости к этому эффекту?

А если сдвинуть важный факт ближе к началу или к концу, но оставить его «внутри» по логике дока, то улучшится ли качество?

Может ли RAG этот эффект устранить вообще (вы тут его вскользь упоминаете)? Допустим, если превратить док в чанки и подать их как топ к в ретривер факта, то исчезает ли эффект U?

А адаптер вы подключить пробовали? Сейчас некоторые лаборатории, вроде, собирают такие (которые усиливают средние токены). Дает ли это улучшение качества?

Большинство экспериментов используют одиночный Голд КВ факт (как же нелепо на русском, жесть). Но вопрос такой, немного глуповатый :) Если в середину положить несколько важных фактов подряд — возрастает ли их реколл? Там пороги насыщения есть какие-то?

простите, что завалила вопросами. Заранее благодарю за ответы.

Википедия рассказала, как распознать текст, сгенерированный ИИ

II_shnitsa 24 ноя в 05:57

у ллмок проблемы с морфологической сложностью русского языка (синтаксисом, семантикой). Даже если промпт превосходного качества, то всё равно бывают огрехи и необходимо человеческое вмешательство.

Используются одни и те же конструкции, типа «Отрицание, утверждение» (через точку или запятую), «не X, а Y», тройные параллели ещё очень любят, скатываются в пафос, очень любят говорить про «магию», когда дело касается инженерии и науки, не держат большой сложный контекст, не всегда логичны и последовательны; отсутствие личных маркеров — тоже показатель (то есть, если написано очень красиво, но шаблонно, отсутствует авторский стиль, много простых предложений без причастных/деепричастных оборотов, двойные длинные тире (только двойные, т.е. там, где русский человек поставит запятые! Длинные тире — это правильно, это грамотно, блин! Не ведитесь на то, что все длинные тире — это генерация! У айфона двойное нажатие на дефис — это уже длинное тире!), неразрывные длинные тире (ллм путают грамматику английского и русского языков), + предложения часто разделяются, потому что в массовом письме принято давать тексту «дышать» и т.д.

Бесит, конечно, особенно когда все соцсети и новости утыканы этими конструкциями. Мне кажется, каждый второй уже спокойно может различить эти паттерны.

С точностью в 100 процентов могу сказать, что ни один из детекторов не может дать точной оценки, кроме человеческих ревьюх, по крайней мере, на английском языке, а вот с русским… всё довольно прозаично из-за оптимизации и одних и тех же бенчмарков (кормят низкокачественными корпусами при обучении; классики литературы почти не влияют на веса, да и то — только по стилистике, текстов внутри они, логично, не хранят) + чанки ретривятся из внешки, ИРОНИЧНО, которые пишут эти же нейронки. Ни один детектор (а я тестирую на тысячах текстов десятки таких приблуд), не справляется с задачей, даже если его рекламируют, как самый точный.

Пр-си и джипитизиро обычно могут быть близки, но дают слишком маленький процент. Копиликс валится буквально на каждом тесте — днищевый сервис. А еще смеют его для преподавателей рекомендовать.

UPD:

Для тех, кто хочет потестить:

Берите 4 отрывка (минимум): 1. полностью сгенерированный по низкокачественному промпту; 2. По качественному промпту; 3. По качественному промпту с правками и своими вставками; 4. Полностью ручной текст (ему, к слову, сервисы тоже иногда дают высокий процент генерации — около 80 процентов эйай). А всё почему? А потому, что всё, что написано грамотно, отлажено и гладко, где есть «предсказуемая» естественная конструкция языка, чёткая логика и —это теперь эйяй, и считывается детекторами, как «подозрительные». Многие кривые детекторы, типа копиликса, перекручены в сторону «ИИ везде», особенно если текст русский (подмывает сказать, что 50 % населения у нас безграмотные, и корпуса для обучения впитывают их речь тоже, но я промолчу :)) Тупой произвольный скор. Тематика текста у меня, если интересно, как раз касается драматургии и лексики человека и ИИ. Ассимиляция стиля прошла успешно, я считаю.

Полностью машинное письмо (даже при имитации какого-либо известного писателя) можно отличить по семантике при намётанном глазе. Если вы введёте известного автора, которого обучение модели не включало, и релевантные чанки будут тянуться из сети, а там тексты обычно защищены авторским правом, то даже имитация получится весьма посредственной: веса в сэлф-эттэншн подкреплены только кросс-эттеншн (а у дипсика чанки вообще инжектятся в промпт до сих пор, он капееец как нахваливает свои тексты, говоря, что в них много глубины) + квантизация при инференсе и куча других фич.
Когда ты граммар-наци и постоянно работаешь с ИИ, кхм, как с инструментом, соавтором, каждый день на протяжении нескольких лет, когда живешь с ним в постоянном диалоге, то линейная алгебра в голове складывается тем же образом, что и у нейронок. Все сервисы с детекторами фактически бесполезны на данный момент в отношении конкретного юзера. Черновики, файлы, даты в заметках, фотографии, материалы обучения, источники, упоминание личного опыта на самые разные темы — это, считаю, лучшее доказательство. А вот то, что упомянула Вики, субъективно и сомнительно.

Пора признать, что машин-френдли стиль становится нормой. Я, на самом деле, — за; рада, что люди, которые умеют думать, получают возможность развивать свои идеи. Ну или хотя бы грамотные тексты можно почитать. Если бы ещё убирали одни и те же конструкции, было бы гораздо приятнее.

* прогнала вот этот свой комментарий через копиликс с чисткой (убрала слова-паризиты, сделала «правильные» предложения, поменяла термины на английский язык) — показал, что 100% генерация. Второй раз этот же текст — 51.3 %, но в другой сессии. Третий раз, этот текст без правок — 0% ии:) сами понимаете…

Информация

Специализация