Pull to refresh

Comments 38

Взгляд со стороны

Я провел небольшой эксперимент.

Нюанс, для эксперимента надо контрольную группу, еще написать плохие, средние статьи и оценить их...

Эксперимент совсем маленький и в рамках возможностей, да и оценщик не я сам, а группа доступных мне ИИ. Подобная модель оценки доступна всем. Наше личное мнение может быть предвзятым, субъективным и ограниченным. У ботов тоже могут быть с этим проблемы, но через групповой анализ шансов к объективизму всё же больше. У них нет какой-то личной заинтересованности, поэтому и можно назвать "относительно нейтральными".

Зато когда вы пишете запрос к моделям у вас есть заинтересованность) Что сказывается в формулировке... сколько я не пробовал просить оценить, какие-то льстивые отзывы обычно дают модели.

Бывает такая проблема, особенно если боты следят за всеми записями в твоем аккаунте. Для объективности и нужна оценка не "твоих моделей", а сторонних. Или всегда запрос в новый чат и к разным моделям: "дать максимально критическую, экспертную оценку по....... "

Мы живем в 2026 году, когда технологии позволяют оценить глубину и оригинальность текста, но крупные площадки по большей части все еще живут по старинке и судят о качестве по числу лайков и частоте публикаций.

Так что оценивать то будем? Глубину (глубина чего?) с оригинальностью или все же качество™? Опять же. Как это качество™ оценивать? По каким признаком? Я не эксперт, но кажется единственное что имеет хоть какую-то корреляцию с качеством это как раз таки количество лайков/просмотров. Правда... ну вы сами видели нейрокал в том же ютубе с умопомрачительными просмотрами. Так что тоже под вопросом данный метод, но, имхо, лучший претендент.

Да и вообще. Где это вы увидели крупные площадки, которые именно "качество" (я до сих пор не понимаю что автор имел в виду под этим словом) оценивают. Взять тот же хабр. Подумайте о корпоративных блогах в этом ключе.

На начало 2026 года и я таких площадок не знаю, где через группу ИИ предварительно оценивался бы размещаемый контент по разным критериям. Думаю, что таковых пока нет о чем и затрагивал речь.

Не будет ИИ работать. Как только придет массовость, то появятся хаки. Точно так же как появились "бабушки" для chatgpt. Вы этот процесс можете сами наблюдать на примере того же ютуба. Как там у нас было, по порядку (если что поправляйте):

- ставьте лайки (XXX лет назад)
- пишите комменты (1-2 года назад?)
- все фигня, главное подпишитесь (вы здесь)

Я к тому, что народ рано или поздно узнает как ломать систему. И в отличии от традиционных методов, алгоритм оценки через нейросеть удивительно непрозрачен и поменять по желанию левой пятки навряд ли получится. Хотя, могу и ошибаться. Я всего лишь пользователь интернетов.

Я согласен с вами, что такая проблема вполне реальна, но одновременно хакнуть независимую друг от друга группу AI сложнее, если вообще возможно? Поэтому и одна конкретная модель ИИ для оценок даже не рассматривается. По определению не может, да и не сможет быть «критерием истины».

Датасет у них всё равно общий. Не говоря уж о том, что они ещё и учатся друг у друга.

Количество просмотров очень сильно зависит от того насколько часто контент появляется в ленте у других пользователей. Собственно в этом и пробема, про это и статья

Давайте так - при том, что с базовой мыслью статьи я согласен, и она меня даже цепляет, "эксперимент с нейросетями по оценке уровня статьи" поставлен бездарно, вообще без понимания инструмента.

LLM может оценивать то, что видит - т.е. то, что в контексте запроса к ней. Правильно - взять 10 статей, добавить свою, засунуть все их тексты в контекст запроса, попросить оценить и аргументировать (хоть какой-то CoT). Неправильно - тиснуть в запрос ссылку на Хабр, надеясь, что встроенные инструменты веба извлекут нужный текст (а также другие тексты статей? или нет?). Результат - какой-то ответ, обычно приятный пользователю (потому что LLM так учат - быть приятной) - "да, ваша статья топ-1".

Я не выбирал для ботов десять статей, а предложил, чтоб они сами выбрали топ по Хабру на тот момент времени. Максимально честно, если они сами выбирали и оценивали. Не все дали первое место, было и третье. Это не мое мнение и не моя субъективная оценка, а субъективные оценки ботов.

Я не выбирал для ботов десять статей, а предложил, чтоб они сами выбрали топ по Хабру на тот момент времени. Максимально честно, если они сами выбирали и оценивали.

Еще раз - вы засунули в абстрактную машину-бота какой-то запрос, получили какой-то ответ, непонятно на чем основанный.

Бот - не человек, он НЕ может прочитать статьи, НЕ может выбрать лучшие. Ему внутренние tools с веб-поиском скармливают какие-то элементы, которые он нашел на Хабре по вашему запросу, и он делает какой-то вывод. Garbage in - garbage out. Вы не используете технологию по назначению, вы ей даете "какой-то запрос", а потом тащите результаты на Хабр - и непонятно, зачем они в статье и что доказывают.

По содержанию: длинные статьи плюс минус могут быть интересны категории профессионалов, которая друг друга оценивает по этим статьям. Это как-то хоть немного работает как внутренняя социальная сеть внутри реального социума - "я знаю, что X разбирается в A, X знает, что я разбираюсь в B". Это неоптимально, но это как-то работает - и да, посты с кошечками и "топ-10" это сильно размывают. Но для того, чтобы попасть в круг, надо мысли давать на уровне, не пренебрегать качественной терминологией и постановкой - да, обывателям все равно, но профессионалы отметят хотя бы отсутствие типовых ошибок и умение рассуждать.

Мне нравится ход ваших мыслей. Дайте мне список из 9 похожих по уровню и весовых категорий (AI, средний, аналитика, 7–12 мин) статей Хабра за последний месяц + 1 моя. Я их загружаю в один, два документа Word и «скармливаю» семи ИИ, чтоб расставили их в топовом порядке по своей экспертной оценки. Было бы интересно. Будет следующая статья с обзором или вы сами можете сделать это.

Спасибо, так это более осмысленно.

Рекомендую

а) не загружать документы Word, а давать статьи текстом (непонятно, что извлекается из ворда)

б) по возможности использовать доступ по API, которое не режет контекст (потому что с чатами непонятно, не сделают ли они "выборки" вместо полного текста ради оптимизации того, что в них засовывает пользователь ради бесплатного предоставления услуг) - но тут опционально, если не жалко

в) по каждой статье попросить сформировать, например, экспертную оценку по N категориям по шкале от 1 до 5, попросив его обосновать каждый пункт, а затем суммировать. Это нужно, чтобы были оценки по конкретным вещам, иначе непонятно, что оценивает ИИ. А вообще лучше прогнать отдельными запросами статьи, получить оценки, а затем отранжировать статьи.

Спасибо за хороший совет. Может, вы на себя могли бы взять, а то скажут, что я лицо заинтересованное? Мне все равно, кто это будет. Но сдается мне, что здесь больше вопрос не в каких-то статьях, а в самой «догматике». Когда человек уверен, что его субъективное мнение всегда будет выше «субъективных и несуществующих» оценок группы ботов, а другой с этим не согласен. Два мнения столкнулись полярно, и у них в этом нет точки соприкосновения. Это не значит, что люди плохие, просто у каждого может быть своя субъективная оценка вопроса, а вот где объективная?

Может, вы на себя могли бы взять, а то скажут, что я лицо заинтересованное? Мне все равно, кто это будет. 

Я думаю, вы можете взять просто N статей с рейтингом выше 10 (т.е. не самые плохие), и числом символов больше... ну 3000 скажем (т.е. не короткие). Если хотите - учтите направленность. И напишите об этом в статье - тогда сразу будут понятны критерии.

Я не хочу брать на себя, как ни странно, именно потому что я лицо слишком незаинтересованное - мне слишком все равно, что я пошлю на анализ, а это не есть гуд для процесса. Я при разработке ПО придерживаюсь того же принципа - для своего опенсорс голосового помощника Ирина я не беру фичи, которые лично мне неинтересны (например, интеграцию с Home Assistant - у меня его нет), т.к. считаю, что сделаю такую реализацию плохо. В результате плагин сделали заинтересованные члены комьюнити и имхо получилось лучше.

Когда человек уверен, что его субъективное мнение всегда будет выше «субъективных и несуществующих» оценок группы ботов, а другой с этим не согласен. Два мнения столкнулись полярно, и у них в этом нет точки соприкосновения. Это не значит, что люди плохие, просто у каждого может быть своя субъективная оценка вопроса, а вот где объективная?

Классический хороший вопрос - постановка простая, ответ очень сложный :)

  1. Если мы рассматриваем публичную дискуссию, то желание "защитить свою самоценность, выражаемую через свое мнение на социуме" может перекрывать кучу разных соображений "верности". Про обычных людей это вообще верно, но этому подвержено даже научное сообщество, которое должно ставить объективность выше собственного неудобства - известно, что методы Земмельвейса стали общеприняты только при смене поколений.

  2. Теоретически объективная истина в научном смысле - та, что при минимальных усилиях дает хорошие прогнозы - т.е. теория или текст должны давать прогнозы, и делать это за счет минимальных моделей (прогностическая сила теории). Если они не дают прогнозы, которые можно проверить, они не проходят критерий фальсифицируемости Поппера (задним числом можно объяснить что угодно).

  3. Так уж сложилось, что в сторону "что считать наукой" (если мы это считаем объективной истиной) я копал довольно давно и считаю, что в среднем мои знания очень неплохи. Но там все непросто. Если есть желание погрузиться, могу для краткого ознакомления рекомендовать мою обзорную статью "О подходах к определению научной теории" , для более полного понимания сложности проблематики - есть классическая книга Т.Куна "Структура научных революций", очень увлекательно.

  4. (Завершая) Если брать интернет и современные социальные сети, то тут желания поразвлечься значительно больше, чем желания заморачиваться поиском истины (последнее не очень приятно, т.к. ты можешь быть и неправ, да и коллектив нужно подбирать который этим горит). Исходя из этого котики, мемасики и жареные заголовки для большинства будут предпочтительным контентом. Чтобы люди писали о другом, нужно другое сообщество, которое ценит иное - и отдельный вопрос как его создать и формировать. Современное научное сообщество в целом - увы, имхо подходит не очень - и там свои проблемы.

  5. PS: Иногда личностное знание - то, что два человека по-разному понимают один и тот же текст (субъективно) - неплохо. Но это тема отдельного разговора.

Респект. Реально спасибо за большой комментарий и размышления. Всегда проблема в обществе, т. е. в нас, людях. Мы очень далеки от совершенства, и часто наши взгляды или теории очень субъективны, возможно, даже ложны и катятся по наклонной вниз. Рассматривая то, что называют ИИ, хоть какая-то альтернатива всевозможным кумирам и субъективизму. Познавая в разных ракурсах такую технологию, познаешь и что такое, может быть, сам человек (биологический ИИ) и его Инженер. Как работает наша механика, мысль, оценка, совесть, дух, душа? Лично мне всё это очень интересно. Да, вокруг бушующее море разных людей, но твое место тоже определено, разве не так?

Познавая в разных ракурсах такую технологию, познаешь и что такое, может быть, сам человек (биологический ИИ) и его Инженер. 

Мне кажется, ИИ скорее напоминает зеркало, чем субъект. Исследовать зеркало бывает полезно, но скорее этим исследуешь себя и общество.

Кстати, имхо интересная статья в контексте общения с нейросетями (Шершавый кабан и пр.) (автор гуманитарного контекста, что накладывает отпечаток на терминологию и способы рассуждения)

С зеркалом интересная аналогия. Глядим, а кого видим? 🤔

Если есть алгоритм ранжирования, есть и метод абьюзинга этого алгоритма ранжирования. Если это принесет хоть шекель дохода, хоть малейшую копеечку, и за это не расстреливают на месте - это будут доить насухо, пока скотинка не сдохнет, поскольку такова суть капитализма. Попытка сделать "чистую площадку для глубокого контента" без коммерческих шитпостеров, это попытка идти против идей капитализма в целом.

Я уж молчу о том, что шитпостеры приносят основную капитализацию площадке. Рекламодателю в 99.(9)% случаев наплевать, глубокий там контент или мелкий. У него есть показатели посещаемости, тематики, активности, уникальности текстов, и прочие чиселки, из которых считается потенциальная монетизация аудитории, причем считается плюс-минус три попугая на удава, и если 3.5 недовольных гика свалят - никто не заметит. Любая крупная площадка продает рекламу и пропаганду, это основной ее доход, и терять его ради абстрактного качества никто не будет. Репутация? Не смешите бабушку, в масс-медиа не такого слова, один сервис выдоили, создали другой - нагнать туда пользователей вопрос исключительно финансовый.

Вы затронули тему, которую можно назвать греховность «человека и общества». Есть правда в ваших словах, мир такой, но если, живя в грязи, разве не надо стремиться и двигаться к чему-то лучшему и позитивному? Если есть плохое, то надо поднимать вопрос и предлагать решения. Хотя бы на уровне своих сил и мышления? Здесь над вами никто не властен, кроме, возможно, вашей личной испорченности (греховности). Человек — часть общества и зачастую ничем не лучше, кроме примера, когда он не от мира сего, но таких очень немного.

Все упирается в деньги. Никто не хочет делать "хорошее" на бесплатных началах, и даже более того не на бесплатных, а из своего кармана

Вопрос финансов актуальный, современная платформа на ИИ-принципах не сказать чтоб было дешевым удовольствием, но а где дешевое? Чтобы строить, то надо хотя бы знать то, что ты хочешь строить, а если «осваивать и пилить» (есть такое), то никаких денег на это не хватит и результат нулевой.

В парадигме статьи предложил Deep Seek оценить все 15 комментариев и первое место (для меня неожиданно, но ценно) с высокой оценкой:

А надо ли с этим что-то делать? Есть площадка, у нее есть алгоритмы, которые продвигают ширпотреб, люди его лайкают, людям он нравится. В чем проблема то? Это условия площадки, где размещена публикация.

Я иногда пишу что-то техническое, но у меня и в мыслях нет как-то монетизировать свой контент. Вся моя писанина направлена на то, что кто-то в гугле сделает запрос, возможно вылезет мой конент, и человек сэкономит себе немного времени. Ну и нейронки покормить заодно, разбавить веса :)

При этом подготовка статьи у меня занимает достаточно много времени, минимум неделю, а то и две. Человек либо блогер, либо разработчик, на все разом просто времени не хватит. Если человек позиционирует себя как блогера - то ему надо подстраиваться под площадки для широкой аудитории, т.к. заработок напрямую зависит от охватов и рекламы. Если человек позиционирует себя, как спеца с качественным контентом - то можно и не подстраиваться, т.к. смысла широких охватов нет, деньги идут из других источников.

Автор, вы себя как позиционируете? Вы пишете для чего?

Не позиционирую себя знающим человеком. В рамках земных знаний, все мои познания составляют ~0.000000000001%. Я, к примеру, очень далек от того, как сделать все детали и собрать Боинг. В этой статистике объединенные данные различных ботов куда выше. Это огромный источник информации, на который можно опираться своим субъективным несовершенством. Конечно с долей полезного скепсиса.

Но а мне (автору) за комментарии досталось место в последних рядах 🙂. Но тем и ценнее подобная оценка. Она показывает уровень «рассуждения» (пусть кто-то и может считать ее иллюзорной) от конкретной модели.

Вот от Sonnet 4.5, если кому вдруг нужно:

Скрытый текст

Ну вообще-то я больше ради смеха, нежели серьезно :)

А воды налили имхо не очень - вроде как смысл ваших "общих датасетов" был в том, что не имеет смысла выбирать разные сетки, все равно результат будет один. И, кстати, ряд товарищей считают, что из-за этого сети будут деградировать - все "выбросы" (т.е. немейнстримные мнения) будут резаться. (Сеть же "налила воды", что самообучение это однозначное добро)

А так вообще можно попытаться а) разные сети б) с принципиально разными ролями и промтами засунуть. Но как бы они все равно в болтологию не свалились...

О том и речь. Вот вы понял, что смысл потерялся, а нейронка выдаст "качественный аргументированный очень полезный комментарий".

Спасибо, хороший обзор. Считаю, он достаточно близок к объективности. Показывает и доказывает, что современные боты не так и «глупы», как их пытаются представить. А если брать их групповой анализ, то в конечном итоге можно получать то, что называют «объективностью». По сути, о ней и речь! Пускай условная, а взгляд человека разве всегда идеал?

Короче, вставил себе в ChatGPTBox (это опенсорс расширение для браузеров, которое может анализировать выделение по OpenAI-compatible API, здесь моя инструкция по настройке, кому надо) следующий промт:

Оцени эти комментарии к статье, отранжируй по экспертности и объективности. 
Какие лучше и какие хуже, и почему?

Комментарии:
```
{{selection}}
```

Получил удобную тулзу для тыканья в произвольную дискуссию :) - скрины под катом:

Скрытый текст
после выделения автоматически выскакивает панель инструментов
после выделения автоматически выскакивает панель инструментов

В условно больших задачах на одной модели нельзя строить объективные выводы. Можно улететь не туда.

Для менеджеров охват аудитории важнее смысла, так как приносит деньги. И алгоритмы будут тренировать в этом направлении, отнимая аудиторию и, соответственно, деньги у тех, кто даёт "сложный" контент. А, так как обучение дорого, а сложный контент непопулярен, мы в каком-то смысле обречены.

Для фастфуда — да, но для технического, научного сообщества и стартапов, где важны расчеты и ценность в глубине мысли, устаревшие подходы оценки не годятся.

Sign up to leave a comment.

Articles