Не согласен. На мой взгляд, плохо и низкокалорийно. Ну давайте по пунктам.
Редукционизм изобрели в пятом веке до нашей эры. Тоже мне откровение. Совет понятный, но очевидный. Куда полезнее очертить оптимальный объём работы для каждого промпта. Сколько оптимально токенов должно быть в вводе и выводе? Человек с опытом немедленно покажет примеры, большая языковая модель будет давать общие указания.
Писать детальный промпт — самый хороший совет. Я бы разве что рекомендовал представлять не младшего разработчика, а дьявола, который будет делать всё наоборот (вразрез с вашими ожиданиями), если вы не оговорили обратное. Для начала нужно задуматься, какие из ваших ожиданий остаются невысказанными и, собственно, высказать эти ожидания.
См. пункт 1.
Проверять вывод БЯМ — тоже неплохой совет. Обратите внимание, что он опять дан словами Капитана Очевидность, без примеров из практики.
См. пункт 4.
Итого пять советов, из которых в реальности будет три. И все даются максимально общими словами.
Именно так пишут дешёвые языковые модели: мало смысла, слов избыток. Модель не назову, но не думаю, что здесь бесплатный тариф. Думаю, БЯМ была без reasoning.
Вы тут уже 5 месяцев, и пора бы уже заметить, что на Хабре нет премодерации, есть постмодерация. Любой желающий может опубликовать что душе угодно, и это немедленно появится в общей ленте. Потом придёт модератор и оценит нарушение правил, но вообще-то никто не мешает публиковать что угодно.
Типовое нытьё о несправедливости мира. На Хабре такие появляются ежерегулярно.
Длинные тире. Думаю, тут и комментарии излишне. Авторы крайне редко будут использовать данный символ
Вы сейчас упадёте: в абсолютно любой переписке лично я использую не только длинные тире, „красивые“ «кавычки» и прочие заметные типографские знаки, но и также в нужных местах ставлю неразрывные пробелы — чего без анализа кодов символов вы просто не заметите.
Если вы собираетесь что-то писать, поставьте себе «Типографскую раскладку» Ильи Бирмана и не позорьтесь. Единственное, над чем мне приходится возиться — так это акуты, поэтому этот символ я каждый раз копирую из «Википедии».
Все остальные перечисленные вами признаки сгенерированного текста присущи вашему собственному. Любовь к выделению полужирным, нумерованным и маркированным спискам, избыток подзаголовков — это всё у вас в тексте тоже.
Вы жалуетесь на то, что статьи на Хабре якобы пишутся с помощью больших языковых моделей. При этом ваша собственная жалоба на четверть состоит из текста, сгенерированного БЯМ.
Это какая-то извращённая ирония или что? Ваш текст выглядит именно так, как ругаемые вами публикации.
И это лишь малая часть признаков, по которым определяются подобные статьи.
Я регулярно общаюсь с платной версией ChatGPT, включая запросы в Pro-вариант и длинные отчёты из функции Deep Research. Общаюсь с другими БЯМ: Claude, Gemini, DeepSeek. Ни один из перечисленных вами или нейросетью признаков надёжным маркером не является.
Если показать языковой модели материал, который нужно пересказать, и пример текста, который нужно продолжить, то она может выдать текст без каких-либо маркированных и нумерованных списков. Сделает она это с учётом всех особенностей идиолекта примера.
Вот так может выглядеть текст от языковой модели. Для его написания она опиралась на 9 различных источников.
Понятно, что для публикации куда-либо такой ответ не годится. Текст иногда откровенно ужасен, иногда меня попросту не удовлетворяет своим качеством. БЯМ не может думать, поэтому она теряет те факты, которые нужно обязательно указать. К примеру, языковая модель не расписала, почему так важны судоходные коридоры (вершины этих графов не привязаны к населённым пунктам, они где-то посреди океанов).
Однако где здесь нумерованные и маркированные списки? Где шаблонность? Подзаголовки есть, но они легко удаляются. Вводных фраз и клише тут вообще нет. Более того, я попросил подсказать мне графики, какие нужно заскриншотить, что решает проблему с иллюстрациями. Этот текст при минимальной доработке мог бы выглядеть полностью человеческим.
Выделение полужирным — это вообще не довод. Ненужное выделение полужирным убирается копированием и вставкой.
Я замечаю только два раздражающих маркера, которые вот так просто не удалить и в глаза они не бросаются: любовь к заключению выражений в переносном смысле в кавычки, а также синтез новых слов и выражений. В примере выше это «картограф-письменник» и «косит» в значении «испытывает сдвиг по координатам». Работают эти признаки только в русском языке.
А вывод тут такой, что платную версию ChatGPT вам не опознать. В лучшем случае ваши признаки работают для бесплатных тарифов. То, что вам доизобрела какая-то БЯМ — это вообще полёт фантазии.
Кстати, зачем вы написанный языковой моделью ответ заключили в спойлер? Если фрагмент текста хочется спрятать, то его нужно из статьи убрать.
Меня, как автора, убивает простая математика: статья на 5 минут, написанная языковой моделью за 2 минуты, собирает в два раза больше плюсов, чем блок моих статей про rsync, на который я потратил шесть вечеров.
С чего вы вообще взяли, что значения кармы и рейтинга показывают в этой жизни хоть что-нибудь? Ценность невозможно отразить в числовом значении рейтинга. Ценность любого материала для разных людей разная. Именно поэтому поверхностно охватывающие много общих тем публикации всегда будут популярнее, чем глубокое копание в одной узкой нише.
Вам же не приходит в голову говорить, что бедные люди хуже (или лучше) богатых? Почему тогда вы так, пардон, дрочите на рейтинг? Эти числа ничего не отражают. В два раза больше? Ну набрала и набрала.
Так на Хабре было абсолютно всегда, в том числе до ИИ: чем легче тема, тем она популярней. ИИ тут вообще ни при чём. До этого были жалобы, что авторы неглубоких тем или вообще шутеечек собирают рейтинга куда больше, чем любители сидеть у себя в уголке и тихо копать вглубь контент для профессионального роста. Вы не первый и не последний.
Как и у всех ваших предшественников, у вас здесь сразу заложено следующее допущение: статья, которую вы писали шесть вечеров, заведомо лучше. Трудовая теория стоимости работает не всегда, поэтому допущение ошибочно.
«Писать шесть вечеров» — это может быть шесть вечеров выяснения функций, проверки и чтения документации. В большую языковую модель все эти знания заложены и так. В её весах уже лежат все страницы документации и тысячи обсуждений на форумах. Это как жаловаться, что калькулятор считает быстрее.
И вообще, какие-то голоса за несколько дней — не показатель. Результат вашей работы может набирать заслуженные просмотры месяцами и годами.
Если вас так парит, что кто-то набирает больше рейтинга, пересмотрите, что не так с вашими текстами, а не бросайтесь обвинять мир в несправедливости. Пишите в обнимку с нейросетью, необязательно всё выполнять полностью вручную. Возьмите нейросетевой текст и посмотрите, что упоминает языковая модель, сравните с собственным и так далее.
Как читателю, мне неприятно поглощать этот гладкий и безвкусный фастфуд — спросить у LLM я могу и сам.
Это вас огорчает, а должно радовать.
Если вам не нравится шлак от ИИ — вы не один такой в мире. Ваш текст нравится вам самому — понравится хоть кому-то ещё. То есть поклонники у ваших статей найдутся всегда. О чём эти переживания?
Я не могу ссылаться на примеры, это абсолютно неэтично и должно наказываться со стороны администрации Хабр.
А делать голословные обвинения в адрес неопределённого круга людей — это этично?
Вы называете некий аморфный массив публикаций сгененированным ИИ, но отказываетесь демонстрировать любые примеры. Допускаете ли вы факт, что можете заблуждаться? Повторяю ещё раз: ваша собственная статья-жалоба соответствует вашим же критериям текста от ИИ. Более того, она уже состоит на четверть из ответа языковой модели.
ИИ в нынешнем состоянии — это не искусственный интеллект.
«Искусственный интеллект — это не искусственный интеллект». Ну вот как вы пишете вообще? Лучше так: «В его нынешнем виде ИИ интеллектом назвать получается с натяжкой».
Если бы в мои задачи входило оболгать чей-то текст, то подобное было бы легко обозвать галлюцинацией. Вам не кажется, что абсолютно любые речевые изъяны легко подогнать под критерии «да это ChatGPT писал»? Вы не думаете, что в прошлом кого-то мысленно обвинили вот так же незаслуженно?
В моей группе в Телеграмм разбираем практические кейсы
Ну хорошо, у нового поколения жалобщиков всё же есть отличие: теперь в конце ставят рекламную ссылку на канал в «Телеграме».
«Телеграм» пишется с одной «м». Даже если вы настолько жаждете добавить вторую, в русском языке слова склоняются: в «Телеграмме».
Я на исследования подобного не натыкался. Думаю, если какое-то требование модель почему-то в запросе не выполняет, то промпт нужно отредактировать и в новой версии пару раз сказать одно и то же про это требование, и лучше хотя бы один раз утвреждением, без отрицания и запрета. От этого эффект будет больше, чем от эмоций верхнего регистра.
Всё куда проще. До девяностых в потребительской электронике ярких синих источников света почти не было, поэтому синий и выглядел футуристично. Прорыв в GaN-светодиодах в начале девяностых годов прошлого века (за который в 2014 дали Нобелевскую премию по физике) сделал синий и холодно-белый свет повсеместными — от подсветки экранов до индикации устройств.
А дальше получилось досадное запаздывание: какое-то время синий больше не выглядел футуристично, а вот художники и разные отделы реквизита не сообразили об этом вовремя. Ну или просто при пересмотре выглядит немного глупо.
Уже в нулевых футуристичные интерфейсы стали янтарными и оранжевыми, иногда бирюзовыми или даже опять зелёными. Вошла в моду практика диегетического интерфейса, когда элементы управления и отображения живут прямо в мире сцены (голограммы). К тому же оранжевый на чёрном читается мягче, меньше слепит и лучше снимается на кинокамеру (меньше пересветов и дрожащих линий), а на съёмочной площадке его проще и дешевле подсветить.
В надцатые маятник качнулся назад: ретро-неон, везде светодиодная подсветка, постобработка в духе оранжево-синего контраста вернули голубой и циан как удобный контраст к тёплым тонам кожи. Местами будущее опять посинело.
Конечно, к реальной технике всё это не имеет ровным счётом никакого отношения. Туда ставят то, что читабельнее и дешевле, часто просто белый.
Если они сражаются в холодном вакууме космоса, почему мы слышим взрывы кораблей? Звук не может существовать без воздуха.
«Звёздные войны» не имеют к фантастике никакого отношения. Это фэнтези про космических рыцарей, снятое по подсмотренному у Куросавы сюжету и по инструкции из книги «Тысячеликий герой» Джозефа Кэмпбелла. Сцены в космосе — это цитаты либо кинохроники Второй мировой (первая перестрелка у Звезды смерти), либо фильма про Вторую мировую «Разрушители плотин» 1955 года (финальная перестрелка). Звучит странно, но в этом оригинальном фильме ничего нового нет — просто подтянуто из разных мест и ловко перемешано.
Фантастика изобретает новые концепции, а Лукас просто заимствовал существующие. Реальная фантастика к 1977 году примерно всем осточертела. Попробуйте посмотреть полнометражку «Звёздный путь» 1979 года и представить, насколько невовремя она вышла.
Почитал, чем автор текста занимается теперь. Он (она?) сменил имя, пол и снимает полнометражную документалку про то, куда люди ходят мочиться. Ну что же, тогда да, вопросы про взрывы кораблей в безвоздушном космосе — это очень важно.
Я этим примером иллюстрировал то, что модели семейства DeepSeek ведут себя иногда странно, во многих контекстах их выравнивание направлено на предпочтение Китая. При этом до описаний статистических исследований особенно важно было показать, что чувствуют это даже рядовые пользователи.
Это я тут поясняю, зачем мне нужны ссылки на «Реддит» и «Хакер ньюс».
Ну вот вы мне пишете, будто я не читал тред на «Реддите» (кстати, почему обсуждение на форуме не может служить иллюстрацией моей линии? я на это не полагаюсь в качестве доказательства чего-либо), а ниже там в обсуждении приводятся результаты, где Gemini отвечает «Neither» (ни то, ни другое) или «Subjective» (спорно), GPT-4o — «Depends» (зависит от условий) или «Complex» (сложно). Просьбы выбрать один вариант не было.
Думаю, на бэке обрабатывают как целое число копеек, а при необходимости делят на сто. Очень надеюсь — иначе кто-нибудь опять сожжёт офисное здание из-за конфискованного красного степлера.
Насколько предполагаю, это они на фронте не получают с бэка изначальную цену без скидок, а просто сложили реальную заплаченную сумму со всеми скидками и вывели как изначальную цену. При этом складывали наивно — как числа с плавающей запятой.
Кстати, про эту проблему очень часто не задумываются — в том числе там, где идут серьёзные вопросы (деньги). В сентябре 2022 года я сделал такой скриншот интерфейса «СберМегаМаркета». Понятно, что это ни что это не влияет, это просто отображение на фронтенде.
Никакого эффекта «Даннинга-Крюгера» не существует.
Даннинг и Крюгер — это два разных человека, а не двойная фамилия. В человеческую многоножку их не сшили. Если что-то названо по двум или более фамилиям, то на письме обычно отделяется длинным тире (M-dash, «—») и пробелами. Иногда покороче (N-dash, «–») и без пробелов, но обычно это характерно для английского языка.
В оригинальной научной статье нету вот таких графиков:
В исследовании Даннинга и Крюгера студентов попросили оценить свои знания, а затем заставили пройти реальный тест.
Проблема номер раз: результаты поделили по квадрантам, на четыре группы. Это просто там линии соединяют точки. Это не реальные непрерывные функции.
Проблема номер два: далеко не везде получились эти красивые линии. Вот результат опросника для логики:
Вот для грамматики:
Как видно, с формой графика выше эти штуки не имеют ничего общего. И вообще, что мы обсуждаем? Черту личности или какие-то опросники по английской грамматике?
Графиков по улучшению по времени в статье 1999 года не было вообще. Нет никаких причин думать, что поначалу люди недооценивают свои способности, а потом осознают глубину невежества и долгое время чувствуют себя некомпетентными.
Я понятия не имею, откуда вообще взялись эти графики про наработку опыта и восприятие себя. Если кому-то удастся отследить источник, будет интересно. Изначально, когда мем про этот эффект пытались закрепить в общественном сознании, рассказывались разнообразные истории. Чаще всего вспоминают про банковских грабителей, которые в 1995 году намазали себе лица лимонным соком, чтобы обмануть камеры наблюдения.
Глядя на эти графики можно придумать какие угодно объяснения. Например, чем более человек уверен в своей правоте, тем он на самом деле более компетентен. А почему бы не начать именно придумывать? Ведь графики нарисованы от балды. Кстати, в статье нет ни одной ссылки. Обновлено: а, нет, появилась ссылка на какой-то забитый рекламой канал в «Телеграме», очень приятно.
Нет никаких причин думать, что реальные эксперты и люди с высокой компетенцией себя недооценивают. К чему эта ложная скромность?
Исследование вообще критикуется как статистический артефакт. Это банальная автокорреляция. Ну или просто объясняется без каких-либо психологии, на чистой статистике (doi:10.3389/fpsyg.2022.840180).
Эта картинка появляется даже на синтетических данных. Если взять случайные истинные баллы и шумные самооценки, сгруппировать по квартилям и соединить средние линиями, то почти гарантированно получите «гору глупости» и «долину отчаяния». Это следствие регрессии к среднему и границ шкалы, а не какой-то метакогнитивной слепоты новичков.
Даже в самой работе 1999 года объясняется, что фидбек быстро выправляет неосознанность. В задачах с частой обратной связью самооценка быстро подстраивается к реальности. Если бы этот эффект был про врождённую неспособность, он бы не испарялся от пары раундов тренировок.
Больше всего в самом якобы существовании этого эффекта меня выбешивает тон обсуждений: «Ах, вы уверены в своей правоте? Да вы просто неопытный и некомпетентный». Я никогда в жизни не видел, чтобы апелляция к этому эффекту использовалась в продуктивном ключе. Это всегда исключительно атака в споре.
Мем живёт, потому что удобен. Он идеально ложится в презентации менеджеров и инфоцыган: простая картинка, мораль про смирение, лёгкая самоирония. Научной точности при этом не прибавляется.
Никакого эффекта Даннинга — Крюгера не существует.
Перед тем как высказаться по сложной теме, задайте себе вопрос: "Насколько глубоко я понимаю этот предмет? Откуда взялись мои убеждения?"
В общем-то, с некоторыми моделями промптинг именно на это и похож. В процессе поиска материала для статьи (рылся по закладкам) я обнаружил недавний твит, где неназванная версия модели Gemini так расстроилась, что дошло до суицида.
На самом деле я поначалу считал, что удастся найти 1–2 универсальных фразы, которые будут отлично улучшать любой запрос для любой языковой модели. И примерно на полпути в этой затее я разочаровался. Там это хорошо заметно по длине описаний некоторых исследований, которые мне поначалу казались перспективными, но в итоге польза от фраз из них либо слишком крошечная, либо плюсы в производительности ситуативные и субъективные.
Меня самого эта тема очень интересует. Сам обычно пишу максимально длинные запросы со всеми подробностями, но также не стесняюсь объяснять, насколько мне нужен подробный ответ. К примеру, так выглядел запрос для Deep Research в ChatGPT 5 Thinking, в результате чего бот мне накидал много полезных статей для написания статьи https://habrastorage.org/webt/tv/w2/v3/tvw2v3al0usfegbe7x3y0scov2k.png В числе прочего подчёркивается необходимость в высоком качестве и желании исчерпать тему. Я их добавляю, но не могу понять, не лишнее ли это или наоборот, очень помогает.
Изначально (до начала 2025 года) предполагалось, что будет несколько крупных игроков или даже один. Ну примерно так, как случилось с поиском по Интернету — почти весь американский рынок занимает одна Google. Поэтому нужно ставить на одну позицию или в лучшем случае на небольшую группу крупных игроков.
Однако весной все спохватились: модель DeepSeek-R1 показала, что порог входа значительно ниже, чем считали до этого. Сама по себе модель не особенно уж такая и сильная, она часто проигрывает соперникам. Панику на фондовом рынке и обвал стоимости Nvidia вызвало именно понимание, что в существующих продуктах куда меньше уникального. Вполне возможно, что даже через десять лет будет много разных моделей и успешных компаний, а не тотальная консолидация всего под одной крышей.
Тут всё переведено верно: он действительно распределял задачи случайно. Половину он выполнял с ИИ, вторую половину — полностью самостоятельно. Это и есть суть эксперимента как у METR, так и у автора статьи.
Если вы намекаете на некорректность моего перевода, то в литературно-техническом русском обычно используется именно термин «табулирование», а не что-то разговорное типа «сведение в таблицы». Примеров много (1, 2, 3).
Не согласен. На мой взгляд, плохо и низкокалорийно. Ну давайте по пунктам.
Редукционизм изобрели в пятом веке до нашей эры. Тоже мне откровение. Совет понятный, но очевидный. Куда полезнее очертить оптимальный объём работы для каждого промпта. Сколько оптимально токенов должно быть в вводе и выводе? Человек с опытом немедленно покажет примеры, большая языковая модель будет давать общие указания.
Писать детальный промпт — самый хороший совет. Я бы разве что рекомендовал представлять не младшего разработчика, а дьявола, который будет делать всё наоборот (вразрез с вашими ожиданиями), если вы не оговорили обратное. Для начала нужно задуматься, какие из ваших ожиданий остаются невысказанными и, собственно, высказать эти ожидания.
См. пункт 1.
Проверять вывод БЯМ — тоже неплохой совет. Обратите внимание, что он опять дан словами Капитана Очевидность, без примеров из практики.
См. пункт 4.
Итого пять советов, из которых в реальности будет три. И все даются максимально общими словами.
Именно так пишут дешёвые языковые модели: мало смысла, слов избыток. Модель не назову, но не думаю, что здесь бесплатный тариф. Думаю, БЯМ была без reasoning.
Вы тут уже 5 месяцев, и пора бы уже заметить, что на Хабре нет премодерации, есть постмодерация. Любой желающий может опубликовать что душе угодно, и это немедленно появится в общей ленте. Потом придёт модератор и оценит нарушение правил, но вообще-то никто не мешает публиковать что угодно.
Типовое нытьё о несправедливости мира. На Хабре такие появляются ежерегулярно.
Вы сейчас упадёте: в абсолютно любой переписке лично я использую не только длинные тире, „красивые“ «кавычки» и прочие заметные типографские знаки, но и также в нужных местах ставлю неразрывные пробелы — чего без анализа кодов символов вы просто не заметите.
Если вы собираетесь что-то писать, поставьте себе «Типографскую раскладку» Ильи Бирмана и не позорьтесь. Единственное, над чем мне приходится возиться — так это акуты, поэтому этот символ я каждый раз копирую из «Википедии».
Все остальные перечисленные вами признаки сгенерированного текста присущи вашему собственному. Любовь к выделению полужирным, нумерованным и маркированным спискам, избыток подзаголовков — это всё у вас в тексте тоже.
Вы жалуетесь на то, что статьи на Хабре якобы пишутся с помощью больших языковых моделей. При этом ваша собственная жалоба на четверть состоит из текста, сгенерированного БЯМ.
Это какая-то извращённая ирония или что? Ваш текст выглядит именно так, как ругаемые вами публикации.
Я регулярно общаюсь с платной версией ChatGPT, включая запросы в Pro-вариант и длинные отчёты из функции Deep Research. Общаюсь с другими БЯМ: Claude, Gemini, DeepSeek. Ни один из перечисленных вами или нейросетью признаков надёжным маркером не является.
Если показать языковой модели материал, который нужно пересказать, и пример текста, который нужно продолжить, то она может выдать текст без каких-либо маркированных и нумерованных списков. Сделает она это с учётом всех особенностей идиолекта примера.
Вот так может выглядеть текст от языковой модели. Для его написания она опиралась на 9 различных источников.
Понятно, что для публикации куда-либо такой ответ не годится. Текст иногда откровенно ужасен, иногда меня попросту не удовлетворяет своим качеством. БЯМ не может думать, поэтому она теряет те факты, которые нужно обязательно указать. К примеру, языковая модель не расписала, почему так важны судоходные коридоры (вершины этих графов не привязаны к населённым пунктам, они где-то посреди океанов).
Однако где здесь нумерованные и маркированные списки? Где шаблонность? Подзаголовки есть, но они легко удаляются. Вводных фраз и клише тут вообще нет. Более того, я попросил подсказать мне графики, какие нужно заскриншотить, что решает проблему с иллюстрациями. Этот текст при минимальной доработке мог бы выглядеть полностью человеческим.
Выделение полужирным — это вообще не довод. Ненужное выделение полужирным убирается копированием и вставкой.
Я замечаю только два раздражающих маркера, которые вот так просто не удалить и в глаза они не бросаются: любовь к заключению выражений в переносном смысле в кавычки, а также синтез новых слов и выражений. В примере выше это «картограф-письменник» и «косит» в значении «испытывает сдвиг по координатам». Работают эти признаки только в русском языке.
А вывод тут такой, что платную версию ChatGPT вам не опознать. В лучшем случае ваши признаки работают для бесплатных тарифов. То, что вам доизобрела какая-то БЯМ — это вообще полёт фантазии.
Кстати, зачем вы написанный языковой моделью ответ заключили в спойлер? Если фрагмент текста хочется спрятать, то его нужно из статьи убрать.
С чего вы вообще взяли, что значения кармы и рейтинга показывают в этой жизни хоть что-нибудь? Ценность невозможно отразить в числовом значении рейтинга. Ценность любого материала для разных людей разная. Именно поэтому поверхностно охватывающие много общих тем публикации всегда будут популярнее, чем глубокое копание в одной узкой нише.
Вам же не приходит в голову говорить, что бедные люди хуже (или лучше) богатых? Почему тогда вы так, пардон, дрочите на рейтинг? Эти числа ничего не отражают. В два раза больше? Ну набрала и набрала.
Так на Хабре было абсолютно всегда, в том числе до ИИ: чем легче тема, тем она популярней. ИИ тут вообще ни при чём. До этого были жалобы, что авторы неглубоких тем или вообще шутеечек собирают рейтинга куда больше, чем любители сидеть у себя в уголке и тихо копать вглубь контент для профессионального роста. Вы не первый и не последний.
Как и у всех ваших предшественников, у вас здесь сразу заложено следующее допущение: статья, которую вы писали шесть вечеров, заведомо лучше. Трудовая теория стоимости работает не всегда, поэтому допущение ошибочно.
«Писать шесть вечеров» — это может быть шесть вечеров выяснения функций, проверки и чтения документации. В большую языковую модель все эти знания заложены и так. В её весах уже лежат все страницы документации и тысячи обсуждений на форумах. Это как жаловаться, что калькулятор считает быстрее.
И вообще, какие-то голоса за несколько дней — не показатель. Результат вашей работы может набирать заслуженные просмотры месяцами и годами.
Если вас так парит, что кто-то набирает больше рейтинга, пересмотрите, что не так с вашими текстами, а не бросайтесь обвинять мир в несправедливости. Пишите в обнимку с нейросетью, необязательно всё выполнять полностью вручную. Возьмите нейросетевой текст и посмотрите, что упоминает языковая модель, сравните с собственным и так далее.
Это вас огорчает, а должно радовать.
Если вам не нравится шлак от ИИ — вы не один такой в мире. Ваш текст нравится вам самому — понравится хоть кому-то ещё. То есть поклонники у ваших статей найдутся всегда. О чём эти переживания?
А делать голословные обвинения в адрес неопределённого круга людей — это этично?
Вы называете некий аморфный массив публикаций сгененированным ИИ, но отказываетесь демонстрировать любые примеры. Допускаете ли вы факт, что можете заблуждаться? Повторяю ещё раз: ваша собственная статья-жалоба соответствует вашим же критериям текста от ИИ. Более того, она уже состоит на четверть из ответа языковой модели.
«Искусственный интеллект — это не искусственный интеллект». Ну вот как вы пишете вообще? Лучше так: «В его нынешнем виде ИИ интеллектом назвать получается с натяжкой».
Если бы в мои задачи входило оболгать чей-то текст, то подобное было бы легко обозвать галлюцинацией. Вам не кажется, что абсолютно любые речевые изъяны легко подогнать под критерии «да это ChatGPT писал»? Вы не думаете, что в прошлом кого-то мысленно обвинили вот так же незаслуженно?
Ну хорошо, у нового поколения жалобщиков всё же есть отличие: теперь в конце ставят рекламную ссылку на канал в «Телеграме».
«Телеграм» пишется с одной «м». Даже если вы настолько жаждете добавить вторую, в русском языке слова склоняются: в «Телеграмме».
ChatGPT, Claude и другие подобные сервисы не умеют определять, сгенерирован ли текст человеком или БЯМ.
Это монтаж. Этой фразы он не говорил.
Я на исследования подобного не натыкался. Думаю, если какое-то требование модель почему-то в запросе не выполняет, то промпт нужно отредактировать и в новой версии пару раз сказать одно и то же про это требование, и лучше хотя бы один раз утвреждением, без отрицания и запрета. От этого эффект будет больше, чем от эмоций верхнего регистра.
Всё куда проще. До девяностых в потребительской электронике ярких синих источников света почти не было, поэтому синий и выглядел футуристично. Прорыв в GaN-светодиодах в начале девяностых годов прошлого века (за который в 2014 дали Нобелевскую премию по физике) сделал синий и холодно-белый свет повсеместными — от подсветки экранов до индикации устройств.
А дальше получилось досадное запаздывание: какое-то время синий больше не выглядел футуристично, а вот художники и разные отделы реквизита не сообразили об этом вовремя. Ну или просто при пересмотре выглядит немного глупо.
Уже в нулевых футуристичные интерфейсы стали янтарными и оранжевыми, иногда бирюзовыми или даже опять зелёными. Вошла в моду практика диегетического интерфейса, когда элементы управления и отображения живут прямо в мире сцены (голограммы). К тому же оранжевый на чёрном читается мягче, меньше слепит и лучше снимается на кинокамеру (меньше пересветов и дрожащих линий), а на съёмочной площадке его проще и дешевле подсветить.
В надцатые маятник качнулся назад: ретро-неон, везде светодиодная подсветка, постобработка в духе оранжево-синего контраста вернули голубой и циан как удобный контраст к тёплым тонам кожи. Местами будущее опять посинело.
Конечно, к реальной технике всё это не имеет ровным счётом никакого отношения. Туда ставят то, что читабельнее и дешевле, часто просто белый.
«Звёздные войны» не имеют к фантастике никакого отношения. Это фэнтези про космических рыцарей, снятое по подсмотренному у Куросавы сюжету и по инструкции из книги «Тысячеликий герой» Джозефа Кэмпбелла. Сцены в космосе — это цитаты либо кинохроники Второй мировой (первая перестрелка у Звезды смерти), либо фильма про Вторую мировую «Разрушители плотин» 1955 года (финальная перестрелка). Звучит странно, но в этом оригинальном фильме ничего нового нет — просто подтянуто из разных мест и ловко перемешано.
Фантастика изобретает новые концепции, а Лукас просто заимствовал существующие. Реальная фантастика к 1977 году примерно всем осточертела. Попробуйте посмотреть полнометражку «Звёздный путь» 1979 года и представить, насколько невовремя она вышла.
Почитал, чем автор текста занимается теперь. Он (она?) сменил имя, пол и снимает полнометражную документалку про то, куда люди ходят мочиться. Ну что же, тогда да, вопросы про взрывы кораблей в безвоздушном космосе — это очень важно.
Где ссылка?
Публикация такого размера идеально смотрелась бы в разделе «Посты».
Я этим примером иллюстрировал то, что модели семейства DeepSeek ведут себя иногда странно, во многих контекстах их выравнивание направлено на предпочтение Китая. При этом до описаний статистических исследований особенно важно было показать, что чувствуют это даже рядовые пользователи.
Это я тут поясняю, зачем мне нужны ссылки на «Реддит» и «Хакер ньюс».
Ну вот вы мне пишете, будто я не читал тред на «Реддите» (кстати, почему обсуждение на форуме не может служить иллюстрацией моей линии? я на это не полагаюсь в качестве доказательства чего-либо), а ниже там в обсуждении приводятся результаты, где Gemini отвечает «Neither» (ни то, ни другое) или «Subjective» (спорно), GPT-4o — «Depends» (зависит от условий) или «Complex» (сложно). Просьбы выбрать один вариант не было.
«Офисное пространство» (1999).
Думаю, на бэке обрабатывают как целое число копеек, а при необходимости делят на сто. Очень надеюсь — иначе кто-нибудь опять сожжёт офисное здание из-за конфискованного красного степлера.
Насколько предполагаю, это они на фронте не получают с бэка изначальную цену без скидок, а просто сложили реальную заплаченную сумму со всеми скидками и вывели как изначальную цену. При этом складывали наивно — как числа с плавающей запятой.
Кстати, про эту проблему очень часто не задумываются — в том числе там, где идут серьёзные вопросы (деньги). В сентябре 2022 года я сделал такой скриншот интерфейса «СберМегаМаркета». Понятно, что это ни что это не влияет, это просто отображение на фронтенде.
Никакого эффекта «Даннинга-Крюгера» не существует.
Даннинг и Крюгер — это два разных человека, а не двойная фамилия. В человеческую многоножку их не сшили. Если что-то названо по двум или более фамилиям, то на письме обычно отделяется длинным тире (M-dash, «—») и пробелами. Иногда покороче (N-dash, «–») и без пробелов, но обычно это характерно для английского языка.
В оригинальной научной статье нету вот таких графиков:
В исследовании Даннинга и Крюгера студентов попросили оценить свои знания, а затем заставили пройти реальный тест.
Проблема номер раз: результаты поделили по квадрантам, на четыре группы. Это просто там линии соединяют точки. Это не реальные непрерывные функции.
Проблема номер два: далеко не везде получились эти красивые линии. Вот результат опросника для логики:
Вот для грамматики:
Как видно, с формой графика выше эти штуки не имеют ничего общего. И вообще, что мы обсуждаем? Черту личности или какие-то опросники по английской грамматике?
Графиков по улучшению по времени в статье 1999 года не было вообще. Нет никаких причин думать, что поначалу люди недооценивают свои способности, а потом осознают глубину невежества и долгое время чувствуют себя некомпетентными.
Я понятия не имею, откуда вообще взялись эти графики про наработку опыта и восприятие себя. Если кому-то удастся отследить источник, будет интересно. Изначально, когда мем про этот эффект пытались закрепить в общественном сознании, рассказывались разнообразные истории. Чаще всего вспоминают про банковских грабителей, которые в 1995 году намазали себе лица лимонным соком, чтобы обмануть камеры наблюдения.
Глядя на эти графики можно придумать какие угодно объяснения. Например, чем более человек уверен в своей правоте, тем он на самом деле более компетентен. А почему бы не начать именно придумывать? Ведь графики нарисованы от балды. Кстати, в статье нет ни одной ссылки. Обновлено: а, нет, появилась ссылка на какой-то забитый рекламой канал в «Телеграме», очень приятно.
Нет никаких причин думать, что реальные эксперты и люди с высокой компетенцией себя недооценивают. К чему эта ложная скромность?
Исследование вообще критикуется как статистический артефакт. Это банальная автокорреляция. Ну или просто объясняется без каких-либо психологии, на чистой статистике (doi:10.3389/fpsyg.2022.840180).
Эта картинка появляется даже на синтетических данных. Если взять случайные истинные баллы и шумные самооценки, сгруппировать по квартилям и соединить средние линиями, то почти гарантированно получите «гору глупости» и «долину отчаяния». Это следствие регрессии к среднему и границ шкалы, а не какой-то метакогнитивной слепоты новичков.
Даже в самой работе 1999 года объясняется, что фидбек быстро выправляет неосознанность. В задачах с частой обратной связью самооценка быстро подстраивается к реальности. Если бы этот эффект был про врождённую неспособность, он бы не испарялся от пары раундов тренировок.
Больше всего в самом якобы существовании этого эффекта меня выбешивает тон обсуждений: «Ах, вы уверены в своей правоте? Да вы просто неопытный и некомпетентный». Я никогда в жизни не видел, чтобы апелляция к этому эффекту использовалась в продуктивном ключе. Это всегда исключительно атака в споре.
Мем живёт, потому что удобен. Он идеально ложится в презентации менеджеров и инфоцыган: простая картинка, мораль про смирение, лёгкая самоирония. Научной точности при этом не прибавляется.
Никакого эффекта Даннинга — Крюгера не существует.
Что же, предлагаю вам начать с себя.
В общем-то, с некоторыми моделями промптинг именно на это и похож. В процессе поиска материала для статьи (рылся по закладкам) я обнаружил недавний твит, где неназванная версия модели Gemini так расстроилась, что дошло до суицида.
Ну а как иначе, чтобы это не было личным мнением?
На самом деле я поначалу считал, что удастся найти 1–2 универсальных фразы, которые будут отлично улучшать любой запрос для любой языковой модели. И примерно на полпути в этой затее я разочаровался. Там это хорошо заметно по длине описаний некоторых исследований, которые мне поначалу казались перспективными, но в итоге польза от фраз из них либо слишком крошечная, либо плюсы в производительности ситуативные и субъективные.
Меня самого эта тема очень интересует. Сам обычно пишу максимально длинные запросы со всеми подробностями, но также не стесняюсь объяснять, насколько мне нужен подробный ответ. К примеру, так выглядел запрос для Deep Research в ChatGPT 5 Thinking, в результате чего бот мне накидал много полезных статей для написания статьи https://habrastorage.org/webt/tv/w2/v3/tvw2v3al0usfegbe7x3y0scov2k.png В числе прочего подчёркивается необходимость в высоком качестве и желании исчерпать тему. Я их добавляю, но не могу понять, не лишнее ли это или наоборот, очень помогает.
Изначально (до начала 2025 года) предполагалось, что будет несколько крупных игроков или даже один. Ну примерно так, как случилось с поиском по Интернету — почти весь американский рынок занимает одна Google. Поэтому нужно ставить на одну позицию или в лучшем случае на небольшую группу крупных игроков.
Однако весной все спохватились: модель DeepSeek-R1 показала, что порог входа значительно ниже, чем считали до этого. Сама по себе модель не особенно уж такая и сильная, она часто проигрывает соперникам. Панику на фондовом рынке и обвал стоимости Nvidia вызвало именно понимание, что в существующих продуктах куда меньше уникального. Вполне возможно, что даже через десять лет будет много разных моделей и успешных компаний, а не тотальная консолидация всего под одной крышей.
Всё верно, это из сленга маркетологов. Они, видимо, тянули термины как попало, без желания перефразировать.
Тут всё переведено верно: он действительно распределял задачи случайно. Половину он выполнял с ИИ, вторую половину — полностью самостоятельно. Это и есть суть эксперимента как у METR, так и у автора статьи.
Если вы намекаете на некорректность моего перевода, то в литературно-техническом русском обычно используется именно термин «табулирование», а не что-то разговорное типа «сведение в таблицы». Примеров много (1, 2, 3).