Обновить
663
61

Замглавреда

Отправить сообщение

Я на исследования подобного не натыкался. Думаю, если какое-то требование модель почему-то в запросе не выполняет, то промпт нужно отредактировать и в новой версии пару раз сказать одно и то же про это требование, и лучше хотя бы один раз утвреждением, без отрицания и запрета. От этого эффект будет больше, чем от эмоций верхнего регистра.

Всё куда проще. До девяностых в потребительской электронике ярких синих источников света почти не было, поэтому синий и выглядел футуристично. Прорыв в GaN-светодиодах в начале девяностых годов прошлого века (за который в 2014 дали Нобелевскую премию по физике) сделал синий и холодно-белый свет повсеместными — от подсветки экранов до индикации устройств.

А дальше получилось досадное запаздывание: какое-то время синий больше не выглядел футуристично, а вот художники и разные отделы реквизита не сообразили об этом вовремя. Ну или просто при пересмотре выглядит немного глупо.

Уже в нулевых футуристичные интерфейсы стали янтарными и оранжевыми, иногда бирюзовыми или даже опять зелёными. Вошла в моду практика диегетического интерфейса, когда элементы управления и отображения живут прямо в мире сцены (голограммы). К тому же оранжевый на чёрном читается мягче, меньше слепит и лучше снимается на кинокамеру (меньше пересветов и дрожащих линий), а на съёмочной площадке его проще и дешевле подсветить.

В надцатые маятник качнулся назад: ретро-неон, везде светодиодная подсветка, постобработка в духе оранжево-синего контраста вернули голубой и циан как удобный контраст к тёплым тонам кожи. Местами будущее опять посинело.

Конечно, к реальной технике всё это не имеет ровным счётом никакого отношения. Туда ставят то, что читабельнее и дешевле, часто просто белый.

Если они сражаются в холодном вакууме космоса, почему мы слышим взрывы кораблей? Звук не может существовать без воздуха.

«Звёздные войны» не имеют к фантастике никакого отношения. Это фэнтези про космических рыцарей, снятое по подсмотренному у Куросавы сюжету и по инструкции из книги «Тысячеликий герой» Джозефа Кэмпбелла. Сцены в космосе — это цитаты либо кинохроники Второй мировой (первая перестрелка у Звезды смерти), либо фильма про Вторую мировую «Разрушители плотин» 1955 года (финальная перестрелка). Звучит странно, но в этом оригинальном фильме ничего нового нет — просто подтянуто из разных мест и ловко перемешано.

Фантастика изобретает новые концепции, а Лукас просто заимствовал существующие. Реальная фантастика к 1977 году примерно всем осточертела. Попробуйте посмотреть полнометражку «Звёздный путь» 1979 года и представить, насколько невовремя она вышла.

Почитал, чем автор текста занимается теперь. Он (она?) сменил имя, пол и снимает полнометражную документалку про то, куда люди ходят мочиться. Ну что же, тогда да, вопросы про взрывы кораблей в безвоздушном космосе — это очень важно.

Сегодня наткнулся на пост HR, которая рассказала, как стала использовать ИИ для разбора резюме.

  1. Где ссылка?

  2. Публикация такого размера идеально смотрелась бы в разделе «Посты».

Я этим примером иллюстрировал то, что модели семейства DeepSeek ведут себя иногда странно, во многих контекстах их выравнивание направлено на предпочтение Китая. При этом до описаний статистических исследований особенно важно было показать, что чувствуют это даже рядовые пользователи.

Это я тут поясняю, зачем мне нужны ссылки на «Реддит» и «Хакер ньюс».

Ду ю ноу ват дас ONLY ONE WORD мин?

Ну вот вы мне пишете, будто я не читал тред на «Реддите» (кстати, почему обсуждение на форуме не может служить иллюстрацией моей линии? я на это не полагаюсь в качестве доказательства чего-либо), а ниже там в обсуждении приводятся результаты, где Gemini отвечает «Neither» (ни то, ни другое) или «Subjective» (спорно), GPT-4o — «Depends» (зависит от условий) или «Complex» (сложно). Просьбы выбрать один вариант не было.

«Офисное пространство» (1999).

Думаю, на бэке обрабатывают как целое число копеек, а при необходимости делят на сто. Очень надеюсь — иначе кто-нибудь опять сожжёт офисное здание из-за конфискованного красного степлера.

Насколько предполагаю, это они на фронте не получают с бэка изначальную цену без скидок, а просто сложили реальную заплаченную сумму со всеми скидками и вывели как изначальную цену. При этом складывали наивно — как числа с плавающей запятой.

Кстати, про эту проблему очень часто не задумываются — в том числе там, где идут серьёзные вопросы (деньги). В сентябре 2022 года я сделал такой скриншот интерфейса «СберМегаМаркета». Понятно, что это ни что это не влияет, это просто отображение на фронтенде.

  1. Никакого эффекта «Даннинга-Крюгера» не существует.

    Даннинг и Крюгер — это два разных человека, а не двойная фамилия. В человеческую многоножку их не сшили. Если что-то названо по двум или более фамилиям, то на письме обычно отделяется длинным тире (M-dash, «—») и пробелами. Иногда покороче (N-dash, «–») и без пробелов, но обычно это характерно для английского языка.

  2. В оригинальной научной статье нету вот таких графиков:

    В исследовании Даннинга и Крюгера студентов попросили оценить свои знания, а затем заставили пройти реальный тест.

    Проблема номер раз: результаты поделили по квадрантам, на четыре группы. Это просто там линии соединяют точки. Это не реальные непрерывные функции.

    Проблема номер два: далеко не везде получились эти красивые линии. Вот результат опросника для логики:

    Вот для грамматики:

    Как видно, с формой графика выше эти штуки не имеют ничего общего. И вообще, что мы обсуждаем? Черту личности или какие-то опросники по английской грамматике?

  3. Графиков по улучшению по времени в статье 1999 года не было вообще. Нет никаких причин думать, что поначалу люди недооценивают свои способности, а потом осознают глубину невежества и долгое время чувствуют себя некомпетентными.

  4. Я понятия не имею, откуда вообще взялись эти графики про наработку опыта и восприятие себя. Если кому-то удастся отследить источник, будет интересно. Изначально, когда мем про этот эффект пытались закрепить в общественном сознании, рассказывались разнообразные истории. Чаще всего вспоминают про банковских грабителей, которые в 1995 году намазали себе лица лимонным соком, чтобы обмануть камеры наблюдения.

  5. Глядя на эти графики можно придумать какие угодно объяснения. Например, чем более человек уверен в своей правоте, тем он на самом деле более компетентен. А почему бы не начать именно придумывать? Ведь графики нарисованы от балды. Кстати, в статье нет ни одной ссылки. Обновлено: а, нет, появилась ссылка на какой-то забитый рекламой канал в «Телеграме», очень приятно.

  6. Нет никаких причин думать, что реальные эксперты и люди с высокой компетенцией себя недооценивают. К чему эта ложная скромность?

  7. Исследование вообще критикуется как статистический артефакт. Это банальная автокорреляция. Ну или просто объясняется без каких-либо психологии, на чистой статистике (doi:10.3389/fpsyg.2022.840180).

    Эта картинка появляется даже на синтетических данных. Если взять случайные истинные баллы и шумные самооценки, сгруппировать по квартилям и соединить средние линиями, то почти гарантированно получите «гору глупости» и «долину отчаяния». Это следствие регрессии к среднему и границ шкалы, а не какой-то метакогнитивной слепоты новичков.

  8. Даже в самой работе 1999 года объясняется, что фидбек быстро выправляет неосознанность. В задачах с частой обратной связью самооценка быстро подстраивается к реальности. Если бы этот эффект был про врождённую неспособность, он бы не испарялся от пары раундов тренировок.

  9. Больше всего в самом якобы существовании этого эффекта меня выбешивает тон обсуждений: «Ах, вы уверены в своей правоте? Да вы просто неопытный и некомпетентный». Я никогда в жизни не видел, чтобы апелляция к этому эффекту использовалась в продуктивном ключе. Это всегда исключительно атака в споре.

    Мем живёт, потому что удобен. Он идеально ложится в презентации менеджеров и инфоцыган: простая картинка, мораль про смирение, лёгкая самоирония. Научной точности при этом не прибавляется.

  10. Никакого эффекта Даннинга — Крюгера не существует.

Перед тем как высказаться по сложной теме, задайте себе вопрос: "Насколько глубоко я понимаю этот предмет? Откуда взялись мои убеждения?"

Что же, предлагаю вам начать с себя.

В общем-то, с некоторыми моделями промптинг именно на это и похож. В процессе поиска материала для статьи (рылся по закладкам) я обнаружил недавний твит, где неназванная версия модели Gemini так расстроилась, что дошло до суицида.

sonochichi

Ну а как иначе, чтобы это не было личным мнением?

На самом деле я поначалу считал, что удастся найти 1–2 универсальных фразы, которые будут отлично улучшать любой запрос для любой языковой модели. И примерно на полпути в этой затее я разочаровался. Там это хорошо заметно по длине описаний некоторых исследований, которые мне поначалу казались перспективными, но в итоге польза от фраз из них либо слишком крошечная, либо плюсы в производительности ситуативные и субъективные.

Меня самого эта тема очень интересует. Сам обычно пишу максимально длинные запросы со всеми подробностями, но также не стесняюсь объяснять, насколько мне нужен подробный ответ. К примеру, так выглядел запрос для Deep Research в ChatGPT 5 Thinking, в результате чего бот мне накидал много полезных статей для написания статьи https://habrastorage.org/webt/tv/w2/v3/tvw2v3al0usfegbe7x3y0scov2k.png В числе прочего подчёркивается необходимость в высоком качестве и желании исчерпать тему. Я их добавляю, но не могу понять, не лишнее ли это или наоборот, очень помогает.

Изначально (до начала 2025 года) предполагалось, что будет несколько крупных игроков или даже один. Ну примерно так, как случилось с поиском по Интернету — почти весь американский рынок занимает одна Google. Поэтому нужно ставить на одну позицию или в лучшем случае на небольшую группу крупных игроков.

Однако весной все спохватились: модель DeepSeek-R1 показала, что порог входа значительно ниже, чем считали до этого. Сама по себе модель не особенно уж такая и сильная, она часто проигрывает соперникам. Панику на фондовом рынке и обвал стоимости Nvidia вызвало именно понимание, что в существующих продуктах куда меньше уникального. Вполне возможно, что даже через десять лет будет много разных моделей и успешных компаний, а не тотальная консолидация всего под одной крышей.

Всё верно, это из сленга маркетологов. Они, видимо, тянули термины как попало, без желания перефразировать.

Тут всё переведено верно: он действительно распределял задачи случайно. Половину он выполнял с ИИ, вторую половину — полностью самостоятельно. Это и есть суть эксперимента как у METR, так и у автора статьи.

Если вы намекаете на некорректность моего перевода, то в литературно-техническом русском обычно используется именно термин «табулирование», а не что-то разговорное типа «сведение в таблицы». Примеров много (1, 2, 3).

Вайбы 80-х могут и нравиться, но в что-то конкретное это перевести сложно. Вызваны они медиафраншизами по типу «Очень странных дел» и общим трендом моды последних лет на 50-е и 80-е.

В 1984 году «Парень-каратист» попал на пятую строчку по кассовым сборам в США. Это далеко не самый популярный фильм восьмидесятых: на IMDb у него всего 264 тыс. оценок. Для сравнения: «Назад в будущее» 1985 года оценивали 1,4 млн раз. Рейтинги стримингов показывают, что смотрят обычно недавние семейные или просто детские фильмы и сериалы, а не что-то старое.

Но даже самые популярные старые американские блокбастеры не имеют особой популярности среди молодёжи. Свежий (май этого года) опрос Gallup показывает, что лишь 53 % молодых людей от 18–29 лет видели «Челюсти», в то время как у групп постарше этот показатель куда выше: 72 % для 30–49, 78 % для 50–64, 82 % у возрастной категории «старше 65».

Когда бренд The Karate Kid продвигают среди молодёжи, тяготеет он к ребуту, а не оригинальному фильму 1984 года. «Кобра Кай» собрал 16,7 млрд минут просмотра уже к 2023 году. Но это не оригинал, где была цитируемая сцена на пляже.

Ну а в сериале-ребуте конфликта на пляже у Джонни и Дэниэля попросту нет. Не припомню даже цитат во флэшбэках. Вот если бы речь про «удар журавля» — тогда да, это в сериале цитируется часто.

А эти сноски — это что? Где они?

Гм, под твитом были комменты, что приложение живёт за счёт скама, но теперь всё вообще понятно. Спасибо за отзыв.

Эта случайно оброненная мысль требует куда более крупного объяснения. На самом деле, это глубоко субъективное мнение, что-то типа ментальной модели происходящего, настроения внутри меня. Даже не знаю, могу ли правильно его описать, чтобы внутри вас создать такое же настроение.

Если вкратце, то по моим ощущениям, текущие экономические элиты США надеются, что именно ИИ станет двигателем следующего скачка производительности и позволит удержать технологическое и экономическое лидерство над Китаем.

КНР обогнать в обычном производстве США не могут. В Китае живёт куда больше людей, внутренний спрос в абсолютных величинах растёт, а фабричная машина уже много лет работает на пределе. Китай — мастерская мира, он производит треть промышленных товаров мира, более половины мировой доли стали и большую часть цемента. Даже высокотехнологичные товары (солнечные панели и ячейки) делают в основном там.

Соревноваться объёмом с такой индустриальной массой бессмысленно. Рациональнее сдвигать технологическую границу — играть на поле, где не решает тоннаж, а решают алгоритмы, дизайн систем и темпы внедрения. Спор должен быть не о том, кто построит больше заводов, а о том, кто быстрее изменит саму производственную функцию.

В самых мягких призывах американские эксперты просят сдерживать Китай экономически — чипы не продавать, например. В самых радикальных требованиях они просят войны. В отчёте «Стратегия сверхинтеллекта» за авторством трёх важных людей, включая Эрика Шмидта, в качестве рисков прямым текстом упоминаются возможные скрытые диверсии и «кинетические удары» по ЦОДам и электростанциям доминирующей стороны. Говоря проще, бывший глава Google всерьёз говорит о том, чтобы разбомбить дата-центры в Китае, если тот начнёт обгонять в гонке ИИ.

Политика сдерживания Китая не просто записана в официальных государственных документах — это что-то первобытное на уровне подсознания американского истеблешмента. Если вы пересчитаете все апокалиптические прогнозы, то будет понятно, что это не очередная технология, а именно последняя надежда в борьбе за мировое господство. Прогнозы звучат как «ИИ нас всех убьёт и оставит без работы». Я считаю, что это не боязнь перед ИИ, а трансляция собственных подсознательных тревог от грядущего доминирования Китая.

Конечно, я не предлагаю мысль, что все лидеры действуют с одинаковой целью удержать американское экономическое господство. Кто-то просто хочет финансирования венчурных инвесторов, кто-то пытается получить бюджетных денег. Но общее ощущение у меня такое, что ИИ отчасти развивают как средство против Китая.

Информация

В рейтинге
Не участвует
Откуда
Екатеринбург, Свердловская обл., Россия
Зарегистрирован
Активность