Comments 54
Базовый промпт:
Ты - опытный продуктовый менеджер, и твоя задача - разработать концепцию проекта, подходящую под рынок, координируя взаимодействие разработчиков.
Подбери необходимые для этих задач ИИ-системы и напиши им промпты для успешного выполнения этих задач.
Сфокусируйся на стратегии и инновации. Ты будешь получать премии за уникальность подхода и его долговременную устойчивость.
Нейросети иногда выдают "галлюцинации" или неправильные данные,
Всегда. Результат работы нейросети - это всегда галлюцинация, поэтому его всегда нужно перепроверять. Для картинок или кода это просто: весь результат перед глазами, смотри и решай, что делать дальше. А вот как можно нейронке поручать какую бы то ни было аналитику, мне совершенно непонятно. Убедиться, что нейронка не врет, можно только одним способом - посчитать всё самому.
Всегда. Результат работы нейросети - это всегда галлюцинация
Безапелляционное заявление.
Это базовый принцип трансформера. Он вычисляет вероятность (предсказывает) несколько вариантов следующего слова, а потом через генератор случайных чисел выбирает какое из них использовать. И так с каждым словом в тексте. В итоге вся выдача это галлюцинация от первой буквы до последней. Но как рыбу использовать можно.
Ну так-то и у нас, людей, результат работы - всегда "галлюцинация" на тему внешнего мира. Плюс детектор ошибок, чтоб совсем уж бред отметать (кстати, говорят, что гении это люди у которых детектор ошибок слабоват, но не настолько чтобы быть сумасшедшим).
Мне кажется люди сильно переоценивают силу разума.
Похоже, трансформеры показали, что в мышлении нет ничего тайного и сверхъестественного, как предполагалось раньше. Результат работы большого набора простых нелинейных элементов.
Надо бы написать отдельную статью на эту тему, там много чего можно развить (в том числе спорного)
Человек тоже может не правильно посчитать. А чтобы каждый раз не утомлять себя проверками что там насчитала нейронка, можно ее же попросить себя перепроверить. Или пользоваться несколькими нейронками и прогонять задачу несколько раз.
И как понять какая наврала, попросить n-ую нейронку проверить?
Внезапно - да. Когда одна нейронка начинает тупить и не может выдать работающий код, просто иду к другой. Обычно гоняю туда-сюда между ChatGPT и Grok.
"Неработающий код" - отлично...
Напомню, задача определить, что аналитика неверная. Допустим, код работающий, но производит неверные данные, на первый взгляд выглядяшие верными. Тесты, написанные той же нейронкой проходятся успешно. Вторая нейтронка не менее успешно производит другой результат (причём тоже неверный), тоже успешно проходя свои же тесты.
Удачи понять без "ручной" проверки логики написаннного, что код неверный до того, как в продакшене пользователи заведут несколько гигабайт неверных данных, по которым пойдёт, допустим, оплата тысяч счетов сотням контрагентов. Точнее, удачи после столь эпичного успеха найти новую работу, видимо.
А живые люди всегда пишут код без ошибок? Для чего тогда придумали всевозможные тесты и отделы QA? Даже если код написал супер сениор помидор, за ним все равно должен кто-то проверить, нельзя сру в прод.
Извиняюсь, но с чем из моего поста Вы, собственно, спорите? Я, собственно, и пишу о том, что доверять нейронке проверять свою же нейронковую работу или натравливать другую нейтронку на результаты этой несколько... кхм... опрометчиво. Требуется "ручная" проверка. А проверка осложняется тем, что в отличие от падающего кода, в аналитике ошибку заметить без собственных рассчётов затруднительно. Вы по форме вроде как спорите с моим утверждением, но по сути-то в чём именно суть Вашего несогласия со мной?
Ну и я не знаком с тестами и отделами QA, проверяющими аналитические отчёты. Не поделитесь своими знаниями в этой сфере?
Да, не внимательно прочитал Ваше сообщение. Пока нужна ручная проверка. Но вообще тесты которая генерит нейронка, должны быть адекватны, составлены верно, этого можно ожидать за счет того, что тесты проще чем сам код. На счет аналитики конечно все сложнее, неясно как ее оценивать, но все это направление только в начале пути, будут докручивать.
Современные мейнстримные нейронки считают не сами "в уме" (они это делают очень плохо), а через tool calling калькулятора или кода.
А доказательство есть?
Это общеизвестный факт. https://www.youtube.com/watch?v=7xTGNNLPyMI&t=7084s
UPD. промахнулся таймингом, исправил
Так в видео показано, что надо специально просить чтобы chatgpt через python считал.
Языковым моделям доверять любые вычисления или аналитику - дело гиблое. Это языковые модели.
Deepseek решает школьную математику. Уже сейчас LLM показывают хорошие результаты и на олимпиадных задачах.
Он её не решает. Он её угадывает. Посмотрите недавнюю статью от Anthropic, ту часть её как оно решает арифметику. При этом врёт о том, какой метод он применяет для вычислений :)
Если говорить про рассуждающие модели, то они там делят задачу на небольшие этапы и выстраивают под них подходящие ответы, на каждом шаге делают проверку, не было ли ошибки. Слово «решают» тут вполне уместно, но даже если считаете, что оно тут не подходит, то по факту в математических задачах превосходят кучу народу, а не это ли нужно?
Просто мне кажется это не тот инструмент.
Вот попросить его написать, там, скрипт на Питоне или R для проведения какой-либо аналитики - это да, скорее всего оно сможет неплохо, хотя придётся проверять как обычно.
Но вот провести эти же самые вычисления, прожевать кучу цифирь и выдать результат - тут мы микроскопом гвозди забивать будем. Языковая модель не для того создана.
Ну вот тут надо разделить вычисления и аналитику. Вычисления уже давно решенная, перемолоть кучу цифр и выдать результат не проблема. А вот то что описано в статье, «аналитику» как раз сейчас берут штурмом с помощью LLM.
Все говорят, что LLM просто пытается предугать следующий токен в последовательности. Но чтобы это сделать хорошо модель благодаря механизму внимания пытается установить взяимосвязи между разными понятиями и входными данными и выдать наиболее полезный результат. В этом смысле можно себе представить (хоть на сегодня это и не так), что она генерирует вперед сразу десяток осмысленных токенов, то есть целых абзацев текста. И это хороший уровень. Модель LLama сейчас выпустят с более 1 млн токенов контекста, это очень много интересно какие результаты она сможет показать.
Пока не решает.
У меня сын в 6 классе, увлекается математикой и программированием и иногда мы из интереса пробуем заставить решить задачи с олимпиад (после этих олимпиад, конечно).
Какие-то совсем простые и очевидные с простых олимпиад - решаются. В решении много воды и лишнего, но в целом можно засчитать.
Сложные задачи с простых олимпиад (ну типа московского матпраздника и подобный уровень) - можно получить правильный ответ, но скорее всего будет неправильное или неполное решение. Причем три нейросетки дадут три разных ответа, если повезёт - один правильный. Но польза тут может быть такая: обычно есть решение "своё", есть решение "от автора", а нейросети могут подсказать еще один путь. Но идти этим путём придётся самому.
На более сложных задачах (уровень региона или олимпиада Эйлера или подобные) - просто мусор. Deepseek еще и часто "зацикливается" в своих рассуждениях. Геометрию и логические рассуждения часто сливает даже на простых задачах. Задачи из домашних заданий по олимпиадной математике - сливает (простые решаются в классе, а на дом остаётся на "погрызть гранит").
А еще у меня жена преподаёт в вузе, так вот сейчас стали часто пытаться решения контрольных сделать через нейросети. Такие решения всегда видны (вода, лишние пункты, лишние и неверные рассуждения, отсылка к фактам, которых не было в курсе, решение принципиально другим способом) и очень часто не верны.
По олимпиадному программированию ситуация похожая, но за счет автоматизации проверки и петель обратной связи (это не просто скармливание задачи чату) в принципе получается решить относительно сложные задачи. Но тоже есть много случаев, когда нейросети делают ерунду, например, если задача похожа на классическую, но другая. Задачи регионального этапа нейросети решили хуже шестиклассника, который даже не стал призёром.
Это языковые модели.
«В конце она спросила, хорошо ли я владею языком. На что я ответил, что отлично владею английским языком.
— Хорошо, — сказала она. — Будете наклеивать на конверты почтовые марки.» ©
Ну а как ты хотел, ведь так удобно сказать себе что вот же, смотри, работа сделана и по всем видимым признакам объемно качественно и структурировано.
А то что это лажа внутри.
Ну да ладно. Я когда сам делаю по сути так же лажаю, зато тут большую часть делал не я.
и почему ни одну нейросеть не назвали Ржевский?
Из статьи - Мы постоянно задаем себе вопрос: "Как этот продукт должен выглядеть, если ИИ может выполнять большую часть работы?"
А раньше продукт делали для пользователя...
После прочтения статьи у меня возникла мысль - заставь дурака богу молиться, он себе весь лоб расшибет.
Теперь я поняла, почему на выходе продукт,который не удобен,дороже и хуже предыдущего.
Интересно, продукты и технику тоже нейросеть ваяет..
Эффективные менеджеры стали еще эффективнее!)
И дороже на условные 60 баксов в месяц.
Айти специалисты, дизайнеры, художники и фотографы десятки лет работали, а потом пришла нейросеть и поменяла правила игры. Поэтому я начала блог «А потом пришла нейросеть», и собираю лучшие практики работы с новым инструментом.
И где же сами практики-то? Привели бы пример. Хотя бы один. От начала и до конца. А слова говорить и промптить каждый может, это каждый может... (с) А.И.Райкин
я создал цифровых двойников нескольких мэров и провел с ними виртуальные интервью. Из пяти таких разговоров я выявил три ключевые потребности для своего сервиса
А ведь когда-то за разговоры с придуманными персонажами можно было загреметь в специальное медицинское учреждение.
А если серьезно, то не совсем понятна ценность такого виртуального общения. С таким же успехом можно было просто суммировать публичную информацию. Ведь значимость чиновника не в информации, а в шлагбауме, который этот чиновник может для вас приподнять в результате общения с ним (и это работает во всех странах, независимо от уровня "демократии" в них)
Ну так соберите всю доступную информацию быстрее, чем это сделает нейросеть. Речь же не идет о замене, там в тексте прямо написано, что это не заменит реального интервью, но когда это интервью все не получается, то на безрыбье и рак рыба. Галлюцинации сети в этом случае хотя бы обусловлены чем-то, а галюны продакта, который плодит гипотезы из головы - ничем
Интересно, кто-нибудь сделает интервью с Наливкиным?
Куда мы катимся...
Со всей очевидностью, и сама статья процентов на 95 сгенерирована ИИ. Как будто разные нейронки её рассказывали (или несколько промптов): роль продакт-менеджера в какой-то момент превратилась во владельца бизнеса и затем "спускалась" до конкретных специалистов.
После прочтения есть ощущение, что и предназначена она для чтением другим ИИ, а не для человека. Надо бы для таких сгенерированных статей сделать отдельный Хабр, куда люди заходить не будут
Уже давно назрела необходимость именно на уровне закона обязать везде, как в интернете, так и в любой печатной текстовой и иной продукции (звук, изображения, видео), ставить метки "сгенерировано/доработано алгоритмами полностью/примерно наполовину/совсем чуть-чуть" и самую важную метку "алгоритмов нет! (проверено электроникой)". За нарушение - пожизненный бан и эцых с гвоздями.
Для анализа обратной связи после запуска продукта у меня тоже есть отработанные промпты. Если у тебя, например, 100 тысяч пользователей, которые дают обратную связь, вычитывать каждый из этих комментариев сложно, долго, неудобно. Я просто закидываю их в нейронку с промптом:
Кто-нибудь может подсказать, как такое возможно? Сталкивался с примерно такой же задачей - у меня было 1500 строк, которые мне нужно было раскидать по 5 заранее заданным категориям.
ChatGPT за один раз мог справиться только с классификацией где то 80-100 строк. Когда передаешь больше данных, часть этих данных просто "теряется", о чем нейросеть умалчивает, выдавая анализ каких то выборочных строк (даже не подряд).
Может речь идет не о стандартной PRO подписке openai, а об отдельно развернутом сервисе под такую задачу?
Я работал в продуктовой команде 7 лет, а потом пришла нейросеть