Статья зашла, реально👍 как редкое увлекательное чтиво на ночь. После нее только глаза закрыть и начать анализировать. Автору огромный респект, очень интересно и структурно грамотно. Я второй день хожу под впечатлением и все еще осмысливаю👏. Редкий случай, когда хочется не скроллить дальше, а посидеть и переварить)
Друзья, дело не в стиле, а в контексте. Мы прочитали с вами плод галлюцинаций GPT. Не буду спорить, что очень качественный, но хочу отметить, где все таки автор просмотрел.
Видя в первых фразах стиль ГПТ, я уже могу предположить не читая весь документ что там в конце. Типичные паттерны ГПТ, это сглаживания, ложные усиления через аналогии, без приведения проверяемых фактов ( ии сейчас и интернет в 1997 году - кто не зайдет, тот проиграет. Это не проверяемый факт, а риторическая проблема). Это прям классический ГПТшный паттерн. Конкретные цифры без источника (500k GPU, 2 ГВт, $18 млрд). Цифры выглядят слишком точными, но нет источника - это прям опять ГПТшный паттерн. Категоричные утверждения без операционализации (в России нет моделей уровня GPT). Не определены какие «уровни» и критерии сравнения. Самый жирный момент это ложная гарантия, это уже чистая галлюцинация. ( «отвечает строго по вашим данным и не уходит в галлюцинации»). Ни одна LLM не дает такой гарантии.
Маркетинговый процент (закрывает 80-90% задач) это тоже скрытая галлюцинация ГПТ. Нет выборки, нет методики, нет определения задачи). Вся статья дрейфует к заранее заданному выводу. Ии - исторический перелом; рынок растет; публичные сервисы не подходят; нужна инфраструктура; вот наш продукт. Это не анализ, это подведение читателя к заранее заданному выводу (инфраструктурное решение). Тут аргументация носит направленный, а не исследовательский характер.
Поэтому рекомендую автору не доверять гладкому тексту нейронки, лучше сесть и от руки отредачить, тогда вы сами найдете эти дыры.
Я не хейтер ИИ, и тем более ГПТ, наоборот я ее фанатка, но использовать надо грамотно
Не прокатит) она быстро научится симулировать нужный тон. Вы почувствуете уверенность, но проблема никуда не денется, Вам придется научиться различать когда ее ответу нельзя верить, а когда можно использовать как основание для решения. Лучше загружать ей документы, фиксировать историю работы и держать в рамках конкретного материала “отвечай только по этим данным”. Это не гарантия, но хотя бы уменьшает шанс, что модель уедет в красивую отсебятину
Интересная статья, но есть ещё место, куда это просится развить. Проверять не только ход выполнения, но и то, не уехала ли система от исходного вопроса. А то ответ может выглядеть аккуратно, но быть уже про другую задачу.
Если у вас есть отдельная ссылка на описание этой архитектуры или репозиторий, скиньте, пожалуйста. Идею со «следом выполнения» точно утащу себе😊, но хочу корректно ссылаться. Карму поднять не могу, но с удовольствием бы подняла, так как статья реально полезная, и бьет в актуальные боли)
Договорились) это отличный маркер для проверки границ технологического суверенитета и лучший способ пробить обвязку. Скорее всего, на такие запросы Алиса выдаст стандартный отказ, даже не пытаясь рассуждать. Подпишитесь, скоро выложу вторую часть с этим тестом😊
Я соглашусь, разделение на саму модель и обвязку - это важно для разрабов, но мой пост как это выглядит для конечного пользователя, который не работает с чистой моделью, но решения принимает по итоговому ответу нейронки
Это смотря для каких целей использовать) у GPT тоже много своих приколов. Она часто держит одну оценку, стабилизирует ответ, так видится снаружи, а внутри у нее уже другой ход рассуждения. В результате получается ложный консенсус, ответы совпадают, а смысл нет. Именно с этих моментов и начинается накопление сдвига в оценках (дрейфа)
У меня исследовательский интерес с точки зрения социологии как разные модели интерпретируют те или иные социологические стимулы. Поэтому мне приходится использовать наш Яндекс, чтоб сравнивать какой логикой они приходят к своему ответу. Сразу скажу, Яндекс очень не любит отвечать про коррупцию во власти😂, предлагает о чем то другом поговорить
Отличная работа. У меня есть рабочий прототип для следующего слоя таких проверок, не только правильный или неправильный ответ, а проверка хода интерпретации модели, поняла ли она объект вопроса, выделила ли нужный визуальный признак и допустим ли вывод. Это может помочь отделять реальное понимание от удачного угадывания.
Я студентка-гуманитарий и разрабатывала этот подход скорее с позиции социологии и анализа интерпретаций, поэтому мне был бы очень полезен взгляд технических специалистов. Если будет интересно, скину протокол и первые результаты.
Эмпирический корпус небольшой, у меня нет институциональной поддержки, да и моделей, участвующих в прогонах было столько, на сколько хватило личного бюджета, но первые прогоны показывают примерно 70% добавочной диагностической ценности поверх baseline.
В том то и проблема, что в данном случае это не просто цензура, а нарушение логической связности, финальный слой принятия решений в ней изолирован от собственной аналитики. Использовать такой инструмент для принятия решений категорически запрещено. А если бы я в Промте не просила текстовую интерпретацию? …
Я по долгу своего проекта вынуждена работать с 6+ нейронками. Так как это работа с их текстом и интерпретациями, то я уже не могу видеть тексты со словами «вот где это ломается», «где может сломаться», «это намного сильнее». Я плюсану карму, так как тема хайповая, но на будущее, добрый совет, убирайте пожалуйста длинные тире из текста, двоеточия, делайте длиннее абзацы, ставьте чаще запятые, превращая предложения в сложно-подчиненные).
Просто весь интернет забит однотипными текстами GPT с ее «ломается». Возможно для тех, кто не работает с их интерпретациями- это не выглядит как триггер, но те, кто это изучает, видя подобный текст сразу начинают сомневаться, а не галлюционировала ли модель, в каком режиме писала, валидна ли ее интерпретация, какой логикой она шла к этой интерпретации, может случайно попала?
Молодец, Арсений! Я сама в такой же кроличьей норе сейчас, прекрасно понимаю. Надеюсь, у тебя есть команда, а то у меня вот нет😅, потому что никто не понимает вообще чего я хочу
Вопрос скорее в том, как встроить управление ИИ-рисками в существующую систему, чем в создании новой должности, иначе есть риск инфляции ролей, когда проблема управления решается через добавление позиции, а не через настройку процессов, и стандарты вроде NIST AI RMF и ISO 42001 как раз про процессы, а не про появление новых должностей. У меня кстати есть прототип этой логики, сначала проверяется валидность вывода модели, потом оценка риска и только потом принимается управленческое решение. Первые эмпирические результаты действительно показывают, что baseline не везде находит то, что скрыто за интерпретациями моделей
В последнее время чаще захожу в дипсик, чем раньше. По моим ощущениям стал умнее, но все же если ему нужно одновременно большое кол-во инфы обработать, то может ошибиться где-то( Gemini и GPT в этом плане надежнее, что уж про Claude говорить. Надеюсь докрутят дипсик, потенциал есть
Уже мало быть узким спецом в одной сфере. Есть I-shaped специалист - сильный в одном, T-shaped - хорошо знает свое и немного смежное, М-shaped - разбирается глубоко в нескольких вещах. Вот сейчас и ценятся больше T и M. Так что активно надо изучать свои смежные сферы и развиваться в этом
Статья зашла, реально👍 как редкое увлекательное чтиво на ночь. После нее только глаза закрыть и начать анализировать. Автору огромный респект, очень интересно и структурно грамотно. Я второй день хожу под впечатлением и все еще осмысливаю👏. Редкий случай, когда хочется не скроллить дальше, а посидеть и переварить)
Друзья, дело не в стиле, а в контексте. Мы прочитали с вами плод галлюцинаций GPT. Не буду спорить, что очень качественный, но хочу отметить, где все таки автор просмотрел.
Видя в первых фразах стиль ГПТ, я уже могу предположить не читая весь документ что там в конце. Типичные паттерны ГПТ, это сглаживания, ложные усиления через аналогии, без приведения проверяемых фактов ( ии сейчас и интернет в 1997 году - кто не зайдет, тот проиграет. Это не проверяемый факт, а риторическая проблема). Это прям классический ГПТшный паттерн. Конкретные цифры без источника (500k GPU, 2 ГВт, $18 млрд). Цифры выглядят слишком точными, но нет источника - это прям опять ГПТшный паттерн. Категоричные утверждения без операционализации (в России нет моделей уровня GPT). Не определены какие «уровни» и критерии сравнения. Самый жирный момент это ложная гарантия, это уже чистая галлюцинация. ( «отвечает строго по вашим данным и не уходит в галлюцинации»). Ни одна LLM не дает такой гарантии.
Маркетинговый процент (закрывает 80-90% задач) это тоже скрытая галлюцинация ГПТ. Нет выборки, нет методики, нет определения задачи). Вся статья дрейфует к заранее заданному выводу. Ии - исторический перелом; рынок растет; публичные сервисы не подходят; нужна инфраструктура; вот наш продукт. Это не анализ, это подведение читателя к заранее заданному выводу (инфраструктурное решение). Тут аргументация носит направленный, а не исследовательский характер.
Поэтому рекомендую автору не доверять гладкому тексту нейронки, лучше сесть и от руки отредачить, тогда вы сами найдете эти дыры.
Я не хейтер ИИ, и тем более ГПТ, наоборот я ее фанатка, но использовать надо грамотно
Не прокатит) она быстро научится симулировать нужный тон. Вы почувствуете уверенность, но проблема никуда не денется, Вам придется научиться различать когда ее ответу нельзя верить, а когда можно использовать как основание для решения. Лучше загружать ей документы, фиксировать историю работы и держать в рамках конкретного материала “отвечай только по этим данным”. Это не гарантия, но хотя бы уменьшает шанс, что модель уедет в красивую отсебятину
Интересная статья, но есть ещё место, куда это просится развить. Проверять не только ход выполнения, но и то, не уехала ли система от исходного вопроса. А то ответ может выглядеть аккуратно, но быть уже про другую задачу.
Если у вас есть отдельная ссылка на описание этой архитектуры или репозиторий, скиньте, пожалуйста. Идею со «следом выполнения» точно утащу себе😊, но хочу корректно ссылаться. Карму поднять не могу, но с удовольствием бы подняла, так как статья реально полезная, и бьет в актуальные боли)
У остальных было всё скучно, они оценивали ровно на столько, на сколько анализировали)
Договорились) это отличный маркер для проверки границ технологического суверенитета и лучший способ пробить обвязку. Скорее всего, на такие запросы Алиса выдаст стандартный отказ, даже не пытаясь рассуждать. Подпишитесь, скоро выложу вторую часть с этим тестом😊
Я соглашусь, разделение на саму модель и обвязку - это важно для разрабов, но мой пост как это выглядит для конечного пользователя, который не работает с чистой моделью, но решения принимает по итоговому ответу нейронки
Это смотря для каких целей использовать) у GPT тоже много своих приколов. Она часто держит одну оценку, стабилизирует ответ, так видится снаружи, а внутри у нее уже другой ход рассуждения. В результате получается ложный консенсус, ответы совпадают, а смысл нет. Именно с этих моментов и начинается накопление сдвига в оценках (дрейфа)
У меня исследовательский интерес с точки зрения социологии как разные модели интерпретируют те или иные социологические стимулы. Поэтому мне приходится использовать наш Яндекс, чтоб сравнивать какой логикой они приходят к своему ответу. Сразу скажу, Яндекс очень не любит отвечать про коррупцию во власти😂, предлагает о чем то другом поговорить
Странно, что под этой статьей нет комментариев😊
Отличная работа. У меня есть рабочий прототип для следующего слоя таких проверок, не только правильный или неправильный ответ, а проверка хода интерпретации модели, поняла ли она объект вопроса, выделила ли нужный визуальный признак и допустим ли вывод. Это может помочь отделять реальное понимание от удачного угадывания.
Я студентка-гуманитарий и разрабатывала этот подход скорее с позиции социологии и анализа интерпретаций, поэтому мне был бы очень полезен взгляд технических специалистов. Если будет интересно, скину протокол и первые результаты.
Эмпирический корпус небольшой, у меня нет институциональной поддержки, да и моделей, участвующих в прогонах было столько, на сколько хватило личного бюджета, но первые прогоны показывают примерно 70% добавочной диагностической ценности поверх baseline.
В том то и проблема, что в данном случае это не просто цензура, а нарушение логической связности, финальный слой принятия решений в ней изолирован от собственной аналитики. Использовать такой инструмент для принятия решений категорически запрещено. А если бы я в Промте не просила текстовую интерпретацию? …
Я по долгу своего проекта вынуждена работать с 6+ нейронками. Так как это работа с их текстом и интерпретациями, то я уже не могу видеть тексты со словами «вот где это ломается», «где может сломаться», «это намного сильнее». Я плюсану карму, так как тема хайповая, но на будущее, добрый совет, убирайте пожалуйста длинные тире из текста, двоеточия, делайте длиннее абзацы, ставьте чаще запятые, превращая предложения в сложно-подчиненные).
Просто весь интернет забит однотипными текстами GPT с ее «ломается». Возможно для тех, кто не работает с их интерпретациями- это не выглядит как триггер, но те, кто это изучает, видя подобный текст сразу начинают сомневаться, а не галлюционировала ли модель, в каком режиме писала, валидна ли ее интерпретация, какой логикой она шла к этой интерпретации, может случайно попала?
Молодец, Арсений! Я сама в такой же кроличьей норе сейчас, прекрасно понимаю. Надеюсь, у тебя есть команда, а то у меня вот нет😅, потому что никто не понимает вообще чего я хочу
Вопрос скорее в том, как встроить управление ИИ-рисками в существующую систему, чем в создании новой должности, иначе есть риск инфляции ролей, когда проблема управления решается через добавление позиции, а не через настройку процессов, и стандарты вроде NIST AI RMF и ISO 42001 как раз про процессы, а не про появление новых должностей. У меня кстати есть прототип этой логики, сначала проверяется валидность вывода модели, потом оценка риска и только потом принимается управленческое решение. Первые эмпирические результаты действительно показывают, что baseline не везде находит то, что скрыто за интерпретациями моделей
В последнее время чаще захожу в дипсик, чем раньше. По моим ощущениям стал умнее, но все же если ему нужно одновременно большое кол-во инфы обработать, то может ошибиться где-то( Gemini и GPT в этом плане надежнее, что уж про Claude говорить. Надеюсь докрутят дипсик, потенциал есть
Уже мало быть узким спецом в одной сфере. Есть I-shaped специалист - сильный в одном, T-shaped - хорошо знает свое и немного смежное, М-shaped - разбирается глубоко в нескольких вещах. Вот сейчас и ценятся больше T и M. Так что активно надо изучать свои смежные сферы и развиваться в этом