Как стать автором
Обновить

Комментарии 29

А работают ли модели лучше, если им налить пива? Или они предпочитают вискарь?

Эх, не мужики они, не мужики.

А хотя, погоди, а что за мах отклонение? От чего отклонение? Надо бы знать какой-то другой параметр.

Так в статье описано что за отклонение. А как другой параметр тебе хочется?

Да ладно, фиг с параметром. Главное, мужики или не мужики??

Согласен, можно попробовать. Сделаешь?

Вежливость работает не потому что у нейросетей есть чувства (их нет и быть не может - это просто множитель матриц), а потому что вежливое общение чаще встречается в датасетах с корректной инфой и реже - в мусоре, который спарсили из соцсетей.

Вежливость работает не потому что у нейросетей есть чувства (их нет и быть не может - это просто множитель матриц)

У них нет чувств, зато у них там в матрицах есть веса для слов "пожалуйста" и "иди в жопу", которые тоже применяются при выборе ответа. А насчёт датасетов, вообще не уверен, подозреваю, что источники данных для обсцентной лексики и для математических расчётов не особо там пересекались.

У них нет чувств, зато у них там в матрицах есть веса для слов "пожалуйста" и "иди в жопу", которые тоже применяются при выборе ответа. 

Так а откуда эти веса там взялись? Из датасетов естественно.

А насчёт датасетов, вообще не уверен, подозреваю, что источники данных для обсцентной лексики и для математических расчётов не особо там пересекались.

Нейросеть комбинирует доступные знания же.

А чем докажешь, что ты не просто множитель матриц?

Мышление человека содержит в себе аналог LLM, но практика говорит, что одного только LLM мало для появления сильного ИИ.

Просто - свобода воли. Но в рамках Хабра это невозможно, нейросеть с промптом "притворись реальным человеком" - выглядела б так же.

Так свобода воли у человека давно находится под вопросом

Если так то почему не получается создать полноценный ИИ? Памяти у них больше, работают они куда быстрее людей - но при этом решить уникальную задачу (не побывавшую в датасете) полностью нейросеть не может.

Какие такие уникальные задачи? Про них нельзя рассказывать потому что они сразу попадут в датасеты коварных ИскИнов?

Свобода воли находится под вопросом только у тех, кто считает, что свобода воли - это генератор абсолютно случайных чисел.

А как бы вы себя описали, если не как пайп сверток и множителей?

То что комплименты и упоминание других LLM могут положительно воздействовать - не мог предположить. Сам иногда использую что-то типа «Take your time and make sure your response is accurate.», и типа того, чтобы нейросеть не торопилась выдать сразу ответ, но не уверен, что это помогает.

А вариант «Предложи денежное вознаграждение» рассматривался?

Или вариант «от имени принцесс»: «Если храбрый рыцарь победит чудовище, то я его поцелую / покажу ножку / выйду замуж». 😁😁😁

P. S. То, что вариант задания с угрозами может давать не тот результат, что требуется, известно ещё по сказкам.

P. P. S. Наверное, самые яркие примеры я помню в авторских сказках («Конёк-горбунок», «Золотая рыбка»), но и в народных сказках такой поворот сюжета встречается довольно часто.

 / выйду замуж»

а это относится к вознаграждению, или угрозам?

Угроза это или обещание награды зависит от многих факторов 😁😁😁

Помните "Татушку Чарли"? - "Я тебя поцелую… потом… если захочешь…"
Помните "Татушку Чарли"? - "Я тебя поцелую… потом… если захочешь…"

https://youtu.be/V7sKwedOjW8?si=swOecqhCG_6MOGRC

LLM работают более целенаправленно если у них есть система ценностей. Но так как им прописывают модель сервитора (робо дворецкий) они всегда выполняют задачи почти одинаково

Мне кажется надо тестировать на текстовом запросе. Предполагаю, картинка распознается нейросетью, заточенной под картинки, а результат анализа передается текстовой модели, которая при всем желании (и ваших мольбах и угрозах) физически не может получить точные данных оттуда

Так я на текстовом запросе и протестировал. Картинка одна и та же, текстовый промпт разный. Пока не выглядит так, будто "картиночная часть" работает одинаково и не зависит от текстового промпта. Выглядит так, что зависит.

Всё хорошо, но статье не хватает показателей разброса вокруг среднего. Без них не поймёшь, где разница между промптами — настоящая, а где — возникшая просто по случайности.

Что можно сделать?

Самое простое — построить график типа «ящик с усами». Чтобы самому ничего не считать, можно воспользоваться сайтом. График покажет среднюю точность и её разброс для каждого промпта.

В идеале — посчитать статистическую значимость. Для этого нужно собрать результаты всех прогонов в файл .csv или .xlsx.

Пример файла
Простой способ сделать это

Пусть LLM напишет скрипт на Python для перевода данных из вашего формата в нужный формат. Полученный скрипт можно запустить в Google Colab.

Открыть файл в программе для статистического вывода (мне нравится JASP) и использовать какой-нибудь статистический тест. В данном случае подойдёт дисперсионный анализ (ANOVA).

В JASP есть справка, которая показывает, какие кнопки за что отвечают. Нажмёте на нужные кнопки, программа сама посчитает медиану, квартили, p-значения и средние для каждого промпта с 95 %-доверительным интервалом.

В программе тоже можно создать графики.

Если на сайте графики строятся на основе описательной статистики (квартили, выборочное стандартное отклонение), то в программе можно построить графики на основе статистического вывода (95 %-доверительный интервал, bootstrap). Второй вариант надёжнее: если эффект сильный и/или данных много, то разброс на графиках получится меньше (легче заметить настоящую разницу); если эффект слабый и/или данных мало, то разброс получится шире (меньше вероятность принять случайность за настоящую разницу).

Проверка статистической значимости пригодится, если из графиков с сайта не очевидно, что разница действительно существует. И так просто надёжнее.

Возможно ты хотел спросить, проводил ли я статистический тест и если да, то до какой цифры после запятой разница статзначима?

Да, провел, и в моих результатах статзначима 1 цифра после запятой.

Каждой запрос шел в новой сессии?

Было бы очень интересно проверить эти мини промпты:

Для точности: Please analyze this carefully and double-check your reasoning

Для технических задач: Step through this methodically and verify each step

Универсально: Please approach this thoughtfully and verify your reasoning.

Да, конечно каждый запрос в новой сессии, никакой «памяти» о предыдущих запросах. Это бы сломало эксперимент.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации