Search
Write a publication
Pull to refresh
87
0.3
Даниил Бакалин @Quiensabe

Программист

Send message

Интересно, по сути, для решения обозначенной проблемы, недостаточно просто добавить "эмпатии" в системный промпт или датасет. По идее ИИ должен отслеживать состояние пользователя, примерять свои слова на модель его личности и прогнозировать их влияние.

Т.е. это потребует, в идеале, не просто "память чата", а полноценной метаперцепции, от которой до рефлексии - по большому счету один шаг.

Если решить эту задачу - насколько близком мы подойдем самосознанию ИИ, и как следствие - этическим вопросам его использования?

когда 10 стран и 10 квартир и все остальные параметры совпадают, так как повторы не дают подсказки и не соответственно не уменьшают выборку

Нет. Уменьшают.

Так как мы заранее знаем все адреса - то каждый запрос будет отсекать все варианты с этой страной и квартирой. А значит максимум за 10 запросов - можно найти ответ, надо только, по возможности, не повторяться и со страной и с квартирой.

А вот когда в каком то поле вариантов больше 10 - тогда да, гарантировать нельзя. И тут либо автор ошибся в условии, либо задача в том и состоит чтобы только максимизировать вероятность верного ответа.

Но гадать смысла нет. И к решению автора у меня вопросов нет (кроме того что 4-й этап лишний, но тут автор просто хотел показать течение мысли). Вопросы к точности и категоричности в утверждениях.

так вроде бы по 10 значений в позиции?

Про такое ограничение в условии ничего не сказано.

условия задачи кратко и ясно:

  1. Есть список из 100 адресов. Каждый адрес состоит из 5 параметров: страна, город, улица, номер дома, номер квартиры.

  2. Программа случайно загадывает один адрес из этого списка.

  3. У пользователя есть до 10 попыток угадать адрес.

  4. В каждой попытке пользователь называет один из 100 адресов и спрашивает: «Правильно ли я угадал?».

  5. Если адрес не совпадает с загаданным, программа не сообщает, какие именно поля не угаданы. Вместо этого она возвращает подсказку: число от 0 до 5 – сколько параметров из пяти совпало, или -1 (минус один), если не совпало ничего.

  6. Цель – разработать алгоритм, который гарантированно найдет загаданный адрес не более чем за 10 попыток, используя числа совпавших параметров как подсказки.

Предположим простейший вариант. Все адреса в списке - это разные квартиры в одном и том же доме. Т.е. все поля кроме последнего - одинаковые для всех записей, а последнее поле (номер квартиры) - отличается у всех записей (тупо числа до 1 до 100).

Ваш алгоритм на этом посыплется, шанс угадать упадет до 10%, вместо 100%.

Как впрочем и другие.

Я не к тому то алгоритм плох, а к тому, что нужно понимать зону его применимости. И аккуратнее обращаться со словами типа "гарантированный результат", "абсолютная угадываемость" и пр.

Полностью согласен.

Хочется назвать это "стадией отрицания", но возможно здесь есть и какой-то более глубокий эффект.

заменять менеджеров экселя – это муторно и невыгодно, так как сама стоимость ИИ сотрудника будет больше, чем 1-2 кожаных

Я бы так не сказал. Вот только что: скинул ChatGPT Agent пачку договоров и сказал сделать к ним счета по образу - и он справился буквально идеально. Я бы провозился час с тупым copy|paste, а он сделал за пару минут и еще 5 минут мне на проверку.

Особо приятно, что это именно не переписывание всего текста (что могло дать ошибки), а правки в конкретных ячейках.

Так что "замены менеджеров экселя" - перспектива тоже не слишком далекая :)

появилась функция «Идеальный скриншот», которая использует искусственный интеллект для точного захвата содержимого экрана.

Интересно - это как? Объяснит мне, что можно на экране копировать, а что нет?

Если вы считаете, что текст который я дал модели - это "буквально алгоритм решения", то.. пожалуй стоит начать с определения алгоритма :) Но это уже совсем не интересно.

Тратить время на убеждение кого-то кто тебя не слышит довольно глупо.

В любом случае я уже сказал все что хотел сказать, продолжение считаю бессмысленным. Удачи.

Тест с бананами я проводил на grok4 (не heavy). Агентного режима там нет.

Тест с изумрудами проверял в grok и chatgpt (без использования агентов) - ответ везде верный. о3 еще запустил через API, чтобы исключить надстройки браузерной версии - опять же ответ верный.

Вам не нравится термин "прикол" - придумайте свой, это не суть. Суть в том, что вы не правы говоря, что у агентов "нет понимания задач связанных со временем". Задача про изумруды, гораздо более сложная в смысле понимания времени - и LLM с ней отлично справляется.

В то время как в вашей задаче - с точки зрения "понимания времени" - все крайне тривиально. Но LLM не справляется - почему? Ответ на ваших же скриншотах. LLM просто не понимает логику вашей задачи. Она пытается разобраться: может у вас какой-то процесс связанный с ростом числа бананов? Арифметическая прогрессия? Еще какая-то зависимость? При этом, по рассуждениям очевидно что как раз "временные" понятия, такие как "завтра", "вчера", "год назад" - модель прекрасно понимает и оперирует ими.

Переформулируем вашу задачу: "вчера показатель X был равен 2, завтра он будет равен 4, чему он равен сегодня?". Вы настаиваете (на примере с бананами), что ответ 2, потому, что завтра еще не наступило и X не изменилось, а информация о завтра - это просто "избыточные данные". Но это ваше понимание задачи. А можно понимать так что сегодня X = 3, потому что каждый день добавляется 1. Чем такое понимание неправильно?

LLM в данном случае не понимает, что вы от нее хотите, потому что вы закладываете свое понимание задачи, и это скрытая информация которой у модели нет. Человек по формулировке задачи может догадаться о том, что вы ожидаете увидеть в ответе, LLM - (если не брать самые продвинутые модели) - нет.

И все это легко доказать. Добавьте описание всех этих "скрытых" моментов которые вы "предполагаете". Это никак не повлияет на "понимание времени" моделью - но это просто подскажет что вы от нее хотите.

Как видите ответ верный. И это на крохотной локальной модельке gemma 4B без рассуждений и на русском языке!

Как видите даже у такой модельки которую можно на мобилке запустить - с "пониманием времени" вопросов не возникает. Продвинутые модели, конечно, тоже дадут верный ответ, даже при гораздо менее подробном описании.

Я не говорю, что у моделей вообще нет проблем с пониманием реального мира (и времени в частности). Да, это та тема в которой LLM отстают от людей, так как она хуже представлена в обучающих данных. Но, во-первых - это, вероятно, не принципиальное ограничение связанное с отсутствием каких-то специальных нейронов (у человека они отличаются функцией, а не структурой), а скорее особенность обучения; во-вторых - успех современных моделей с таких задачах как раз показывает, что это не принципиальный рубеж, а скорее просто область отставания; в-третьих - опираться на задачки "для дошкольников" в оценке современных моделей - не стоит, результат очень легко неверно интерпретировать.

Во первых на этот вопрос нормальные модели дают правильный ответ:

Во вторых - эта формулировка такой же "прикол" как и первая. Просто потому что если в реальной работе возникнет такая формулировка - то опечатка гораздо вероятнее чем бессмысленный вопрос.

Поэтому нейросеть и отвечает на вопрос некорректно - она не "машина логики" как у фантастов, а статистическая модель основанная на продуктах разума человека, и ей свойственны те же ошибки и когнитивные искажения что и "исходнику".

И это легко доказать. Как я у же написал. Достаточно взять гораздо более сложную в смысле временных интервалов в задачу, но четко определенную и без "приколов". Например:

Задача придумана только что. В обучающей выборке ее точно нет. Рассуждения всех моделей в которых проверил - совершенно верные.

Приведенная вами задача - это не задача на понимание времени (как вы пытаетесь ее выставить), так как это вообще не "задача", а "прикол". Т.е. вопрос формулировка которого умышленно сконструирована так чтобы ввести читателя в заблуждение.

Большинство людей несмотря на "нейронные клетки времени", если их заранее не предупредить - поймут задачу точно также как ИИ, потому, что это понимание наделяет задачу смыслом. Да, если вчитаться то "прикол" очевиден, но он полностью лишает задачу смысла (мы спрашиваем то, что уже знаем).

ИИ не обучали распознавать приколы, потому, что это экономически бесполезно. Но никто не мешает составить датасет подобных "приколов" и дообучить модель. Весьма вероятно, что это сработает и такие "приколы" модель сможет решать куда лучше. Что сильно усложнит задачу тем кто хочет почувствовать свое превосходство выискивая подобные конструкции. Только это произойдет не потому, что модель научилась "чувству времени".

Если я не прав - можно просто дать ИИ нормальную задачу на рассуждения связанные со временем без "приколов" - и посмотреть.

К слову, на базовом уровне такую штуку очень легко сделать в TouchDesigner. Вообще без программирования :)

когда умственной энергии не хватает, эти инструменты могут помочь вам

вот смолвил так смолвил :)

Я опасался, что так может быть прочитано, но имел ввиду совсем не это. У меня нет иллюзий на счет некой "высшей субъективности" человека или подобного бреда.

Говоря о том что, "внутри никого нет" - я скорее о отсутствии динамики (ну и о красоте метафоры, куда без этого)).

Обычная нейросеть сейчас - это "слепок" разума, на него можно под разными углами смотреть (задавать разные вопросы), но он не развивается и не меняется в ходе бесед.

Но это не значит, что нельзя сделать полноценный разум. И на мой взгляд им как раз являются продвинутые ИИ-агенты, которые имеют память, и рассуждая приходят к выводам, могут строить планы и пр. Пока системы из них небольшие и не сложные, но по мере их развития мы непременно придем к AGI (это уже мое личное мнение).

Отвечая на сообщение стоит прочитать его целиком.

На ваши высказывания я уже ответил, вот прямо после фразы "в ответ на очевидный ответ:"...

А люди не могут все то же самое?

И в ответ на очевидный ответ: риски - только часть уравнения. Как минимум оно еще включает пользу и стоимость. Вот по балансу рисков/пользы/стоимости - нейросети и вытесняют людей.

Правильнее, конечно, считать отдельно стоимость пользы и стоимость рисков, а риски еще делить на кратковременные и отложенные. И тут уже все не так однозначно. Но бизнесу всегда важнее краткосрочные риски/выгоды, а на отложенные есть мантра "к тому времени ИИ станет еще умнее и решит эти отложенные проблемы тоже, переписав хоть весь проект".

Причем глядя на развитие последние годы/месяцы - даже сложно сказать глупая это мантра или нет?

Я писал об обычном кино ("2D"), просмотр которого в шлеме по сути ничем от обычного просмотра в кинотеатре не отличается (кроме качества).

Касательно просмотра стереофильмов - согласен с вами, только с тем замечанием, что режиссеры довольно быстро это все поняли и в фильмах которые изначально задуманы как стерео таких игр с фокусом как правило нет. Этим грешат в основном "конвертации в стерео", или фильмы которые хоть и были сняты "в 3D" но основные деньги зарабатывали в обычных кинотеатрах.

Если же говорить о панорамных видео, то там даже на камерах как правило нет возможности регулировать фокус, потому что для VR-фильма это ненужно (ну и потому, что это сильно увеличило бы габариты и стоимость).

Как я понимаю в шлемах фокусировка сделана "на бесконечность", чтобы мозг меньше спотыкался от того, что все предметы четкие. Т.е. смотреть в шлем, для глаз, подобно тому как смотреть вдаль. И неважно, на что в шлеме смотришь.

Поэтому я и написал про кино. Можно было то же время смотреть в шлеме фильмы (что интереснее чем упражнения), а "лечение" псевдоблизорукости было бы примерно таким же.

Хотя возможно тут и еще какой-то эффект срабатывает, не знаю. Я тоже думаю, что японские ученые не дураки :)

Погодите, но ведь в Quest 2 фокусное расстояние всегда одинаковое, независимо от расстояния до виртуального объекта.

Т.е. мозг обманывался, пытался наводиться на удаленный объект, но по факту не наводился (иначе картинка бы стала мутной), и это как-то положительно влияло на зрение?

Что-то мне кажется, смотреть кино в шлеме было бы столь же полезно))

1
23 ...

Information

Rating
4,017-th
Location
Петрозаводск, Карелия, Россия
Date of birth
Registered
Activity