В тексте опечатки: билайн вместо "Билайн". Или в компании маркетологи даже технарей в заложники взяли? Если так - моргните, или ещё какой знак подайте.
Красивые слова для презентации чиновникам. Но на ресурсах типа Хабра подобное писать - только позориться. Разработали оригинальное прикладное ПО - отлично (без сарказма), но зачем при этом заявлять то, чего в реальности нет?
Вытаскиваем кассету из стримера и видим, что ей сильно поплохело: резиновый пассик рассохся и лопнул. Чтобы избежать такого, кассеты надо перематывать примерно один-два раза в год, однако тут этого, разумеется, никто не делал.
Периодическая перемотка должна спасти саму ленту, но никак не резиновый пассик.
Эх...Самое забавное, что такое может прилететь по вроде бы совершенно нейтральным комментариям/обсуждениям, как этот. Ну вот "придерживается", а написать что-то для пояснения не пожелал. Подумаешь, мелочь какая-то, но получатель минуса нередко после этой "мелочи" остаётся с урезанными правами, просто из-за того, что кто-то с "другой позицией".
Исходно обсуждаются LLM, но почему-то проверяются они тут тестами, суть которых выходит за рамки принципиальных возможностей модели.
А тест Тьюринга предлагаю оставить историкам кибернетики. Да, когда-то он был отличным вариантом для своего времени, но сейчас не имеет никакого практического смысла.
Полностью согласен. Разве что про идею следующего теста и про "тут у вас ошибка" уточню: подобный тест как раз и покажет всем тестирующим, что это и есть тот самый "Т9 на стероидах" (кстати, отличное сравнение, прямо в точку), а не что-то "мыслящее" с "когнитивными способностями".
Так о том и речь. Дайте модели тысячи вариаций про задачу сидения на коленях и будете получать ожидаемые "верные" ответы. Но текущие модели настраиваются только на одном типе входных данных, при этом интерпретируя их "в лоб". Человек учится комплексно, учитывая не только прямой смысл данных, но и их контекст, условия получения и т.п.
Когнитивные способности LLM можно оценивать по способности мыслить логически и строить цепочки рассуждений
На мой взгляд тут нет никаких "когнитивных способностей".
Модели настраиваются ("учатся") по очень большому объёму заранее подготовленной (размеченной) входящей информации. Следовательно, на задачи "с подковырками" мы получаем от модели типичные ответы, т.е. ответы на основе преобладающих в обучающей выборке исходных данных. Но в этих исходных данных крайне мало ситуаций по сценариям такого типа задач. В объёме обучающей выборки задачи про "сидящую девушку" или "летящее яйцо" встречаются с частотой на уровне погрешности - настройте модель на сотнях вариантов каждой такой задачи, и ответы будут совершенно иные.
Но чем текущие языковые модели отличаются от человека с реальными когнитивными способностями? Тем, что человек, узнавший про задачу с необычным подтекстом и нетипичным решением, будет в следующих задачах тоже искать скрытый смысл и пытаться решить их нетривиальным способом, а модель при смене темы следующей задачи попытается решить её не делая "выводов" на основе особенностей предыдущей. Кстати, вот и идея для следующих тестов.
Поток покупателей только в определённые часы. Ну и в конце концов камеру (уверен что она там есть) можно нагрузить банальной доп.задачей по определению смены клиента.
Ну да, или голосовать в опросе "Оцените магазин", оставшемся от предыдущего покупателя? Для таких случаев таймаут есть, что и предложил @Mishootk в сообщении чуть выше.
Главный инсайт — покупатели на кассе самообслуживания не хотят задумываться, они стремятся как можно быстрее оплатить товары и уйти. Поэтому чем меньше шагов требуется для покупки, тем лучше.
Но при этом видим: "Сколько бонусов списать?" - Спишите возможный максимум! Неужели их реально кто-то копит? "Спасибо за покупку. Оцените магазин..." - Какая оценка? Я не хочу задумываться, а хочу просто уйти. "Нужен чек? Да/Нет" - Сделайте по умолчанию без чека, т.к. я не хочу задумываться, а хочу просто уйти, а для редких случаев когда он кому-то нужен кнопку после завершения покупки для печати чека (можно вместо "Оцените магазин...").
Сейчас есть Onyx Boox продолжающие идеологию E-Ink+Android. Их даже рутировать не требуется для установки стороннего ПО, а не как в ушедших с рынка Nook.
Совсем не понимаю зачем городить дополнительную точку отказа (а то и не одну, глядя на конструктор из модулей и проводов), если по цене используемых компонентов можно купить новый телефон (или аналогичное устройство), в который отлично уместится всё необходимое ПО и данные, а если не уместится, то есть карта памяти.
Фраза "пчёлы против мёда" тут подходит лучше чем где-либо.
В тексте опечатки: билайн вместо "Билайн". Или в компании маркетологи даже технарей в заложники взяли? Если так - моргните, или ещё какой знак подайте.
И камеры заодно.
А кто-то тут паяет? Винтик в корпус фильтра упал - чем-то нужно было подцепить, и, судя по всему, из инструментов под рукой оказался только паяльник.
Красивые слова для презентации чиновникам. Но на ресурсах типа Хабра подобное писать - только позориться. Разработали оригинальное прикладное ПО - отлично (без сарказма), но зачем при этом заявлять то, чего в реальности нет?
Периодическая перемотка должна спасти саму ленту, но никак не резиновый пассик.
Эх...Самое забавное, что такое может прилететь по вроде бы совершенно нейтральным комментариям/обсуждениям, как этот. Ну вот "придерживается", а написать что-то для пояснения не пожелал. Подумаешь, мелочь какая-то, но получатель минуса нередко после этой "мелочи" остаётся с урезанными правами, просто из-за того, что кто-то с "другой позицией".
Всё оказалось не так просто:
Да ладно яблоки и берёза. Тут с более простыми вещами не всегда разобраться могут:
Диалог с Алисой
Исходно обсуждаются LLM, но почему-то проверяются они тут тестами, суть которых выходит за рамки принципиальных возможностей модели.
А тест Тьюринга предлагаю оставить историкам кибернетики. Да, когда-то он был отличным вариантом для своего времени, но сейчас не имеет никакого практического смысла.
Полностью согласен. Разве что про идею следующего теста и про "тут у вас ошибка" уточню: подобный тест как раз и покажет всем тестирующим, что это и есть тот самый "Т9 на стероидах" (кстати, отличное сравнение, прямо в точку), а не что-то "мыслящее" с "когнитивными способностями".
Так о том и речь. Дайте модели тысячи вариаций про задачу сидения на коленях и будете получать ожидаемые "верные" ответы. Но текущие модели настраиваются только на одном типе входных данных, при этом интерпретируя их "в лоб". Человек учится комплексно, учитывая не только прямой смысл данных, но и их контекст, условия получения и т.п.
На мой взгляд тут нет никаких "когнитивных способностей".
Модели настраиваются ("учатся") по очень большому объёму заранее подготовленной (размеченной) входящей информации. Следовательно, на задачи "с подковырками" мы получаем от модели типичные ответы, т.е. ответы на основе преобладающих в обучающей выборке исходных данных. Но в этих исходных данных крайне мало ситуаций по сценариям такого типа задач. В объёме обучающей выборки задачи про "сидящую девушку" или "летящее яйцо" встречаются с частотой на уровне погрешности - настройте модель на сотнях вариантов каждой такой задачи, и ответы будут совершенно иные.
Но чем текущие языковые модели отличаются от человека с реальными когнитивными способностями? Тем, что человек, узнавший про задачу с необычным подтекстом и нетипичным решением, будет в следующих задачах тоже искать скрытый смысл и пытаться решить их нетривиальным способом, а модель при смене темы следующей задачи попытается решить её не делая "выводов" на основе особенностей предыдущей. Кстати, вот и идея для следующих тестов.
Отличается высокой производительностью, которая разбивается о время застывания раствора.
Сомнительно. Но многие покупатели уже научились лишний код рукой прикрывать.
Поток покупателей только в определённые часы. Ну и в конце концов камеру (уверен что она там есть) можно нагрузить банальной доп.задачей по определению смены клиента.
Ну да, или голосовать в опросе "Оцените магазин", оставшемся от предыдущего покупателя?
Для таких случаев таймаут есть, что и предложил @Mishootk в сообщении чуть выше.
Но при этом видим:
"Сколько бонусов списать?" - Спишите возможный максимум! Неужели их реально кто-то копит?
"Спасибо за покупку. Оцените магазин..." - Какая оценка? Я не хочу задумываться, а хочу просто уйти.
"Нужен чек? Да/Нет" - Сделайте по умолчанию без чека, т.к. я не хочу задумываться, а хочу просто уйти, а для редких случаев когда он кому-то нужен кнопку после завершения покупки для печати чека (можно вместо "Оцените магазин...").
Сейчас есть Onyx Boox продолжающие идеологию E-Ink+Android. Их даже рутировать не требуется для установки стороннего ПО, а не как в ушедших с рынка Nook.
Совсем не понимаю зачем городить дополнительную точку отказа (а то и не одну, глядя на конструктор из модулей и проводов), если по цене используемых компонентов можно купить новый телефон (или аналогичное устройство), в который отлично уместится всё необходимое ПО и данные, а если не уместится, то есть карта памяти.