Comments 17
Сегодня целый час рисовал в мс ворде линии и таблички, простейшее оформление для бланков. Скорее бы уже роботы научились что то полезное делать.
Задачи выполняли семь современных языковых моделей:
Claude-3.5 Sonnet
Gemini-2.0 Flash
GPT-4o
Amazon Nova Pro
Llama-3.1 405B
Llama-3.3 70B
Qwen-2.5 72B
Ни одной свежей модели? клод 3.7, джемини 2.5, гпт 4.1, амазон хз, ллама4, квен3
Серьезные исследования быстро не делаются, вероятно давно еще начали
В серьезных исследованиях таблички обновляются по мере выхода моделей, иногда в процессе подачи на конференцию в спешке дорисовывают актуальные результаты и переписывают выводы если что то изменилось.
Дорогие проприетарные модели ещё можно понять, но если хватило на запуск llama 3.1, то явно хватило бы на запуск qwen3, который эту лламу ни во что не ставит и рекламируется как почти равный chatgpt в общем плане и почти равный sonnet 3.5 в коде. Интересно было бы посмотреть на актуальные данные от моделей которыми действительно пользуются люди.
Сфера развивается быстро, от этого никуда не деться, конечно.
DeepSeek R1 ещё, и новый v3
Оригинал исследования (ссылка в посте).
Дата 2024 декабрь.
Работа сделана до выхода этих нейросетей🤦
Есть преимущество от создания проекта с помощью такой команды агентов по сравнению с просто одним агентом?
Просто не надо их заставлять решать задачи по-человечески. Дайте им глобальную задачу и пусть они сами выберут сотрудников, способ взаимодействия и инструменты. Вот тогда и посмотрим скоро ли они нас захватят*
*не скоро
Кто нибудь дураку может объяснить?
Постоянно вижу фразы про цену
И тут "стоимость выполнения одной задачи составила $6.34."
Вот я использую для программирования чат гпт ща подписку в 20 долларов в месяц и днями сижу и он мне генерирует код. Что я упускаю, есть какие то другие нейронки, которым надо за задачи платить?
Почему не используют подписку, по которой затраты всегда фиксированы в 20 баксов за месяц, а за месяц может написать миллионы строк кода, выполнить сотни задач
У чатгпт есть не только чатик на сайте но и доступ через апи, можно делать запросы из своих программ. Например в VS Code можно подключить и там использовать для автодополнения или как агента, агент там - просто пишешь ему что делать и он делает, файлы создает и редактирует, комитит на гитхаб сам итп.
Запросы через апи тарифицируются отдельно, каждый запрос стоит каких то денег, например 10 центов. Если агент сделал 60 запросов выполняя твоё задание то он сожрет 6 долларов.
Интересно, что никто не пишет об использовании ИИ для решения инженерных задач (разработки и проектирования)
Хороший кандидат для таких тестов — это, например, агент Manus. Он уже умеет выполнять задачи в стиле офисных сотрудников: анализировать документы, писать письма, формировать отчёты, даже запускать автоматические сценарии. Было бы интересно включить такого рода ИИ в сравнительный анализ — как минимум для оценки перспектив замены рутинной офисной работы.
Тут вопрос скорее такой, а будут ли нкйронки развиваться с тойже скорость, по моим личным ощущениям Клод 3.5 не намного хуже чем 3.7.
А примеры задач к теме текста отношения совсем не имеют?
Может ли ИИ заменить вас на работе? Ученые проверили на 175 задачах