Pull to refresh

Comments 17

Сегодня целый час рисовал в мс ворде линии и таблички, простейшее оформление для бланков. Скорее бы уже роботы научились что то полезное делать.

Задачи выполняли семь современных языковых моделей:

  • Claude-3.5 Sonnet

  • Gemini-2.0 Flash

  • GPT-4o

  • Amazon Nova Pro

  • Llama-3.1 405B

  • Llama-3.3 70B

  • Qwen-2.5 72B

Ни одной свежей модели? клод 3.7, джемини 2.5, гпт 4.1, амазон хз, ллама4, квен3

Серьезные исследования быстро не делаются, вероятно давно еще начали

В серьезных исследованиях таблички обновляются по мере выхода моделей, иногда в процессе подачи на конференцию в спешке дорисовывают актуальные результаты и переписывают выводы если что то изменилось.

Дорогие проприетарные модели ещё можно понять, но если хватило на запуск llama 3.1, то явно хватило бы на запуск qwen3, который эту лламу ни во что не ставит и рекламируется как почти равный chatgpt в общем плане и почти равный sonnet 3.5 в коде. Интересно было бы посмотреть на актуальные данные от моделей которыми действительно пользуются люди.

Сфера развивается быстро, от этого никуда не деться, конечно.

Здесь все модели не reasoning, конечно они ограничены

Оригинал исследования (ссылка в посте).

Дата 2024 декабрь.

Работа сделана до выхода этих нейросетей🤦

Есть преимущество от создания проекта с помощью такой команды агентов по сравнению с просто одним агентом?

Просто не надо их заставлять решать задачи по-человечески. Дайте им глобальную задачу и пусть они сами выберут сотрудников, способ взаимодействия и инструменты. Вот тогда и посмотрим скоро ли они нас захватят*

*не скоро

Кто нибудь дураку может объяснить?

Постоянно вижу фразы про цену

И тут "стоимость выполнения одной задачи составила $6.34."

Вот я использую для программирования чат гпт ща подписку в 20 долларов в месяц и днями сижу и он мне генерирует код. Что я упускаю, есть какие то другие нейронки, которым надо за задачи платить?

Почему не используют подписку, по которой затраты всегда фиксированы в 20 баксов за месяц, а за месяц может написать миллионы строк кода, выполнить сотни задач

У чатгпт есть не только чатик на сайте но и доступ через апи, можно делать запросы из своих программ. Например в VS Code можно подключить и там использовать для автодополнения или как агента, агент там - просто пишешь ему что делать и он делает, файлы создает и редактирует, комитит на гитхаб сам итп.

Запросы через апи тарифицируются отдельно, каждый запрос стоит каких то денег, например 10 центов. Если агент сделал 60 запросов выполняя твоё задание то он сожрет 6 долларов.

Интересно, что никто не пишет об использовании ИИ для решения инженерных задач (разработки и проектирования)

Хороший кандидат для таких тестов — это, например, агент Manus. Он уже умеет выполнять задачи в стиле офисных сотрудников: анализировать документы, писать письма, формировать отчёты, даже запускать автоматические сценарии. Было бы интересно включить такого рода ИИ в сравнительный анализ — как минимум для оценки перспектив замены рутинной офисной работы.

Тут вопрос скорее такой, а будут ли нкйронки развиваться с тойже скорость, по моим личным ощущениям Клод 3.5 не намного хуже чем 3.7.

Они развиваются с гигантской скоростью. Я помню еще совсем недавно, пару лет назад, клод был глупее чем gpt3.5 а теперь можно локально запустить qwen3-8b на одной rtx3060 и получить результат лучше чем был тогда у самых больших моделй.

А примеры задач к теме текста отношения совсем не имеют?

UFO landed and left these words here
Sign up to leave a comment.

Articles