Search
Write a publication
Pull to refresh

Comments 17

UFO landed and left these words here

Задачи выполняли семь современных языковых моделей:

  • Claude-3.5 Sonnet

  • Gemini-2.0 Flash

  • GPT-4o

  • Amazon Nova Pro

  • Llama-3.1 405B

  • Llama-3.3 70B

  • Qwen-2.5 72B

Ни одной свежей модели? клод 3.7, джемини 2.5, гпт 4.1, амазон хз, ллама4, квен3

Серьезные исследования быстро не делаются, вероятно давно еще начали

В серьезных исследованиях таблички обновляются по мере выхода моделей, иногда в процессе подачи на конференцию в спешке дорисовывают актуальные результаты и переписывают выводы если что то изменилось.

Дорогие проприетарные модели ещё можно понять, но если хватило на запуск llama 3.1, то явно хватило бы на запуск qwen3, который эту лламу ни во что не ставит и рекламируется как почти равный chatgpt в общем плане и почти равный sonnet 3.5 в коде. Интересно было бы посмотреть на актуальные данные от моделей которыми действительно пользуются люди.

Сфера развивается быстро, от этого никуда не деться, конечно.

Здесь все модели не reasoning, конечно они ограничены

Оригинал исследования (ссылка в посте).

Дата 2024 декабрь.

Работа сделана до выхода этих нейросетей🤦

Есть преимущество от создания проекта с помощью такой команды агентов по сравнению с просто одним агентом?

Просто не надо их заставлять решать задачи по-человечески. Дайте им глобальную задачу и пусть они сами выберут сотрудников, способ взаимодействия и инструменты. Вот тогда и посмотрим скоро ли они нас захватят*

*не скоро

Кто нибудь дураку может объяснить?

Постоянно вижу фразы про цену

И тут "стоимость выполнения одной задачи составила $6.34."

Вот я использую для программирования чат гпт ща подписку в 20 долларов в месяц и днями сижу и он мне генерирует код. Что я упускаю, есть какие то другие нейронки, которым надо за задачи платить?

Почему не используют подписку, по которой затраты всегда фиксированы в 20 баксов за месяц, а за месяц может написать миллионы строк кода, выполнить сотни задач

UFO landed and left these words here

Интересно, что никто не пишет об использовании ИИ для решения инженерных задач (разработки и проектирования)

Хороший кандидат для таких тестов — это, например, агент Manus. Он уже умеет выполнять задачи в стиле офисных сотрудников: анализировать документы, писать письма, формировать отчёты, даже запускать автоматические сценарии. Было бы интересно включить такого рода ИИ в сравнительный анализ — как минимум для оценки перспектив замены рутинной офисной работы.

Тут вопрос скорее такой, а будут ли нкйронки развиваться с тойже скорость, по моим личным ощущениям Клод 3.5 не намного хуже чем 3.7.

UFO landed and left these words here

А примеры задач к теме текста отношения совсем не имеют?

UFO landed and left these words here
Sign up to leave a comment.

Articles