andre_dataist May 6 2025 at 10:20

Может ли ИИ заменить вас на работе? Ученые проверили на 175 задачах

4 min

23K

Artificial IntelligenceMachine learning *

Review

Comments 17

UFO landed and left these words here

413x May 6 2025 at 20:18

Серьезные исследования быстро не делаются, вероятно давно еще начали

thethee May 7 2025 at 18:55

В серьезных исследованиях таблички обновляются по мере выхода моделей, иногда в процессе подачи на конференцию в спешке дорисовывают актуальные результаты и переписывают выводы если что то изменилось.

Дорогие проприетарные модели ещё можно понять, но если хватило на запуск llama 3.1, то явно хватило бы на запуск qwen3, который эту лламу ни во что не ставит и рекламируется как почти равный chatgpt в общем плане и почти равный sonnet 3.5 в коде. Интересно было бы посмотреть на актуальные данные от моделей которыми действительно пользуются люди.

Сфера развивается быстро, от этого никуда не деться, конечно.

dibu28 May 7 2025 at 06:03

DeepSeek R1 ещё, и новый v3

SmirnGreg May 7 2025 at 13:47

Здесь все модели не reasoning, конечно они ограничены

Zdnkaa May 11 2025 at 09:49

Оригинал исследования (ссылка в посте).

Дата 2024 декабрь.

Работа сделана до выхода этих нейросетей🤦

Ratenti May 6 2025 at 15:56

Есть преимущество от создания проекта с помощью такой команды агентов по сравнению с просто одним агентом?

savostin May 6 2025 at 18:57

Просто не надо их заставлять решать задачи по-человечески. Дайте им глобальную задачу и пусть они сами выберут сотрудников, способ взаимодействия и инструменты. Вот тогда и посмотрим скоро ли они нас захватят*

*не скоро

idamdi May 7 2025 at 12:20

Кто нибудь дураку может объяснить?

Постоянно вижу фразы про цену

И тут "стоимость выполнения одной задачи составила $6.34."

Вот я использую для программирования чат гпт ща подписку в 20 долларов в месяц и днями сижу и он мне генерирует код. Что я упускаю, есть какие то другие нейронки, которым надо за задачи платить?

Почему не используют подписку, по которой затраты всегда фиксированы в 20 баксов за месяц, а за месяц может написать миллионы строк кода, выполнить сотни задач

UFO landed and left these words here

ALT0105 May 7 2025 at 14:51

Интересно, что никто не пишет об использовании ИИ для решения инженерных задач (разработки и проектирования)

OmniGlyph May 7 2025 at 18:43

Хороший кандидат для таких тестов — это, например, агент Manus. Он уже умеет выполнять задачи в стиле офисных сотрудников: анализировать документы, писать письма, формировать отчёты, даже запускать автоматические сценарии. Было бы интересно включить такого рода ИИ в сравнительный анализ — как минимум для оценки перспектив замены рутинной офисной работы.

TornadoTheHunter May 8 2025 at 01:31

Тут вопрос скорее такой, а будут ли нкйронки развиваться с тойже скорость, по моим личным ощущениям Клод 3.5 не намного хуже чем 3.7.

UFO landed and left these words here

cupraer May 8 2025 at 04:04

А примеры задач к теме текста отношения совсем не имеют?

UFO landed and left these words here