Хорошие новости для кожаных мешков: мы пока еще в деле

У меня уже давно было убеждение что профессии, которые нейронные сети смогут заменить позже всего — это профессии, связанные с аналитикой и исследовательской работой. В самой этой мысли, конечно, ничего удивительного нет, удивительно то, на сколько самые крутые языковые модели, такие как GPT-4 Turbo, отстают от человека в решении таких задач — в десятки и более раз! Наглядно это продемонстрировали результаты, полученные учёными из нескольких ведущих мировых групп, занимающихся исследованиями и разработками искусственного интеллекта, ребята неплохо потрудились и представили новый набор данных с 466 задачами для оценки качества сильных-искусственно-интеллектуальных ассистентов (General AI Assistants). На этих задачах были проверены наиболее мощные языковые модели и агенты, работающие на их базе, а также произведено сравнение с решением этих же задач людьми.
Задачи разделены на три уровня сложности и для смакования превосходства над железяками давайте разберем по одной задаче из каждого уровня в порядке возрастания сложности. А судить о степени прокаченности «естественного» интеллекта необходимой для ответов на подобные вопросы оставлю уже вам.





Что будет, если по аналогии с двущелевым опытом, все пространство на пути частицы до экрана будет заполнено щелями? 



