Pull to refresh

Comments 16

Вместо этого OpenAI планирует выпустить модель сначала для компаний, с которыми она тесно сотрудничает

OpenAI ведь планировалась как open, да? Чтобы все могли пользоваться. Вроде бы я что-то такое читал

Anthropic от них и отпочковались, потому что там не совсем Open было. Хотя те в принципе тоже не совсем. Я не могу не просто с российского ip зайти на Claude ai, а даже если в меня в гугл-аккаунте русский язык. Даже если я живу в США на Брайтон Бич. Забавная ситуация

В будущем компания планирует объединить свои большие языковые модели, чтобы создать более эффективную модель, которую будет можно назвать общим искусственным интеллектом (artificial general intelligence, AGI).

То есть сложим все Т9 в один суперпупер-Т9, это и будет agi? Амбиции как-то поугасли

Ничего не мешает достаточно навороченному "Т9" достичь уровня AGI.

Дураки просто слышат краем уха про "предсказание следующего токена", и носятся потом с ором про "это ж просто автокомплит, никакого ИИ там нет, все эти исследователи ИИ просто идиоты и один я тут умный".

Если подразумевать под agi навороченный t9 - ничего не мешает, конечно.

Под AGI я подразумеваю AGI. Интеллект, аналогичный по производительности человеческому.

В мозгах лысой обезьяны магии нет. И даже текущее поколение LLM воспроизводит многие из функций человеческого разума.

Чем вы меряете производительность интеллекта? Как я могу измерить, например, производительность собственного интеллекта?

На задачах, конечно же. Уже есть целые наборы тестов, которыми можно долбить ИИ и оценивать их производительность. И по мере "насыщения" старых тестов выкатываются новые.

По мере "прокачки" ИИ количество задач и тестов, на которых напрямую можно сравнивать производительность машин и людей, тоже растёт.

Повторю вопрос - как я могу оценить производительность собственного интеллекта? Чтобы затем применить тот же метод оценки к llm и произвести сравнение. По каким ключам искать статьи с описанием такого метода?

Решение одного или нескольких типов задач - это не оценка интеллекта, это оценка точности решения определенным образом сформулированнных задач.

Полностью никак. Но можешь найти любой из используемых сейчас бенчей для ИИ. И быть на нём киберуниженным GPT-o1-preview.

Пересечение способностей машинного разума со способностями разума человека всё ещё ограничено. Но там, где способности пересекаются, их можно сравнивать.

Компьютер обыграл чемпиона мира 27 лет назад - какое киберунижение!

Бенчмарки для llm не создавались для оценки интеллекта, ни человеческого, ни языковой модели. Ну не стоит просто перед исследователем задачи - оценить интеллект. Оценить успешность в решении определённой задачи - да.

Хотя и здесь проблемы - то, оказывается, часть датасета могла быть скормлена модели при обучении, то при незначительном изменении формулировки задачи скор падает.

В результате оказывается, что создать качественный бенч для оценки способности llm решить определённую задачу на определённом наборе данных - само по себе нетривиальная проблема, какая там оценка интеллекта?

Я рассчитывал на какой-то аргумент, о котором можно поразмышать. Но не вышло

Ну так способности компьютеров с тех пор подросли. И теперь одна и та же система может киберунижать среднего человека не только в шахматах, но и в намного более широком спектре задач.

В "AI" пропихивают всё больше и больше "G". Широта охвата растёт, "слепые пятна" сжимаются. Такими темпами можно и до AGI доползти.

Полностью никак. Но можешь найти любой из используемых сейчас бенчей для ИИ. И быть на нём киберуниженным GPT-o1-preview.

Я бы не был настолько уверен в этих словах.

А так, показатели на бенчмарках обычно не показывают реальные способности модели к решению задач. Не говоря уж о том, что можно намеренно скормить в модель бенчмарк, на котором собираешься проводить замеры.

Эм... Разве сравнение производительности на определенных классах задач даёт право называть более производительный инструмент AGI? Ведь, если так рассуждать, то самый банальный калькулятор в разы быстрее и точнее решает математические задачи.

На мой взгляд, у современных llm не хватает главного: понимания того, что она делает и с чем работает (не путать с возможностью решения задач, части которых были в обучающей выборке) и возможности самообучения. AGI появится только тогда, когда, грубо говоря, можно будет дать (сразу или кусками) пустой болванке какую то информацию (в абсолютно неструктурированном виде, а не готовый датасет) и рано или поздно она научится с ней работать без какого либо воздействия со стороны, а с воздействием со стороны - научится быстрее.

Пока llm могут хорошо решать задачи только в специально оформленном виде (промтинг и вот это вот все) и только при наличии примерно похожих задач в обучающей выборке (причем там должен быть солидный объем данных на эту тему, иначе ничего не получится), то ни каким AGI пахнуть не будет.

Увеличение размера датасетов и запил костылей для каждого из случаев, когда что то работает не так - это не путь к AGI, а скорее путь к тупику. Я верю, что AGI возможен, но так же я понимаю, что llm никогда agi не станет просто в силу своих фундаментальных ограничений. Потолок llm - это, если провести аналогию с изображениями - плоская картинка фильма на экране: выглядит как что то реальное, но ни один человек (ну, за исключением людей с отклонением восприятия) не перепутает ее с картинкой за окном

Sign up to leave a comment.

Other news