В цитате написано не то, что ее обучали на математике. Если бы все этим ограничивалось, то как раз было бы правильно. Там написано, однако, что обученой на чем-то еще сети дали для этой задачи базу даннных по математическим проблемам и дополнительные инструкции как отвечать на вопросы которые видимо составлял человекз, знающий как попасть в заветные топ 8% для получения золота.
Для сравнения в 2024 году те же компании выставили сеть которй для участия требовался человек-интерпретатор задачи в специальную нотацию которую видимо уже сеть может понять или скормить вспомогательному тулу или по которой можно найти данные в специализированной бд-шпоргалке. В этом году интерпретатор уже не потребовался, но думаю что суть поддержки, которую получает сеть "общего назначения", чтобы начать решать математические задачи можно оценить.
Потому что аддоны не часть ЛЛМ. Это внешние интерфейсы. Суть аргументации автора и цитируемых статей в том и состоит - ЛЛМ невозможно считать полноценной самодостатояной архитектурой, потому что ей требуются "аддоны" чтобы дойти в тестах на "спосбность думать" даже до уровня одаренного школьника. Поэтому предложено искать другие архитектуры, а не пытаться увеличить размер сети еще в 10, 100, 1000 раз.
Умение обощать и находить аналогии свойственно не только ЛЛМ. А вот отсутствие способности инвертировать отношения между объектами это дефект для устранения котрого и предложено искать альтернативы.
Кажется я лучше понииаю Вашу позицию, но тут проблема с моей точки зрения в системе координат. У нас нет эталонного теста на разумность, а только мешок из суррогатов. Школьники тестируются на одном наборе, ЛЛМ в основном на других, но иногда вот совпадают метрики. Но они очень несовершенны. И автор приводит примеры задач с которыми ЛЛМ фундаментально не справляются, а школьники (большинство, но не обязательно все) справились бы. Вы в свою очередь приводите в пример метрику по которой отличить ЛЛМ от школьника больше нельзя. Но это не отменяет существования тех по которым можно. И суть этих метрик врядли можно назвать тривиальной или несущественной. Поэтому пока, если верить сути цитируемх публикаций, нет проблемы двух стульев. Есть отличия и по этим отличиям пока можно считать, что ЛЛМ пока не умеют думать на уровне школьника.
Это по сути Вашего сравнения со школьниками.
А по сути моего утверждения, то оно все еще про чистые ЛЛМ без созданных человеком данных или систем. По этому определнию Ваш контрпример не подходит.
И суть статьи как я понимаю про то же - нам нужны альтернативы именно ЛЛМ чтобы улучшить результаты всей систесы в целом.
Но мы то обсуждаем способность ЛЛМ без "аддонов" решать такие задачи, а не способность ЛЛМ с такой помощью решать школьные задачи повышеной сложности. Эта шпоргалка и есть локальная база, да еще и качественно подобраная человеком, чтобы решать конкретный класс задач на котром сеть будут "проверять". Без нее очевидно ожидаемый результат был очень грустным и не интересным в качестве пиара.
Я не отрицаю способность ЛЛМ с внешними костылями которые пристроил человек решать и более сложные задачи. Но Вы же говорите про способность ЛЛМ думать. Маловероятно, что эта способность появляется от добавления в систему поиска по интернету. Про такое "думание" и у школьниуов вам любой школьный учитель расскажет много хорошего.
"To make the most of the reasoning capabilities of Deep Think, we additionally trained this version of Gemini on novel reinforcement learning techniques that can leverage more multi-step reasoning, problem-solving and theorem-proving data. We also provided Gemini with access to a curated corpus of high-quality solutions to mathematics problems, and added some general hints and tips on how to approach IMO problems to its instructions." И вручили воооооот такую шпоргалку по решению задач этой олимпиады ну так, на всякий случай.
LLM без костылей вообще мало что могут. Архитектура ChatGPT это уже давно не только LLM. Это и интергация со статическими базами фактов и с динамическими источниками вроде поиска в интернете или по локальным документам. Это куча вспомогательных вычислительных средств, которые расширяют очень грустные математические способности LLM. И, вероятно, еще куча разных проприетарных хаков и скрытых инструкций о которых мы не догадываемся.
Например так. 50 лет назад болезни сопутствующие избыточному весу приводили к очень ранним смертям. Для примера у женщин повышеный вес при беременности создает огромные риски развития временного диабета и других побочек не считая размер плода. Вот 50 лет назад на эту половину населения действоали эффекты дичайшего отбора по Дарвину. Не думаю что это единственный компонент, но генетика вполне может быть фактором именно в силу резкого роста генетического разнообразия под влиянием медицинских достижений.
К тому что уже ответили добавлю. Еще есть очень неприятный эффект адаптации. Как только калорий становится мало организм начинает оптимизировать внутреннюю кухню чем снидает суточный расход калорий. Эти оптимизации потом очень медленно откатываются если вообше. Плюс в том что неоптимизирлванный расход энергии на внутренние дела (в первую очередь на иммунитет) приводит к хроническим болезням из-за например избыточной активности того же иммунитета. Так что даже сбросив 10 кг Вы сделали себе большую пользу в долгосрочной перспективе.
Кстати недавно была волна популяризации имени Веритасиума о том, что свет на самом деле ни по какому кратчайшему пути не идет, а по всем вощможным сразу. Просто для большинства путей сумма из-за фазового сдвига стремится к нулю и только пути рядом с кратчайшим дают ненулевое значение.
И как они, хорошо оптимизируют порядок независимых команд, чтобы выжать максимум из пайплайнового параллелизма современных процессоров в которых микроархитектура это в общем черный ящик да еще и такой, который от варианта к варианту и от версии к версии процессора меняется? Или они топорно меняю цикл на векторные инстрцкции везде где видят и на этом все?
Я могу поверить в хорошую оптимизацию, когда вендор поставляет свой компилятор под свое железо потому что у них (возможно) есть внтуренние доки и качественные эмуляторы для тестов. Но тогда возникают вопрос, а достаточно ли один вендор может выдедить ресурсов на разработку своего компилятора.
А это точно не логи ради логов? Была когда-то вроде даже на хабре прохладная история о том как в пятницу вечером пытались понять почему падает производительность системы добавляя и добавляя новые логи. Пока в конечном итоге просто не грохнули их все и заработало как должно.
Так то судя по всему Кармак именно о том и говорит, что модульная микросервисная архитектура пораждает оверхеды (в том числе на логирование потому что как иначе разбираться что там сломалось) и без вот этого всего можно было бы жить гораздо эффективнее.
Мне кажется конверсия в просмотры видео (и качество просмотров) будет больше, если Вы покажете суть этого четвертого этапа в статье. КМК одной интригой тут не отделаетесь. За остальное - спасибо. Было интересно, хоть начало и ощущается хамовато. Но это, видимо, специфика профсреды.
А что принципиально невозможного? Если SIMD блоки отключаются флагами, то всегда просто можно выбрать, что Вам нужно. Не считая этого Армы как раз и эффективны потому что у них почти всегда есть деление на энергоэффективные ядра без этих вот наворотов вообще да и еще и с маленьким кэшем, урезаным пайплайном и почти без спекуляций и на производительные для тех кейсов, где либо время критично либо тех, где использование SIMD даст больше FLOPS/W
Настоящая дихотомия это энергоэффективность (много кусков которые работают попеременно каждый эффективно и на низких частотах) vs пиковая производительность (энергоэффективность важна, но фокус на выжимаем каждый флопс производительности из доступного теплопакета). Вот со вторым Армы даже не пытаются.
Спасибо за детальный разбор. Морфологический анализ уже давно существует и теперь видимо лишь добавили в контекст для самой сетки. Про использование внешних графов знаний это тоже совершенно логичное развитие в духе "сейчас заработаем денег, а AGI подождет". Согласен, что это вообще ни разу не правильный путь. Равно как и интеграция со всеми возможными тулами от интерпретатора питона до гугла и вольфрама. Все это - красивые обои на кривых стенах.
Для себя сделал вывод, что ИИ уже совсем не бесполезен, но это скорее гугл на стероидах, который за тебя проверит все найденые страницы в локальной песочнице и выдаст как ответ только то, что больше всего похоже на ответ на заданый вопрос. О достоверности ответов тут нет смысла КМК даже рассуждать про вероятности и нюансы передачи времени в языках. Их учат на изначально недостоверном датасете (привет интернет!) так еще и онлайн данные все оттуда же. Как ни старайся, но закон shit in - shit out они не обойдут. Особенно, если змея начнет действительно кушать продукты своей же жизнедеятельности.
А вот про перспективы и истерики я скорее обеспокоен не смотря на Ваши наблюдения. Совсем не нужен AGI, чтобы сломать мировую экономику и устроить хаос с падением уровня жизни для всех. Да и уровень доступности и применимости общественно опасной информации чатботы резко повышают, что пораждает гораздо больший чем раньше класс потенциальных сумасшедших с опасными навыками. Будет ли положительный эффект достаточным, чтобы эти риски компенсировать я сказать не могу, а Вы?
Биороботы зато есть. Отлично справляются с этой работой и можно загрузить любой программой в том числе направленой на уничтожение себе подобных. Да что там. На уничтожение своих ближайших родственников даже. Главное быть убедительным. А это ИИ уже умеет.
В цитате написано не то, что ее обучали на математике. Если бы все этим ограничивалось, то как раз было бы правильно. Там написано, однако, что обученой на чем-то еще сети дали для этой задачи базу даннных по математическим проблемам и дополнительные инструкции как отвечать на вопросы которые видимо составлял человекз, знающий как попасть в заветные топ 8% для получения золота.
Для сравнения в 2024 году те же компании выставили сеть которй для участия требовался человек-интерпретатор задачи в специальную нотацию которую видимо уже сеть может понять или скормить вспомогательному тулу или по которой можно найти данные в специализированной бд-шпоргалке. В этом году интерпретатор уже не потребовался, но думаю что суть поддержки, которую получает сеть "общего назначения", чтобы начать решать математические задачи можно оценить.
Потому что аддоны не часть ЛЛМ. Это внешние интерфейсы. Суть аргументации автора и цитируемых статей в том и состоит - ЛЛМ невозможно считать полноценной самодостатояной архитектурой, потому что ей требуются "аддоны" чтобы дойти в тестах на "спосбность думать" даже до уровня одаренного школьника. Поэтому предложено искать другие архитектуры, а не пытаться увеличить размер сети еще в 10, 100, 1000 раз.
Умение обощать и находить аналогии свойственно не только ЛЛМ. А вот отсутствие способности инвертировать отношения между объектами это дефект для устранения котрого и предложено искать альтернативы.
Кажется я лучше понииаю Вашу позицию, но тут проблема с моей точки зрения в системе координат. У нас нет эталонного теста на разумность, а только мешок из суррогатов. Школьники тестируются на одном наборе, ЛЛМ в основном на других, но иногда вот совпадают метрики. Но они очень несовершенны. И автор приводит примеры задач с которыми ЛЛМ фундаментально не справляются, а школьники (большинство, но не обязательно все) справились бы. Вы в свою очередь приводите в пример метрику по которой отличить ЛЛМ от школьника больше нельзя. Но это не отменяет существования тех по которым можно. И суть этих метрик врядли можно назвать тривиальной или несущественной. Поэтому пока, если верить сути цитируемх публикаций, нет проблемы двух стульев. Есть отличия и по этим отличиям пока можно считать, что ЛЛМ пока не умеют думать на уровне школьника.
Это по сути Вашего сравнения со школьниками.
А по сути моего утверждения, то оно все еще про чистые ЛЛМ без созданных человеком данных или систем. По этому определнию Ваш контрпример не подходит.
И суть статьи как я понимаю про то же - нам нужны альтернативы именно ЛЛМ чтобы улучшить результаты всей систесы в целом.
Но мы то обсуждаем способность ЛЛМ без "аддонов" решать такие задачи, а не способность ЛЛМ с такой помощью решать школьные задачи повышеной сложности. Эта шпоргалка и есть локальная база, да еще и качественно подобраная человеком, чтобы решать конкретный класс задач на котром сеть будут "проверять". Без нее очевидно ожидаемый результат был очень грустным и не интересным в качестве пиара.
Я не отрицаю способность ЛЛМ с внешними костылями которые пристроил человек решать и более сложные задачи. Но Вы же говорите про способность ЛЛМ думать. Маловероятно, что эта способность появляется от добавления в систему поиска по интернету. Про такое "думание" и у школьниуов вам любой школьный учитель расскажет много хорошего.
"To make the most of the reasoning capabilities of Deep Think, we additionally trained this version of Gemini on novel reinforcement learning techniques that can leverage more multi-step reasoning, problem-solving and theorem-proving data. We also provided Gemini with access to a curated corpus of high-quality solutions to mathematics problems, and added some general hints and tips on how to approach IMO problems to its instructions."
И вручили воооооот такую шпоргалку по решению задач этой олимпиады ну так, на всякий случай.
LLM без костылей вообще мало что могут. Архитектура ChatGPT это уже давно не только LLM. Это и интергация со статическими базами фактов и с динамическими источниками вроде поиска в интернете или по локальным документам. Это куча вспомогательных вычислительных средств, которые расширяют очень грустные математические способности LLM. И, вероятно, еще куча разных проприетарных хаков и скрытых инструкций о которых мы не догадываемся.
Например так. 50 лет назад болезни сопутствующие избыточному весу приводили к очень ранним смертям. Для примера у женщин повышеный вес при беременности создает огромные риски развития временного диабета и других побочек не считая размер плода. Вот 50 лет назад на эту половину населения действоали эффекты дичайшего отбора по Дарвину.
Не думаю что это единственный компонент, но генетика вполне может быть фактором именно в силу резкого роста генетического разнообразия под влиянием медицинских достижений.
К тому что уже ответили добавлю. Еще есть очень неприятный эффект адаптации. Как только калорий становится мало организм начинает оптимизировать внутреннюю кухню чем снидает суточный расход калорий. Эти оптимизации потом очень медленно откатываются если вообше. Плюс в том что неоптимизирлванный расход энергии на внутренние дела (в первую очередь на иммунитет) приводит к хроническим болезням из-за например избыточной активности того же иммунитета. Так что даже сбросив 10 кг Вы сделали себе большую пользу в долгосрочной перспективе.
Кстати недавно была волна популяризации имени Веритасиума о том, что свет на самом деле ни по какому кратчайшему пути не идет, а по всем вощможным сразу. Просто для большинства путей сумма из-за фазового сдвига стремится к нулю и только пути рядом с кратчайшим дают ненулевое значение.
Замер PewDiePie эффекта удался. Неплохой такой эффект на 0.42% рынка. Ему бы инфлуэнсером работать. А хотя погодите.
И как оно у них, нормально тепло отводило? Не мешало процессору остывать?
И как они, хорошо оптимизируют порядок независимых команд, чтобы выжать максимум из пайплайнового параллелизма современных процессоров в которых микроархитектура это в общем черный ящик да еще и такой, который от варианта к варианту и от версии к версии процессора меняется? Или они топорно меняю цикл на векторные инстрцкции везде где видят и на этом все?
Я могу поверить в хорошую оптимизацию, когда вендор поставляет свой компилятор под свое железо потому что у них (возможно) есть внтуренние доки и качественные эмуляторы для тестов. Но тогда возникают вопрос, а достаточно ли один вендор может выдедить ресурсов на разработку своего компилятора.
А это точно не логи ради логов? Была когда-то вроде даже на хабре прохладная история о том как в пятницу вечером пытались понять почему падает производительность системы добавляя и добавляя новые логи. Пока в конечном итоге просто не грохнули их все и заработало как должно.
Так то судя по всему Кармак именно о том и говорит, что модульная микросервисная архитектура пораждает оверхеды (в том числе на логирование потому что как иначе разбираться что там сломалось) и без вот этого всего можно было бы жить гораздо эффективнее.
Мне кажется конверсия в просмотры видео (и качество просмотров) будет больше, если Вы покажете суть этого четвертого этапа в статье. КМК одной интригой тут не отделаетесь. За остальное - спасибо. Было интересно, хоть начало и ощущается хамовато. Но это, видимо, специфика профсреды.
А что принципиально невозможного? Если SIMD блоки отключаются флагами, то всегда просто можно выбрать, что Вам нужно. Не считая этого Армы как раз и эффективны потому что у них почти всегда есть деление на энергоэффективные ядра без этих вот наворотов вообще да и еще и с маленьким кэшем, урезаным пайплайном и почти без спекуляций и на производительные для тех кейсов, где либо время критично либо тех, где использование SIMD даст больше FLOPS/W
Настоящая дихотомия это энергоэффективность (много кусков которые работают попеременно каждый эффективно и на низких частотах) vs пиковая производительность (энергоэффективность важна, но фокус на выжимаем каждый флопс производительности из доступного теплопакета). Вот со вторым Армы даже не пытаются.
Спасибо за детальный разбор. Морфологический анализ уже давно существует и теперь видимо лишь добавили в контекст для самой сетки. Про использование внешних графов знаний это тоже совершенно логичное развитие в духе "сейчас заработаем денег, а AGI подождет". Согласен, что это вообще ни разу не правильный путь. Равно как и интеграция со всеми возможными тулами от интерпретатора питона до гугла и вольфрама. Все это - красивые обои на кривых стенах.
Для себя сделал вывод, что ИИ уже совсем не бесполезен, но это скорее гугл на стероидах, который за тебя проверит все найденые страницы в локальной песочнице и выдаст как ответ только то, что больше всего похоже на ответ на заданый вопрос. О достоверности ответов тут нет смысла КМК даже рассуждать про вероятности и нюансы передачи времени в языках. Их учат на изначально недостоверном датасете (привет интернет!) так еще и онлайн данные все оттуда же. Как ни старайся, но закон shit in - shit out они не обойдут. Особенно, если змея начнет действительно кушать продукты своей же жизнедеятельности.
А вот про перспективы и истерики я скорее обеспокоен не смотря на Ваши наблюдения. Совсем не нужен AGI, чтобы сломать мировую экономику и устроить хаос с падением уровня жизни для всех. Да и уровень доступности и применимости общественно опасной информации чатботы резко повышают, что пораждает гораздо больший чем раньше класс потенциальных сумасшедших с опасными навыками. Будет ли положительный эффект достаточным, чтобы эти риски компенсировать я сказать не могу, а Вы?
Потому что брэнд скайпа притягивал больше клиентов?
Не знаю. У меня в контракте с клиентом написано, что я не могу продавать им код иначе как чистый от претензий третих сторон. Хоть и не опенсорс.
Всегда ведь есть риск утечек или что кто-нибудь потыкает функции из библиотек и сравнит вывод с известными опенсорс проектами.
Судя по результатам опроса вопрос копирайта уже решен или стандартом кодинга стало заливание на прод всего подряд не взирая на юридические риски.
Биороботы зато есть. Отлично справляются с этой работой и можно загрузить любой программой в том числе направленой на уничтожение себе подобных. Да что там. На уничтожение своих ближайших родственников даже. Главное быть убедительным. А это ИИ уже умеет.