Не на всех, даже если отсчёт на архиве открыть, то там написано, что Common crawl, при чем только по последним годам, также книги/энциклопедии, 230 млрд токенов для кода и синтетику для математики.
Я вас в очередной раз прошу показать хоть какие-то результаты на простейших бенчмарках. Говорить можно что угодно, но где результат?
К примеру, если где-то используют эти архитектуры, но при этом они не покорили большую массу (так как после релиза chatgpt думаю нашлись бы те, кто бы захотел провернуть тоже самое, но с более "лучшей" архитектурой) - значит скорее всего они выгодны для узкого спектра задач, а не широкого.
Если я Вам дам ссылки, бенчмарки и прочее, Вы мне не будете верить - мало ли - придумал.
Как вы удобно за меня все решили.
А вообще, под эту ситуацию подходит это.
Потому что, доказательства работы LLM как хорошего инструмента в определенных областях найти легко. И я могу подкреплять ими свои слова, а вот ваши утверждения остаются просто утверждениями.
Я лично не против что бы там что-то уделало что-то, я хочу взглянуть, а действительно ли это так, без тестов можно говорить что угодно. А вот вы мне показалось напротив, везде принижаете LLM, хотя опять же, не нужно принижать инструмент только за то, что он способен выполнять определенные задачи, и претендует на пост будущего AGI. Доказательств того, что это невозможно - нет.
Вы так пишите, будто это болезнь. Если это инструмент, и он вполне неплохо работает, например проходит AIME 2025 на 100%, то в чем проблема? Если уж и критиковать, то прилагать бенчмарки чего-то другого, что бы опирается формально на что-то, иначе возникает риск предвзятости.
На неё работают лучшие инженеры и программисты
Если в openai, google или xAI занимаются LLM, то там автоматом не лучшие?
LLM действительно "помнит" контекст, но только пока он умещается в "окно внимания". Как только контекст сдвигается, то "модель мира" исчезает.
Математически трансформеры могут обрабатывать сколько угодно длинный контекст. На практике конечно нет, но, очевидно, что и ваша модель будет упирается в физику и возможности человеческих технологий.
Ну, во-первых, его происхождение с греческого, а не латыни. Но в любом случае смысл современных терминов не обязан совпадать с древней этимологией. По этой логике атом ("неделимый") тоже "не научный", хотя физика давно изучает делимые атомы. Во-вторых, не нужно пользоваться грязными приемчиками и переводить тему в вопросы метафизики, речь шла о современной психологии.
Не на всех, даже если отсчёт на архиве открыть, то там написано, что Common crawl, при чем только по последним годам, также книги/энциклопедии, 230 млрд токенов для кода и синтетику для математики.
Расстояние Минковского.
Я вас в очередной раз прошу показать хоть какие-то результаты на простейших бенчмарках. Говорить можно что угодно, но где результат?
К примеру, если где-то используют эти архитектуры, но при этом они не покорили большую массу (так как после релиза chatgpt думаю нашлись бы те, кто бы захотел провернуть тоже самое, но с более "лучшей" архитектурой) - значит скорее всего они выгодны для узкого спектра задач, а не широкого.
Как вы удобно за меня все решили.
А вообще, под эту ситуацию подходит это.
Потому что, доказательства работы LLM как хорошего инструмента в определенных областях найти легко. И я могу подкреплять ими свои слова, а вот ваши утверждения остаются просто утверждениями.
Ключевое слово - думаю.
Я лично не против что бы там что-то уделало что-то, я хочу взглянуть, а действительно ли это так, без тестов можно говорить что угодно. А вот вы мне показалось напротив, везде принижаете LLM, хотя опять же, не нужно принижать инструмент только за то, что он способен выполнять определенные задачи, и претендует на пост будущего AGI. Доказательств того, что это невозможно - нет.
Вы так пишите, будто это болезнь. Если это инструмент, и он вполне неплохо работает, например проходит AIME 2025 на 100%, то в чем проблема? Если уж и критиковать, то прилагать бенчмарки чего-то другого, что бы опирается формально на что-то, иначе возникает риск предвзятости.
Если в openai, google или xAI занимаются LLM, то там автоматом не лучшие?
Ну так по их результатам он и прав:)
Берём SSM, состояние и будет по сути, для модели памятью о тексте.
Громкое заявление.
Математически трансформеры могут обрабатывать сколько угодно длинный контекст. На практике конечно нет, но, очевидно, что и ваша модель будет упирается в физику и возможности человеческих технологий.
При чем тут хабы Искусственный интеллект и машинное обучение?
Ну вдруг для инвестора это важно)
Банально, что введённый текст соответствует одному единственному распределению вероятностей по токенам, уже утверждает что это функция.
Нет, это в первую очередь функция.
Да-да
Ну, во-первых, его происхождение с греческого, а не латыни. Но в любом случае смысл современных терминов не обязан совпадать с древней этимологией. По этой логике атом ("неделимый") тоже "не научный", хотя физика давно изучает делимые атомы. Во-вторых, не нужно пользоваться грязными приемчиками и переводить тему в вопросы метафизики, речь шла о современной психологии.
Ну тогда Oxford English Dictionary дает неверное определение, а так же в American Psychological Association работают мракобесы?
Мне кажется лучший момент это проверка модераторами, да, ошибка первого рода будет критичной, но все таки.
Ну почему же, вот оно.