при 300 процентах (прибыли) нет такого преступления, на которое он (капитал) не рискнул бы, хотя бы под страхом виселицы
Не надо сравнивать коммерческую компанию и "традиции" Англии. Компании прогнулись - потому как им было это выгодно.
В чем тут выгода - вопрос отдельный. Но ни один бизнес долго не просуществует, если его владелец будет действовать из соображений "удовлетворения своих прихотей", особенно если это грозит уменьшением прибыли в долгосрочный период. Один-два раза это еще может и сработает. Но не на долго.
И в данном случае вполне может быть "ввели ограничения" - хайпанули. "Отменили ограничения" - хайпанули еще раз. Два раза хайпанули на ровном месте - чем не повод для радости?
Я и по другому опыту сужу - например, загадка "А, И, Б сидели на трубе. А упала. Б пропала. Кто остался на трубе?". Да, приходит к верному ответу, но очень долго ищет подвох.
А если спросить не выделяя И ("А и Б сидели на трубе. А упала. Б пропала. Кто остался на трубе?"), то на трубе у меня остается "труба". Причем в размышлениях он упоминает, что это "игра слов" и "известная шутка" на русском.
Но это все не так важно на самом деле - все равно с ИИ стараешься максимально понятный и прозрачный запрос давать. И игра слов в запросе явно этому не способствует.
Неразумно думать, что платежная система добровольно откажется от части платежей. Да, может не эти активистки "прогнули", но и до этого было определенное давление. Но что это "добровольное самоограничение" - я совершенно не верю.
Увы, тут Qwen не справился. Модель явно не хотела работать с дробями и округлила в пользу целых чисел, в результате получив 6 вместо 5.25.
Тут не лень модели виновата, а сам вопрос + Qwen в логических задачах ищет подвох (и бывает находит, даже если его не было). Ну и в самом вопросе очень хорошее понимание русского языка нужно. Из интересного: локальный Qwen3-Coder-30B-A3B выдал почти правильный ответ, но посыпался на "потерял", приняв за потерю 1 яблоко. Минимальная правка вопроса (+ добавить, что дроби разрешены - а то Qwen3 периодически решает округлить) - и даже маленькая модель считает на раз-два.
P.S. Qwen3 обновился совсем недавно, стал заметно лучше (по бенчмаркам). А главное - у всех моделей контекст 256K "нативный" и расширяем до 1M.
А ещё хуже, когда ChatGPT используют в качестве друга-собеседника.
Помимо скрытой рекламы вполне можно сделать платные "подарки". Начиная от стикеров и заканчивая "купи более крутую подписку, лимиты вышли" или "хочешь пришлю фотку - только дай денег".
C LLM основная проблема не в данных (даже если брать обучающие материалы), а в вычислительной сложности. Что обучение, что инференс требует просто колоссальный вычислительных ресурсов.
И с ростом пользовательской базы линейно растут и потребность в вычислениях. Для YouTube получилось извернуться - кеширующие сервера в сетях у пользователя. Экономия на глобальном трафике (кеш близок к потребителю), экономия на месте под видео (хранятся только популярные видео).
С LLM так не получится.
P.S. интересно, а если найти доходы и расходы YouTube - то как эти цифры будут соотноситься с доходами и расходами OpenAI? Может расходы OpenAI уже превзошли "8 лет убытков YouTube"?
Разница - в долгосрочной уверенности. То, что сейчас код работает - это хорошо. Но важно не "сейчас работает", а "потом не сломается". О чем я и говорил выше:
Лично для меня тесты, в первую очередь, дают ... уверенность, что с течением времени ничего не сломается.
YouTube более половины времени своего существования приносил только чистый убыток.
Это ложное утверждение.
Нашел статью 2014 года где говорится, что прибыли нет, но сервис где-то на уровне самоокупаемости. "Родился" сервис в 2005, сейчас 2025й год, даже если на безубыточность сервис вышел ровно в 2014, то это явно меньше половины его жизни.
Ну и кроме того, расходы на LLM, думаю, сильно выше расходов на хранение и доставку видео. И масштабируется LLM явно хуже, чем хранение контента.
P.S. с LLM прямо напрашивается монетизация в виде "подсовывай в ответы незаметную рекламу". И к этому, более чем уверен, рано или поздно придем.
Для теста модель уже доступна в Qwen Chat, а на Hugging Face выложены веса для локального запуска. Ожидается, что скоро появятся дистиллированные версии поменьше — тогда протестировать новинку смогут и пользователи без суперкомпьютеров.
Что юнит, что интеграционный, что ручной тест - все они проверяют просто факт прохождение теста. Более того, даже работа с ПО не показывает, работает ли ПО. Это просто показывает работу отдельного сценария использования в очень конкретных условиях.
В чем вопрос-то? Теперь тестировать не надо? Или только тесты не пишем?
Знаешь, а ведь вполне может быть, что ты - обыкновенный овощ, и тебя давным-давно благополучно сожрало какое-то травоядное чудовище, желудочный сок которого способен вызывать совершенно правдоподобные галлюцинации у перевариваемой пищи.
Так LLM-агенты уже могут итеративно кодить. Более того, LLM выделяют полноценную виртуалку под работу, где LLM "может все". И да, стало лучше, но принципиально проблему не решило.
Вероятно не деградировали, а переключились на более быструю модель из-за нагрузки ) На сколько понимаю, они давно уже не справляются с нагрузкой - надо не в часы-пик работать.
Сейчас "большие" модели с MoE делают, так что вычислительная сложность не так сильно растет (а то и падает - Qwen3-235B-A22B будет быстрее 32B-модели - потому как активных параметров меньше). У deepseek-v3/r1 37B активных, если не ошибаюсь, что сравнимо с 32B-моделями.
Но вот потребление памяти - да, растет и сильно.
Буквально вчера обновился Qwen3-30B-A3B - по бенчмаркам обходит оригинальный Qwen3-235B-A22B (который тоже обновился неделю назад). На днях жду более компактную Qwen3-Coder ) Она будет что-то вроде Qwen3-Coder-60B-A6B, т.е. в 2 раза крупнее Qwen3-30B-A3B (судя по Qwen3-Coder-480B-A35B и Qwen3-235B-A22B-2507).
И да, новый Qwen3-30B-A3B стал лучше - как минимум одну проблему, с которой я разные LLM тестирую, он решает (на уровне "в бреде присутствует правильный ответ", но другие LLM просто бредят).
В-третьих, что касается качества - грубо говоря, модель в 10 раз больше по размеру не даёт в 10 раз лучшее качество
Да, качество растет нелинейно. И бенчмарки не сильно помогают - модели специально учатся их проходить, что искажает реальные навыки модели.
P.S. да, что-то про "20 инстансов DeepSeek-R1-Distill-Qwen-32B, что один полноценный deepseek-r1 - по скорости и ресурсам должно быть сопоставимо" я хватанул лишку, LLM не так хорошо параллелится, даже если опустить накладные расходы.
P.P.S. вот что радует - новые модели, за счет совершенствования методов обучения, значительно растут и в навыках. Что дает надежду, что на CPU можно будет "гонять" все более и более приличную модель (хотя Qwen3-30B-A3B - уже более чем приличная модель, очень хороша в технических вопросах).
P.P.P.S. у новых Qwen3 контекст в 256K нативный и расширяется до 1M (вот только не помню, где это вычитал).
Открытые LLM сравнимы в качестве с закрытым. Так что "поучаствовать в гонке" - вопрос компетенций на привлечение финансирования и на умение привлекать специалистов по обучению LLM.
Уже есть движение по закручиванию гаек и повышению цен. Как понимаю, это связано с тем, что мощностей просто не хватает на всех.
Но это не меняет того, что в этой сфере слишком много расходов, слишком много обещаний и слишком мало реального профита. А инвесторы - не бездонные мешки с деньгами.
Нет, они ответили "да" на "откажутся ли они от ChatGPT, если плата станет обязательной?". Другое дело, что тут не раскрыто, а на сколько глубоко эти люди используют ChatGPT - сложно понять, от чего именно люди откажутся. Многие ChatGPT используют просто как замену поисковику.
Но речь была не о качестве опроса, а о том, что ChatGPT очень мало приносит денег, при очень высоких затратах на железо и его обслуживание.
Так давно уже есть инструменты оценки качества покрытия кода тестами.
Лично для меня тесты, в первую очередь, дают не "У меня и так все работало." (сразу после написания оно и работает, да и то бывают нюансы), а уверенность, что с течением времени ничего не сломается.
Можно смело заниматься рефакторингом, доработками и т.д.
Да и интеграционными тестами все покрывать не очень хорошо - не зря же придумали пирамиду тестов (хотя хочется иногда, это да).
Но вообще, вопрос-то не в тестах был, а в осознании и понимании у LLM. И лично я считаю, что качественная иллюзия у LLM не мешает мне эту LLM использовать - пока она мне приносит пользу. Требовать более глубокое понимание у LLM? А как мы поймем, что все, это уже не иллюзия, а реальное понимание? Тем более, если мы сами не знаем четко, что такое осознание и понимание у человека.
По идее, что 20 инстансов DeepSeek-R1-Distill-Qwen-32B, что один полноценный deepseek-r1 - по скорости и ресурсам должно быть сопоставимо. Но качество будет за "полной" моделью. P.S. qwen3 не тестировали? Что-то модели в целом не самые свежие...
Не надо сравнивать коммерческую компанию и "традиции" Англии. Компании прогнулись - потому как им было это выгодно.
В чем тут выгода - вопрос отдельный. Но ни один бизнес долго не просуществует, если его владелец будет действовать из соображений "удовлетворения своих прихотей", особенно если это грозит уменьшением прибыли в долгосрочный период. Один-два раза это еще может и сработает. Но не на долго.
И в данном случае вполне может быть "ввели ограничения" - хайпанули. "Отменили ограничения" - хайпанули еще раз. Два раза хайпанули на ровном месте - чем не повод для радости?
Я и по другому опыту сужу - например, загадка "А, И, Б сидели на трубе. А упала. Б пропала. Кто остался на трубе?". Да, приходит к верному ответу, но очень долго ищет подвох.
А если спросить не выделяя И ("А и Б сидели на трубе. А упала. Б пропала. Кто остался на трубе?"), то на трубе у меня остается "труба". Причем в размышлениях он упоминает, что это "игра слов" и "известная шутка" на русском.
Но это все не так важно на самом деле - все равно с ИИ стараешься максимально понятный и прозрачный запрос давать. И игра слов в запросе явно этому не способствует.
Неразумно думать, что платежная система добровольно откажется от части платежей.
Да, может не эти активистки "прогнули", но и до этого было определенное давление.
Но что это "добровольное самоограничение" - я совершенно не верю.
Нет, это просто очередные активистки (из Австралии вроде) как-то навязали такое поведение платежным системам.
Тут не лень модели виновата, а сам вопрос + Qwen в логических задачах ищет подвох (и бывает находит, даже если его не было). Ну и в самом вопросе очень хорошее понимание русского языка нужно. Из интересного: локальный Qwen3-Coder-30B-A3B выдал почти правильный ответ, но посыпался на "потерял", приняв за потерю 1 яблоко. Минимальная правка вопроса (+ добавить, что дроби разрешены - а то Qwen3 периодически решает округлить) - и даже маленькая модель считает на раз-два.
P.S. Qwen3 обновился совсем недавно, стал заметно лучше (по бенчмаркам). А главное - у всех моделей контекст 256K "нативный" и расширяем до 1M.
А репетитора - вполне себе.
Помимо скрытой рекламы вполне можно сделать платные "подарки". Начиная от стикеров и заканчивая "купи более крутую подписку, лимиты вышли" или "хочешь пришлю фотку - только дай денег".
C LLM основная проблема не в данных (даже если брать обучающие материалы), а в вычислительной сложности. Что обучение, что инференс требует просто колоссальный вычислительных ресурсов.
И с ростом пользовательской базы линейно растут и потребность в вычислениях. Для YouTube получилось извернуться - кеширующие сервера в сетях у пользователя. Экономия на глобальном трафике (кеш близок к потребителю), экономия на месте под видео (хранятся только популярные видео).
С LLM так не получится.
P.S. интересно, а если найти доходы и расходы YouTube - то как эти цифры будут соотноситься с доходами и расходами OpenAI? Может расходы OpenAI уже превзошли "8 лет убытков YouTube"?
Разница - в долгосрочной уверенности. То, что сейчас код работает - это хорошо. Но важно не "сейчас работает", а "потом не сломается". О чем я и говорил выше:
Это ложное утверждение.
Нашел статью 2014 года где говорится, что прибыли нет, но сервис где-то на уровне самоокупаемости.
"Родился" сервис в 2005, сейчас 2025й год, даже если на безубыточность сервис вышел ровно в 2014, то это явно меньше половины его жизни.
Ну и кроме того, расходы на LLM, думаю, сильно выше расходов на хранение и доставку видео. И масштабируется LLM явно хуже, чем хранение контента.
P.S. с LLM прямо напрашивается монетизация в виде "подсовывай в ответы незаметную рекламу". И к этому, более чем уверен, рано или поздно придем.
Обновленная Qwen3-30B-A3B уже вышла:
Qwen3-30B-A3B-Instruct-2507
Qwen3-30B-A3B-Thinking-2507
И вдогонку вышел Qwen3-Coder-30B-A3B-Instruct.
Любой тест так делает.
Что юнит, что интеграционный, что ручной тест - все они проверяют просто факт прохождение теста. Более того, даже работа с ПО не показывает, работает ли ПО. Это просто показывает работу отдельного сценария использования в очень конкретных условиях.
В чем вопрос-то? Теперь тестировать не надо? Или только тесты не пишем?
Нет, не даст - софт тоже должен быть заточен на повторяемость.
Так LLM-агенты уже могут итеративно кодить. Более того, LLM выделяют полноценную виртуалку под работу, где LLM "может все".
И да, стало лучше, но принципиально проблему не решило.
Вероятно не деградировали, а переключились на более быструю модель из-за нагрузки )
На сколько понимаю, они давно уже не справляются с нагрузкой - надо не в часы-пик работать.
Сейчас "большие" модели с MoE делают, так что вычислительная сложность не так сильно растет (а то и падает - Qwen3-235B-A22B будет быстрее 32B-модели - потому как активных параметров меньше). У deepseek-v3/r1 37B активных, если не ошибаюсь, что сравнимо с 32B-моделями.
Но вот потребление памяти - да, растет и сильно.
Буквально вчера обновился Qwen3-30B-A3B - по бенчмаркам обходит оригинальный Qwen3-235B-A22B (который тоже обновился неделю назад). На днях жду более компактную Qwen3-Coder ) Она будет что-то вроде Qwen3-Coder-60B-A6B, т.е. в 2 раза крупнее Qwen3-30B-A3B (судя по Qwen3-Coder-480B-A35B и Qwen3-235B-A22B-2507).
И да, новый Qwen3-30B-A3B стал лучше - как минимум одну проблему, с которой я разные LLM тестирую, он решает (на уровне "в бреде присутствует правильный ответ", но другие LLM просто бредят).
Да, качество растет нелинейно. И бенчмарки не сильно помогают - модели специально учатся их проходить, что искажает реальные навыки модели.
P.S. да, что-то про "20 инстансов DeepSeek-R1-Distill-Qwen-32B, что один полноценный deepseek-r1 - по скорости и ресурсам должно быть сопоставимо" я хватанул лишку, LLM не так хорошо параллелится, даже если опустить накладные расходы.
P.P.S. вот что радует - новые модели, за счет совершенствования методов обучения, значительно растут и в навыках. Что дает надежду, что на CPU можно будет "гонять" все более и более приличную модель (хотя Qwen3-30B-A3B - уже более чем приличная модель, очень хороша в технических вопросах).
P.P.P.S. у новых Qwen3 контекст в 256K нативный и расширяется до 1M (вот только не помню, где это вычитал).
Открытые LLM сравнимы в качестве с закрытым.
Так что "поучаствовать в гонке" - вопрос компетенций на привлечение финансирования и на умение привлекать специалистов по обучению LLM.
Уже есть движение по закручиванию гаек и повышению цен.
Как понимаю, это связано с тем, что мощностей просто не хватает на всех.
Но это не меняет того, что в этой сфере слишком много расходов, слишком много обещаний и слишком мало реального профита.
А инвесторы - не бездонные мешки с деньгами.
Нет, они ответили "да" на "откажутся ли они от ChatGPT, если плата станет обязательной?".
Другое дело, что тут не раскрыто, а на сколько глубоко эти люди используют ChatGPT - сложно понять, от чего именно люди откажутся. Многие ChatGPT используют просто как замену поисковику.
Но речь была не о качестве опроса, а о том, что ChatGPT очень мало приносит денег, при очень высоких затратах на железо и его обслуживание.
Так давно уже есть инструменты оценки качества покрытия кода тестами.
Лично для меня тесты, в первую очередь, дают не "У меня и так все работало." (сразу после написания оно и работает, да и то бывают нюансы), а уверенность, что с течением времени ничего не сломается.
Можно смело заниматься рефакторингом, доработками и т.д.
Да и интеграционными тестами все покрывать не очень хорошо - не зря же придумали пирамиду тестов (хотя хочется иногда, это да).
Но вообще, вопрос-то не в тестах был, а в осознании и понимании у LLM. И лично я считаю, что качественная иллюзия у LLM не мешает мне эту LLM использовать - пока она мне приносит пользу.
Требовать более глубокое понимание у LLM? А как мы поймем, что все, это уже не иллюзия, а реальное понимание? Тем более, если мы сами не знаем четко, что такое осознание и понимание у человека.
По идее, что 20 инстансов DeepSeek-R1-Distill-Qwen-32B, что один полноценный deepseek-r1 - по скорости и ресурсам должно быть сопоставимо. Но качество будет за "полной" моделью.
P.S. qwen3 не тестировали? Что-то модели в целом не самые свежие...
MoE модели уже давно в строю.