Ни что не мешает несколько нейронок использовать параллельно, собирать статистику "кто точнее" и повышать свою точность. Просто как еще один инструмент.
при 300 процентах (прибыли) нет такого преступления, на которое он (капитал) не рискнул бы, хотя бы под страхом виселицы
Не надо сравнивать коммерческую компанию и "традиции" Англии. Компании прогнулись - потому как им было это выгодно.
В чем тут выгода - вопрос отдельный. Но ни один бизнес долго не просуществует, если его владелец будет действовать из соображений "удовлетворения своих прихотей", особенно если это грозит уменьшением прибыли в долгосрочный период. Один-два раза это еще может и сработает. Но не на долго.
И в данном случае вполне может быть "ввели ограничения" - хайпанули. "Отменили ограничения" - хайпанули еще раз. Два раза хайпанули на ровном месте - чем не повод для радости?
Я и по другому опыту сужу - например, загадка "А, И, Б сидели на трубе. А упала. Б пропала. Кто остался на трубе?". Да, приходит к верному ответу, но очень долго ищет подвох.
А если спросить не выделяя И ("А и Б сидели на трубе. А упала. Б пропала. Кто остался на трубе?"), то на трубе у меня остается "труба". Причем в размышлениях он упоминает, что это "игра слов" и "известная шутка" на русском.
Но это все не так важно на самом деле - все равно с ИИ стараешься максимально понятный и прозрачный запрос давать. И игра слов в запросе явно этому не способствует.
Неразумно думать, что платежная система добровольно откажется от части платежей. Да, может не эти активистки "прогнули", но и до этого было определенное давление. Но что это "добровольное самоограничение" - я совершенно не верю.
Увы, тут Qwen не справился. Модель явно не хотела работать с дробями и округлила в пользу целых чисел, в результате получив 6 вместо 5.25.
Тут не лень модели виновата, а сам вопрос + Qwen в логических задачах ищет подвох (и бывает находит, даже если его не было). Ну и в самом вопросе очень хорошее понимание русского языка нужно. Из интересного: локальный Qwen3-Coder-30B-A3B выдал почти правильный ответ, но посыпался на "потерял", приняв за потерю 1 яблоко. Минимальная правка вопроса (+ добавить, что дроби разрешены - а то Qwen3 периодически решает округлить) - и даже маленькая модель считает на раз-два.
P.S. Qwen3 обновился совсем недавно, стал заметно лучше (по бенчмаркам). А главное - у всех моделей контекст 256K "нативный" и расширяем до 1M.
А ещё хуже, когда ChatGPT используют в качестве друга-собеседника.
Помимо скрытой рекламы вполне можно сделать платные "подарки". Начиная от стикеров и заканчивая "купи более крутую подписку, лимиты вышли" или "хочешь пришлю фотку - только дай денег".
C LLM основная проблема не в данных (даже если брать обучающие материалы), а в вычислительной сложности. Что обучение, что инференс требует просто колоссальный вычислительных ресурсов.
И с ростом пользовательской базы линейно растут и потребность в вычислениях. Для YouTube получилось извернуться - кеширующие сервера в сетях у пользователя. Экономия на глобальном трафике (кеш близок к потребителю), экономия на месте под видео (хранятся только популярные видео).
С LLM так не получится.
P.S. интересно, а если найти доходы и расходы YouTube - то как эти цифры будут соотноситься с доходами и расходами OpenAI? Может расходы OpenAI уже превзошли "8 лет убытков YouTube"?
Разница - в долгосрочной уверенности. То, что сейчас код работает - это хорошо. Но важно не "сейчас работает", а "потом не сломается". О чем я и говорил выше:
Лично для меня тесты, в первую очередь, дают ... уверенность, что с течением времени ничего не сломается.
YouTube более половины времени своего существования приносил только чистый убыток.
Это ложное утверждение.
Нашел статью 2014 года где говорится, что прибыли нет, но сервис где-то на уровне самоокупаемости. "Родился" сервис в 2005, сейчас 2025й год, даже если на безубыточность сервис вышел ровно в 2014, то это явно меньше половины его жизни.
Ну и кроме того, расходы на LLM, думаю, сильно выше расходов на хранение и доставку видео. И масштабируется LLM явно хуже, чем хранение контента.
P.S. с LLM прямо напрашивается монетизация в виде "подсовывай в ответы незаметную рекламу". И к этому, более чем уверен, рано или поздно придем.
Для теста модель уже доступна в Qwen Chat, а на Hugging Face выложены веса для локального запуска. Ожидается, что скоро появятся дистиллированные версии поменьше — тогда протестировать новинку смогут и пользователи без суперкомпьютеров.
Что юнит, что интеграционный, что ручной тест - все они проверяют просто факт прохождение теста. Более того, даже работа с ПО не показывает, работает ли ПО. Это просто показывает работу отдельного сценария использования в очень конкретных условиях.
В чем вопрос-то? Теперь тестировать не надо? Или только тесты не пишем?
Знаешь, а ведь вполне может быть, что ты - обыкновенный овощ, и тебя давным-давно благополучно сожрало какое-то травоядное чудовище, желудочный сок которого способен вызывать совершенно правдоподобные галлюцинации у перевариваемой пищи.
Так LLM-агенты уже могут итеративно кодить. Более того, LLM выделяют полноценную виртуалку под работу, где LLM "может все". И да, стало лучше, но принципиально проблему не решило.
Вероятно не деградировали, а переключились на более быструю модель из-за нагрузки ) На сколько понимаю, они давно уже не справляются с нагрузкой - надо не в часы-пик работать.
Сейчас "большие" модели с MoE делают, так что вычислительная сложность не так сильно растет (а то и падает - Qwen3-235B-A22B будет быстрее 32B-модели - потому как активных параметров меньше). У deepseek-v3/r1 37B активных, если не ошибаюсь, что сравнимо с 32B-моделями.
Но вот потребление памяти - да, растет и сильно.
Буквально вчера обновился Qwen3-30B-A3B - по бенчмаркам обходит оригинальный Qwen3-235B-A22B (который тоже обновился неделю назад). На днях жду более компактную Qwen3-Coder ) Она будет что-то вроде Qwen3-Coder-60B-A6B, т.е. в 2 раза крупнее Qwen3-30B-A3B (судя по Qwen3-Coder-480B-A35B и Qwen3-235B-A22B-2507).
И да, новый Qwen3-30B-A3B стал лучше - как минимум одну проблему, с которой я разные LLM тестирую, он решает (на уровне "в бреде присутствует правильный ответ", но другие LLM просто бредят).
В-третьих, что касается качества - грубо говоря, модель в 10 раз больше по размеру не даёт в 10 раз лучшее качество
Да, качество растет нелинейно. И бенчмарки не сильно помогают - модели специально учатся их проходить, что искажает реальные навыки модели.
P.S. да, что-то про "20 инстансов DeepSeek-R1-Distill-Qwen-32B, что один полноценный deepseek-r1 - по скорости и ресурсам должно быть сопоставимо" я хватанул лишку, LLM не так хорошо параллелится, даже если опустить накладные расходы.
P.P.S. вот что радует - новые модели, за счет совершенствования методов обучения, значительно растут и в навыках. Что дает надежду, что на CPU можно будет "гонять" все более и более приличную модель (хотя Qwen3-30B-A3B - уже более чем приличная модель, очень хороша в технических вопросах).
P.P.P.S. у новых Qwen3 контекст в 256K нативный и расширяется до 1M (вот только не помню, где это вычитал).
Открытые LLM сравнимы в качестве с закрытым. Так что "поучаствовать в гонке" - вопрос компетенций на привлечение финансирования и на умение привлекать специалистов по обучению LLM.
Уже есть движение по закручиванию гаек и повышению цен. Как понимаю, это связано с тем, что мощностей просто не хватает на всех.
Но это не меняет того, что в этой сфере слишком много расходов, слишком много обещаний и слишком мало реального профита. А инвесторы - не бездонные мешки с деньгами.
Нет, они ответили "да" на "откажутся ли они от ChatGPT, если плата станет обязательной?". Другое дело, что тут не раскрыто, а на сколько глубоко эти люди используют ChatGPT - сложно понять, от чего именно люди откажутся. Многие ChatGPT используют просто как замену поисковику.
Но речь была не о качестве опроса, а о том, что ChatGPT очень мало приносит денег, при очень высоких затратах на железо и его обслуживание.
Так давно уже есть инструменты оценки качества покрытия кода тестами.
Лично для меня тесты, в первую очередь, дают не "У меня и так все работало." (сразу после написания оно и работает, да и то бывают нюансы), а уверенность, что с течением времени ничего не сломается.
Можно смело заниматься рефакторингом, доработками и т.д.
Да и интеграционными тестами все покрывать не очень хорошо - не зря же придумали пирамиду тестов (хотя хочется иногда, это да).
Но вообще, вопрос-то не в тестах был, а в осознании и понимании у LLM. И лично я считаю, что качественная иллюзия у LLM не мешает мне эту LLM использовать - пока она мне приносит пользу. Требовать более глубокое понимание у LLM? А как мы поймем, что все, это уже не иллюзия, а реальное понимание? Тем более, если мы сами не знаем четко, что такое осознание и понимание у человека.
По идее, что 20 инстансов DeepSeek-R1-Distill-Qwen-32B, что один полноценный deepseek-r1 - по скорости и ресурсам должно быть сопоставимо. Но качество будет за "полной" моделью. P.S. qwen3 не тестировали? Что-то модели в целом не самые свежие...
Ни что не мешает несколько нейронок использовать параллельно, собирать статистику "кто точнее" и повышать свою точность. Просто как еще один инструмент.
Не надо сравнивать коммерческую компанию и "традиции" Англии. Компании прогнулись - потому как им было это выгодно.
В чем тут выгода - вопрос отдельный. Но ни один бизнес долго не просуществует, если его владелец будет действовать из соображений "удовлетворения своих прихотей", особенно если это грозит уменьшением прибыли в долгосрочный период. Один-два раза это еще может и сработает. Но не на долго.
И в данном случае вполне может быть "ввели ограничения" - хайпанули. "Отменили ограничения" - хайпанули еще раз. Два раза хайпанули на ровном месте - чем не повод для радости?
Я и по другому опыту сужу - например, загадка "А, И, Б сидели на трубе. А упала. Б пропала. Кто остался на трубе?". Да, приходит к верному ответу, но очень долго ищет подвох.
А если спросить не выделяя И ("А и Б сидели на трубе. А упала. Б пропала. Кто остался на трубе?"), то на трубе у меня остается "труба". Причем в размышлениях он упоминает, что это "игра слов" и "известная шутка" на русском.
Но это все не так важно на самом деле - все равно с ИИ стараешься максимально понятный и прозрачный запрос давать. И игра слов в запросе явно этому не способствует.
Неразумно думать, что платежная система добровольно откажется от части платежей.
Да, может не эти активистки "прогнули", но и до этого было определенное давление.
Но что это "добровольное самоограничение" - я совершенно не верю.
Нет, это просто очередные активистки (из Австралии вроде) как-то навязали такое поведение платежным системам.
Тут не лень модели виновата, а сам вопрос + Qwen в логических задачах ищет подвох (и бывает находит, даже если его не было). Ну и в самом вопросе очень хорошее понимание русского языка нужно. Из интересного: локальный Qwen3-Coder-30B-A3B выдал почти правильный ответ, но посыпался на "потерял", приняв за потерю 1 яблоко. Минимальная правка вопроса (+ добавить, что дроби разрешены - а то Qwen3 периодически решает округлить) - и даже маленькая модель считает на раз-два.
P.S. Qwen3 обновился совсем недавно, стал заметно лучше (по бенчмаркам). А главное - у всех моделей контекст 256K "нативный" и расширяем до 1M.
А репетитора - вполне себе.
Помимо скрытой рекламы вполне можно сделать платные "подарки". Начиная от стикеров и заканчивая "купи более крутую подписку, лимиты вышли" или "хочешь пришлю фотку - только дай денег".
C LLM основная проблема не в данных (даже если брать обучающие материалы), а в вычислительной сложности. Что обучение, что инференс требует просто колоссальный вычислительных ресурсов.
И с ростом пользовательской базы линейно растут и потребность в вычислениях. Для YouTube получилось извернуться - кеширующие сервера в сетях у пользователя. Экономия на глобальном трафике (кеш близок к потребителю), экономия на месте под видео (хранятся только популярные видео).
С LLM так не получится.
P.S. интересно, а если найти доходы и расходы YouTube - то как эти цифры будут соотноситься с доходами и расходами OpenAI? Может расходы OpenAI уже превзошли "8 лет убытков YouTube"?
Разница - в долгосрочной уверенности. То, что сейчас код работает - это хорошо. Но важно не "сейчас работает", а "потом не сломается". О чем я и говорил выше:
Это ложное утверждение.
Нашел статью 2014 года где говорится, что прибыли нет, но сервис где-то на уровне самоокупаемости.
"Родился" сервис в 2005, сейчас 2025й год, даже если на безубыточность сервис вышел ровно в 2014, то это явно меньше половины его жизни.
Ну и кроме того, расходы на LLM, думаю, сильно выше расходов на хранение и доставку видео. И масштабируется LLM явно хуже, чем хранение контента.
P.S. с LLM прямо напрашивается монетизация в виде "подсовывай в ответы незаметную рекламу". И к этому, более чем уверен, рано или поздно придем.
Обновленная Qwen3-30B-A3B уже вышла:
Qwen3-30B-A3B-Instruct-2507
Qwen3-30B-A3B-Thinking-2507
И вдогонку вышел Qwen3-Coder-30B-A3B-Instruct.
Любой тест так делает.
Что юнит, что интеграционный, что ручной тест - все они проверяют просто факт прохождение теста. Более того, даже работа с ПО не показывает, работает ли ПО. Это просто показывает работу отдельного сценария использования в очень конкретных условиях.
В чем вопрос-то? Теперь тестировать не надо? Или только тесты не пишем?
Нет, не даст - софт тоже должен быть заточен на повторяемость.
Так LLM-агенты уже могут итеративно кодить. Более того, LLM выделяют полноценную виртуалку под работу, где LLM "может все".
И да, стало лучше, но принципиально проблему не решило.
Вероятно не деградировали, а переключились на более быструю модель из-за нагрузки )
На сколько понимаю, они давно уже не справляются с нагрузкой - надо не в часы-пик работать.
Сейчас "большие" модели с MoE делают, так что вычислительная сложность не так сильно растет (а то и падает - Qwen3-235B-A22B будет быстрее 32B-модели - потому как активных параметров меньше). У deepseek-v3/r1 37B активных, если не ошибаюсь, что сравнимо с 32B-моделями.
Но вот потребление памяти - да, растет и сильно.
Буквально вчера обновился Qwen3-30B-A3B - по бенчмаркам обходит оригинальный Qwen3-235B-A22B (который тоже обновился неделю назад). На днях жду более компактную Qwen3-Coder ) Она будет что-то вроде Qwen3-Coder-60B-A6B, т.е. в 2 раза крупнее Qwen3-30B-A3B (судя по Qwen3-Coder-480B-A35B и Qwen3-235B-A22B-2507).
И да, новый Qwen3-30B-A3B стал лучше - как минимум одну проблему, с которой я разные LLM тестирую, он решает (на уровне "в бреде присутствует правильный ответ", но другие LLM просто бредят).
Да, качество растет нелинейно. И бенчмарки не сильно помогают - модели специально учатся их проходить, что искажает реальные навыки модели.
P.S. да, что-то про "20 инстансов DeepSeek-R1-Distill-Qwen-32B, что один полноценный deepseek-r1 - по скорости и ресурсам должно быть сопоставимо" я хватанул лишку, LLM не так хорошо параллелится, даже если опустить накладные расходы.
P.P.S. вот что радует - новые модели, за счет совершенствования методов обучения, значительно растут и в навыках. Что дает надежду, что на CPU можно будет "гонять" все более и более приличную модель (хотя Qwen3-30B-A3B - уже более чем приличная модель, очень хороша в технических вопросах).
P.P.P.S. у новых Qwen3 контекст в 256K нативный и расширяется до 1M (вот только не помню, где это вычитал).
Открытые LLM сравнимы в качестве с закрытым.
Так что "поучаствовать в гонке" - вопрос компетенций на привлечение финансирования и на умение привлекать специалистов по обучению LLM.
Уже есть движение по закручиванию гаек и повышению цен.
Как понимаю, это связано с тем, что мощностей просто не хватает на всех.
Но это не меняет того, что в этой сфере слишком много расходов, слишком много обещаний и слишком мало реального профита.
А инвесторы - не бездонные мешки с деньгами.
Нет, они ответили "да" на "откажутся ли они от ChatGPT, если плата станет обязательной?".
Другое дело, что тут не раскрыто, а на сколько глубоко эти люди используют ChatGPT - сложно понять, от чего именно люди откажутся. Многие ChatGPT используют просто как замену поисковику.
Но речь была не о качестве опроса, а о том, что ChatGPT очень мало приносит денег, при очень высоких затратах на железо и его обслуживание.
Так давно уже есть инструменты оценки качества покрытия кода тестами.
Лично для меня тесты, в первую очередь, дают не "У меня и так все работало." (сразу после написания оно и работает, да и то бывают нюансы), а уверенность, что с течением времени ничего не сломается.
Можно смело заниматься рефакторингом, доработками и т.д.
Да и интеграционными тестами все покрывать не очень хорошо - не зря же придумали пирамиду тестов (хотя хочется иногда, это да).
Но вообще, вопрос-то не в тестах был, а в осознании и понимании у LLM. И лично я считаю, что качественная иллюзия у LLM не мешает мне эту LLM использовать - пока она мне приносит пользу.
Требовать более глубокое понимание у LLM? А как мы поймем, что все, это уже не иллюзия, а реальное понимание? Тем более, если мы сами не знаем четко, что такое осознание и понимание у человека.
По идее, что 20 инстансов DeepSeek-R1-Distill-Qwen-32B, что один полноценный deepseek-r1 - по скорости и ресурсам должно быть сопоставимо. Но качество будет за "полной" моделью.
P.S. qwen3 не тестировали? Что-то модели в целом не самые свежие...