Обновить
18
0.3
Максим @SabMakc

Пользователь

Отправить сообщение

при 300 процентах (прибыли) нет такого преступления, на которое он (капитал) не рискнул бы, хотя бы под страхом виселицы

Не надо сравнивать коммерческую компанию и "традиции" Англии. Компании прогнулись - потому как им было это выгодно.

В чем тут выгода - вопрос отдельный. Но ни один бизнес долго не просуществует, если его владелец будет действовать из соображений "удовлетворения своих прихотей", особенно если это грозит уменьшением прибыли в долгосрочный период. Один-два раза это еще может и сработает. Но не на долго.

И в данном случае вполне может быть "ввели ограничения" - хайпанули. "Отменили ограничения" - хайпанули еще раз. Два раза хайпанули на ровном месте - чем не повод для радости?

Я и по другому опыту сужу - например, загадка "А, И, Б сидели на трубе. А упала. Б пропала. Кто остался на трубе?". Да, приходит к верному ответу, но очень долго ищет подвох.

А если спросить не выделяя И ("А и Б сидели на трубе. А упала. Б пропала. Кто остался на трубе?"), то на трубе у меня остается "труба". Причем в размышлениях он упоминает, что это "игра слов" и "известная шутка" на русском.

Но это все не так важно на самом деле - все равно с ИИ стараешься максимально понятный и прозрачный запрос давать. И игра слов в запросе явно этому не способствует.

Неразумно думать, что платежная система добровольно откажется от части платежей.
Да, может не эти активистки "прогнули", но и до этого было определенное давление.
Но что это "добровольное самоограничение" - я совершенно не верю.

Нет, это просто очередные активистки (из Австралии вроде) как-то навязали такое поведение платежным системам.

Увы, тут Qwen не справился.
Модель явно не хотела работать с дробями и округлила в пользу целых чисел, в результате получив 6 вместо 5.25.

Тут не лень модели виновата, а сам вопрос + Qwen в логических задачах ищет подвох (и бывает находит, даже если его не было). Ну и в самом вопросе очень хорошее понимание русского языка нужно. Из интересного: локальный Qwen3-Coder-30B-A3B выдал почти правильный ответ, но посыпался на "потерял", приняв за потерю 1 яблоко. Минимальная правка вопроса (+ добавить, что дроби разрешены - а то Qwen3 периодически решает округлить) - и даже маленькая модель считает на раз-два.

P.S. Qwen3 обновился совсем недавно, стал заметно лучше (по бенчмаркам). А главное - у всех моделей контекст 256K "нативный" и расширяем до 1M.

Учебник по физике ему не разрекламируешь.

А репетитора - вполне себе.

А ещё хуже, когда ChatGPT используют в качестве друга-собеседника.

Помимо скрытой рекламы вполне можно сделать платные "подарки". Начиная от стикеров и заканчивая "купи более крутую подписку, лимиты вышли" или "хочешь пришлю фотку - только дай денег".

C LLM основная проблема не в данных (даже если брать обучающие материалы), а в вычислительной сложности. Что обучение, что инференс требует просто колоссальный вычислительных ресурсов.

И с ростом пользовательской базы линейно растут и потребность в вычислениях. Для YouTube получилось извернуться - кеширующие сервера в сетях у пользователя. Экономия на глобальном трафике (кеш близок к потребителю), экономия на месте под видео (хранятся только популярные видео).

С LLM так не получится.

P.S. интересно, а если найти доходы и расходы YouTube - то как эти цифры будут соотноситься с доходами и расходами OpenAI? Может расходы OpenAI уже превзошли "8 лет убытков YouTube"?

Разница - в долгосрочной уверенности. То, что сейчас код работает - это хорошо. Но важно не "сейчас работает", а "потом не сломается". О чем я и говорил выше:

Лично для меня тесты, в первую очередь, дают ... уверенность, что с течением времени ничего не сломается.

YouTube более половины времени своего существования приносил только чистый убыток.

Это ложное утверждение.

Нашел статью 2014 года где говорится, что прибыли нет, но сервис где-то на уровне самоокупаемости.
"Родился" сервис в 2005, сейчас 2025й год, даже если на безубыточность сервис вышел ровно в 2014, то это явно меньше половины его жизни.

Ну и кроме того, расходы на LLM, думаю, сильно выше расходов на хранение и доставку видео. И масштабируется LLM явно хуже, чем хранение контента.

P.S. с LLM прямо напрашивается монетизация в виде "подсовывай в ответы незаметную рекламу". И к этому, более чем уверен, рано или поздно придем.

Для теста модель уже доступна в Qwen Chat, а на Hugging Face выложены веса для локального запуска. Ожидается, что скоро появятся дистиллированные версии поменьше — тогда протестировать новинку смогут и пользователи без суперкомпьютеров.

Обновленная Qwen3-30B-A3B уже вышла:

  • Qwen3-30B-A3B-Instruct-2507

  • Qwen3-30B-A3B-Thinking-2507

И вдогонку вышел Qwen3-Coder-30B-A3B-Instruct.

Любой тест так делает.

Что юнит, что интеграционный, что ручной тест - все они проверяют просто факт прохождение теста. Более того, даже работа с ПО не показывает, работает ли ПО. Это просто показывает работу отдельного сценария использования в очень конкретных условиях.

В чем вопрос-то? Теперь тестировать не надо? Или только тесты не пишем?

Знаешь, а ведь вполне может быть, что ты - обыкновенный овощ, и тебя давным-давно благополучно сожрало какое-то травоядное чудовище, желудочный сок которого способен вызывать совершенно правдоподобные галлюцинации у перевариваемой пищи.

Нет, не даст - софт тоже должен быть заточен на повторяемость.

Так LLM-агенты уже могут итеративно кодить. Более того, LLM выделяют полноценную виртуалку под работу, где LLM "может все".
И да, стало лучше, но принципиально проблему не решило.

Вероятно не деградировали, а переключились на более быструю модель из-за нагрузки )
На сколько понимаю, они давно уже не справляются с нагрузкой - надо не в часы-пик работать.

Сейчас "большие" модели с MoE делают, так что вычислительная сложность не так сильно растет (а то и падает - Qwen3-235B-A22B будет быстрее 32B-модели - потому как активных параметров меньше). У deepseek-v3/r1 37B активных, если не ошибаюсь, что сравнимо с 32B-моделями.

Но вот потребление памяти - да, растет и сильно.

Буквально вчера обновился Qwen3-30B-A3B - по бенчмаркам обходит оригинальный Qwen3-235B-A22B (который тоже обновился неделю назад). На днях жду более компактную Qwen3-Coder ) Она будет что-то вроде Qwen3-Coder-60B-A6B, т.е. в 2 раза крупнее Qwen3-30B-A3B (судя по Qwen3-Coder-480B-A35B и Qwen3-235B-A22B-2507).

И да, новый Qwen3-30B-A3B стал лучше - как минимум одну проблему, с которой я разные LLM тестирую, он решает (на уровне "в бреде присутствует правильный ответ", но другие LLM просто бредят).

В-третьих, что касается качества - грубо говоря, модель в 10 раз больше по размеру не даёт в 10 раз лучшее качество

Да, качество растет нелинейно. И бенчмарки не сильно помогают - модели специально учатся их проходить, что искажает реальные навыки модели.

P.S. да, что-то про "20 инстансов DeepSeek-R1-Distill-Qwen-32B, что один полноценный deepseek-r1 - по скорости и ресурсам должно быть сопоставимо" я хватанул лишку, LLM не так хорошо параллелится, даже если опустить накладные расходы.

P.P.S. вот что радует - новые модели, за счет совершенствования методов обучения, значительно растут и в навыках. Что дает надежду, что на CPU можно будет "гонять" все более и более приличную модель (хотя Qwen3-30B-A3B - уже более чем приличная модель, очень хороша в технических вопросах).

P.P.P.S. у новых Qwen3 контекст в 256K нативный и расширяется до 1M (вот только не помню, где это вычитал).

Догнать и поучаствовать в гонке?

Открытые LLM сравнимы в качестве с закрытым.
Так что "поучаствовать в гонке" - вопрос компетенций на привлечение финансирования и на умение привлекать специалистов по обучению LLM.

Уже есть движение по закручиванию гаек и повышению цен.
Как понимаю, это связано с тем, что мощностей просто не хватает на всех.

Но это не меняет того, что в этой сфере слишком много расходов, слишком много обещаний и слишком мало реального профита.
А инвесторы - не бездонные мешки с деньгами.

Нет, они ответили "да" на "откажутся ли они от ChatGPT, если плата станет обязательной?".
Другое дело, что тут не раскрыто, а на сколько глубоко эти люди используют ChatGPT - сложно понять, от чего именно люди откажутся. Многие ChatGPT используют просто как замену поисковику.

Но речь была не о качестве опроса, а о том, что ChatGPT очень мало приносит денег, при очень высоких затратах на железо и его обслуживание.

Так давно уже есть инструменты оценки качества покрытия кода тестами.

Лично для меня тесты, в первую очередь, дают не "У меня и так все работало." (сразу после написания оно и работает, да и то бывают нюансы), а уверенность, что с течением времени ничего не сломается.

Можно смело заниматься рефакторингом, доработками и т.д.

Да и интеграционными тестами все покрывать не очень хорошо - не зря же придумали пирамиду тестов (хотя хочется иногда, это да).

Но вообще, вопрос-то не в тестах был, а в осознании и понимании у LLM. И лично я считаю, что качественная иллюзия у LLM не мешает мне эту LLM использовать - пока она мне приносит пользу.
Требовать более глубокое понимание у LLM? А как мы поймем, что все, это уже не иллюзия, а реальное понимание? Тем более, если мы сами не знаем четко, что такое осознание и понимание у человека.

По идее, что 20 инстансов DeepSeek-R1-Distill-Qwen-32B, что один полноценный deepseek-r1 - по скорости и ресурсам должно быть сопоставимо. Но качество будет за "полной" моделью.
P.S. qwen3 не тестировали? Что-то модели в целом не самые свежие...

MoE модели уже давно в строю.

Информация

В рейтинге
2 374-й
Откуда
Россия
Зарегистрирован
Активность