Немного не понял, как это требование «Разверните Qwen так, чтобы держать 10 RPS с задержкой до пяти секунд» матчится с результатами, при учете что «В итоге клиент арендовал именно эти две GPU»? Ведь получается на 1 запрос (в 500 токенов) уходит минимум 6,76 секунд, но если юзать в режиме чата, т.е. 2.5к токенов, то будет чуть медленнее.
Я полагаю, если смягчить требования до 10 сек на реквест, то все-равно надо 10х вычилительной мощности? Или инференс скейлится нелинейно?
Apple берет курс рубля с «запасом» чуть ли не на год вперед, когда как мелкие производители, продавая в своем интернет-магазине, могут быть чуть гибче.
Да, вот только есть шанс, что к 25 годам у вас будет зарплата 300к и все те ужимки и отказывания себе в 20 лет были не столь существенными. А если к 30 годам з/п еще возрастет, то получается в течение последних 10 лет совсем не было смысла экономить и гораздо веселее было бы позволить новенький «кредитомобиль» уже в 20 лет.
Скажите, а примерно в какой срок можно уложиться от подачи заявления до получения грин карты в случае с подачи заявления в обход labor? И насколько разнится стоимость всего процесса?
Немного не понял, как это требование «Разверните Qwen так, чтобы держать 10 RPS с задержкой до пяти секунд» матчится с результатами, при учете что «В итоге клиент арендовал именно эти две GPU»? Ведь получается на 1 запрос (в 500 токенов) уходит минимум 6,76 секунд, но если юзать в режиме чата, т.е. 2.5к токенов, то будет чуть медленнее.
Я полагаю, если смягчить требования до 10 сек на реквест, то все-равно надо 10х вычилительной мощности? Или инференс скейлится нелинейно?