Спасибо за обзор, приятно читать, хотя местами показалось водянисто. Не ясно почему тот же Сбер и Яндекс не строят Цоды - купить H200 по паралельному не сложно. Все есть в наличии. Возможно вопрос договоров на коммерческие поставки.
Яндекс со своими ценами в 100 раз выше на модели чем западные компании идет в лес. Вместо того чтобы занять поляну розничного инференса, которая освобождается в свете блокировок западных компаний, кажется они всеми силами делают все наоборот. Ощущение что развитие ИИ и ИТ отрасли специально тормозят. И тот же Сбер буксует, скорее всего из за лютой бюрократии и не понимания менеджмента. Гигачат который успешно стартанул в прошлом году, сейчас отстал, и давно не обновлялся. Статьи сравнения, можно найти тут на хабре.
Тоже самое в Клоде. У меня нет подписки, но на прошлой неделе я мог использовать чат часа 3-4, подкидывая ему файлы с yaml кодом. На этой недели я просил его нарисовать план участка, и через 2 итерации лимит кончился, но тогда я подумал, что рисование наверняка жрет много токенов. В другой день, попросив техническое описание дизайна одного сайта, клод сгенерил файлик на 1500 символов и лимит кончился. Явно закручиваются гайки для тех кто пытается обузить бесплатные лимиты.
В моменте и нет разницы. Разница появляется когда часок погоняешь в задачах, и один из запросов упадет на cpu, а чем больеш слоев на цпу и чем больше раздувается контекст, который начинает жрать vram, тем больше вероятность. на 4070Ти 16гб, у вас все 40 слоев должны залезать в VRAM при старте.
качал вчера такую же. После 2-3 запросов модель крашилась. Еще из коробки она не принимала запросы и нужно было template подставлять корректный. Вообщем гемма мне не понравилась, но по бенчу вроде как она лучше умеет кодить, но ей нужны с ходу жесткие инструкции и уточнения каждого чиха.
Это не правда. Выжигаются достаточно быстро. Смотрите там у чатгпт например вход $0.75 выход $4.50, у Кими 2.6 Выход 3$ - у меня за один запрос агент анализируя проект и добавляя во все места новые импорты сжег 1,5 млн токенов =)
я привел пример модели. не суть разве выгружая слои на цпу вы не теряете в скорости ? при обращении в слой который находится на ЦПУ будет просадка, и это ощутимо, у меня с 50 токенов в таких запросах падает до 20.
2999$
бесплатный даже обсуждать не стоит.
(Calude.ai запоминает контекст, который хранится в истории чата)
Спасибо за обзор, приятно читать, хотя местами показалось водянисто.
Не ясно почему тот же Сбер и Яндекс не строят Цоды - купить H200 по паралельному не сложно. Все есть в наличии. Возможно вопрос договоров на коммерческие поставки.
Яндекс со своими ценами в 100 раз выше на модели чем западные компании идет в лес.
Вместо того чтобы занять поляну розничного инференса, которая освобождается в свете блокировок западных компаний, кажется они всеми силами делают все наоборот. Ощущение что развитие ИИ и ИТ отрасли специально тормозят.
И тот же Сбер буксует, скорее всего из за лютой бюрократии и не понимания менеджмента. Гигачат который успешно стартанул в прошлом году, сейчас отстал, и давно не обновлялся. Статьи сравнения, можно найти тут на хабре.
Клод не запоминает контекст между сессиями ?
зачем там Оуборос ? это который агент ?
возможно то что они сделали, как раз из за наплыва людишек, и недостатка мощностей.
Тоже самое в Клоде.
У меня нет подписки, но на прошлой неделе я мог использовать чат часа 3-4, подкидывая ему файлы с yaml кодом.
На этой недели я просил его нарисовать план участка, и через 2 итерации лимит кончился, но тогда я подумал, что рисование наверняка жрет много токенов.
В другой день, попросив техническое описание дизайна одного сайта, клод сгенерил файлик на 1500 символов и лимит кончился.
Явно закручиваются гайки для тех кто пытается обузить бесплатные лимиты.
интересно о чем думает Яндекс, делая Я.ГПТ дороже в 7 раз чем Опус.
Немного не понятно про тех кто боится писать код в пятницу. Пятница такой же рабочий день, а мержить в прод никто не заставляет.
отличный ресерч, почему вы еще не в команде Телеграмм с окладом 1м$ ?
Думаю Павлу, прочитав этот пост, стоит объявить новый контест на оптимизацию.
в проде никогда не будет что "страховки уже не нужны".
ничего личного, только бизнес
каждый день появляется что то новое, сначала turboquant, mtp, nvfp4... еще пару месяцев и 16гб модели будут выдавать 100тпс )
В моменте и нет разницы. Разница появляется когда часок погоняешь в задачах, и один из запросов упадет на cpu, а чем больеш слоев на цпу и чем больше раздувается контекст, который начинает жрать vram, тем больше вероятность. на 4070Ти 16гб, у вас все 40 слоев должны залезать в VRAM при старте.
на вашем пк не стоит даже пробовать запускать модели больше 6,5 Гб, места под контекст совсем не будет.
хотите лучше - платите
качал вчера такую же. После 2-3 запросов модель крашилась. Еще из коробки она не принимала запросы и нужно было template подставлять корректный. Вообщем гемма мне не понравилась, но по бенчу вроде как она лучше умеет кодить, но ей нужны с ходу жесткие инструкции и уточнения каждого чиха.
Это не правда. Выжигаются достаточно быстро. Смотрите там у чатгпт например вход $0.75 выход $4.50, у Кими 2.6 Выход 3$ - у меня за один запрос агент анализируя проект и добавляя во все места новые импорты сжег 1,5 млн токенов =)
они дрова под игры пилят. домашний ИИ это еще уже ниша чем гейминг
я привел пример модели. не суть
разве выгружая слои на цпу вы не теряете в скорости ? при обращении в слой который находится на ЦПУ будет просадка, и это ощутимо, у меня с 50 токенов в таких запросах падает до 20.