Обновить
1

Пользователь

0,1
Рейтинг
1
Подписчики
Отправить сообщение

бесплатный даже обсуждать не стоит.
(Calude.ai запоминает контекст, который хранится в истории чата)

Спасибо за обзор, приятно читать, хотя местами показалось водянисто.
Не ясно почему тот же Сбер и Яндекс не строят Цоды - купить H200 по паралельному не сложно. Все есть в наличии. Возможно вопрос договоров на коммерческие поставки.

Яндекс со своими ценами в 100 раз выше на модели чем западные компании идет в лес.
Вместо того чтобы занять поляну розничного инференса, которая освобождается в свете блокировок западных компаний, кажется они всеми силами делают все наоборот. Ощущение что развитие ИИ и ИТ отрасли специально тормозят.
И тот же Сбер буксует, скорее всего из за лютой бюрократии и не понимания менеджмента. Гигачат который успешно стартанул в прошлом году, сейчас отстал, и давно не обновлялся. Статьи сравнения, можно найти тут на хабре.

Клод не запоминает контекст между сессиями ?

зачем там Оуборос ? это который агент ?

возможно то что они сделали, как раз из за наплыва людишек, и недостатка мощностей.

Тоже самое в Клоде.
У меня нет подписки, но на прошлой неделе я мог использовать чат часа 3-4, подкидывая ему файлы с yaml кодом.
На этой недели я просил его нарисовать план участка, и через 2 итерации лимит кончился, но тогда я подумал, что рисование наверняка жрет много токенов.
В другой день, попросив техническое описание дизайна одного сайта, клод сгенерил файлик на 1500 символов и лимит кончился.
Явно закручиваются гайки для тех кто пытается обузить бесплатные лимиты.

интересно о чем думает Яндекс, делая Я.ГПТ дороже в 7 раз чем Опус.

Немного не понятно про тех кто боится писать код в пятницу. Пятница такой же рабочий день, а мержить в прод никто не заставляет.

отличный ресерч, почему вы еще не в команде Телеграмм с окладом 1м$ ?


Думаю Павлу, прочитав этот пост, стоит объявить новый контест на оптимизацию.

в проде никогда не будет что "страховки уже не нужны".

ничего личного, только бизнес

каждый день появляется что то новое, сначала turboquant, mtp, nvfp4... еще пару месяцев и 16гб модели будут выдавать 100тпс )

В моменте и нет разницы. Разница появляется когда часок погоняешь в задачах, и один из запросов упадет на cpu, а чем больеш слоев на цпу и чем больше раздувается контекст, который начинает жрать vram, тем больше вероятность. на 4070Ти 16гб, у вас все 40 слоев должны залезать в VRAM при старте.

на вашем пк не стоит даже пробовать запускать модели больше 6,5 Гб, места под контекст совсем не будет.

хотите лучше - платите

качал вчера такую же. После 2-3 запросов модель крашилась. Еще из коробки она не принимала запросы и нужно было template подставлять корректный. Вообщем гемма мне не понравилась, но по бенчу вроде как она лучше умеет кодить, но ей нужны с ходу жесткие инструкции и уточнения каждого чиха.

20$ рука отсохнет лимиты выжигать. 

Это не правда. Выжигаются достаточно быстро. Смотрите там у чатгпт например вход $0.75 выход $4.50, у Кими 2.6 Выход 3$ - у меня за один запрос агент анализируя проект и добавляя во все места новые импорты сжег 1,5 млн токенов =)

они дрова под игры пилят. домашний ИИ это еще уже ниша чем гейминг

я привел пример модели. не суть
разве выгружая слои на цпу вы не теряете в скорости ? при обращении в слой который находится на ЦПУ будет просадка, и это ощутимо, у меня с 50 токенов в таких запросах падает до 20.

Информация

В рейтинге
3 892-й
Зарегистрирован
Активность