Обновить
0

Пользователь

Отправить сообщение

Делюсь своим экспериментом на спарке, эта же модель но в nvfp4, общая генерация от количества потоков

1 - 45 t/s

3 -100

5 -135

10 -165

24 -280

50 -420

Префилл - 6k t/s независимо от количества потоков

Spark хорошо держит параллельные генерации

В один поток у меня 10 t/s (vllm, dense модель), на 130 потоках суммарная генерация была 1.1к t/s

Крч грузить его пачкой мелких задач

Ps. И да, запилите уже на сайте отгрузку моделей с ценами. Юр лицам это очень надо

Модель с ризонгом скорее всего потратит на эти преобразования потратит лишние токены (которые будут уже output, т.е. в несколько раз дороже входящих)

Изменения в стоимости output есть?

А data engineering тут причем?

Ps напиши этот пост llm - он бы стал прекрасным примером галлюцинации: нейронка не имея достаточных знаний о предметной области пытается проводить аналогии основываясь на выученных закономерностях (не обязательно релевантных) и выводит из них ответ.

Все встреченные мною галлюцинации были логичными, компании в которой я работаю oss-20b приписала офисы в Лондоне и Берлине, и это блин логично (в отличии от дрянной реальности которая нифига не логична)

Pps прошу прощения если ps оказался токсичным

Объяснил как смог, неправильно но зато понятными словами.

Если миссия была сделать понятным - она выполнена

Opencode нормально работает с подпиской chatgpt plus, ключ не нужен

Не понял где вы берете apikey для авторизации запросов от своего прокси. Его вроде не выпустить для расходования лимитов подписки (буду рад ошибиться)

И добавляет промежуточный тариф, ирод какой

Люди с ботхаба, напрягите своих агентов и сделайте ручку на сайте, с которой можно получать цены на токены

Ну пожалуйста..

  1. Ура, обошлось без ollama )

  2. Насчет NVFP4, вдруг есть возможность сделать апдейт или вторую часть?

  3. Спасибо за обзор!

Пора сборник промптов выпускать.

Не задумывались?

Странно что мимо геммы 3 прошли, гугл даже QAT версию подготовил

В тексте иногда vLLM вместо VLM, по контексту не подходит

Один из шаблонов dify про дип рисерч, редактируется под свои хотелки за пару часов. В моем случае использует mcp по яндекс трекеру и конфлюенсу

Как будто репостам не хватает нормировки по просмотрам, это важно

Litellm oss много дашбордов не отдает, за декабрь четверть запросов была у sonnet 4.5, ~85% всех расходов через openwebui

Данных пока мало, с ноября собираем

Openwebui + litellm, внешний провайдер + vllm с oss-120b в контуре (для внутренних данных)

Модели дороже 50$ за миллион исходящих отключены, как и генерация картинок

Пока самая большая проблема - длинные чаты, несмотря на объяснения почему большая накопленная история - плохо и как перенести контекст в новый чат - регулярно вижу в litellm запросы по 80-120к токенов, без прилепленных файлов

Отрицание не равно опровержению, сколько можно уже..

Последняя миля относительно просто и дёшево решается с помощью радиомоста

Перплексия это не про качество абсолютно, это про "уверенность" при выборе следующего токена.

Прунинг делается под конкретную задачу, с контрольным датасетом и нормальными метриками

Если вы удаляли первый слой то просто обязаны были попробовать удалить и последний )) Но ни слова об этом вроде не сказано

Информация

В рейтинге
6 241-й
Зарегистрирован
Активность