Обновить
0

Пользователь

Отправить сообщение

Ps напиши этот пост llm - он бы стал прекрасным примером галлюцинации: нейронка не имея достаточных знаний о предметной области пытается проводить аналогии основываясь на выученных закономерностях (не обязательно релевантных) и выводит из них ответ.

Все встреченные мною галлюцинации были логичными, компании в которой я работаю oss-20b приписала офисы в Лондоне и Берлине, и это блин логично (в отличии от дрянной реальности которая нифига не логична)

Pps прошу прощения если ps оказался токсичным

Объяснил как смог, неправильно но зато понятными словами.

Если миссия была сделать понятным - она выполнена

Opencode нормально работает с подпиской chatgpt plus, ключ не нужен

Не понял где вы берете apikey для авторизации запросов от своего прокси. Его вроде не выпустить для расходования лимитов подписки (буду рад ошибиться)

И добавляет промежуточный тариф, ирод какой

Люди с ботхаба, напрягите своих агентов и сделайте ручку на сайте, с которой можно получать цены на токены

Ну пожалуйста..

  1. Ура, обошлось без ollama )

  2. Насчет NVFP4, вдруг есть возможность сделать апдейт или вторую часть?

  3. Спасибо за обзор!

Пора сборник промптов выпускать.

Не задумывались?

Странно что мимо геммы 3 прошли, гугл даже QAT версию подготовил

В тексте иногда vLLM вместо VLM, по контексту не подходит

Один из шаблонов dify про дип рисерч, редактируется под свои хотелки за пару часов. В моем случае использует mcp по яндекс трекеру и конфлюенсу

Как будто репостам не хватает нормировки по просмотрам, это важно

Litellm oss много дашбордов не отдает, за декабрь четверть запросов была у sonnet 4.5, ~85% всех расходов через openwebui

Данных пока мало, с ноября собираем

Openwebui + litellm, внешний провайдер + vllm с oss-120b в контуре (для внутренних данных)

Модели дороже 50$ за миллион исходящих отключены, как и генерация картинок

Пока самая большая проблема - длинные чаты, несмотря на объяснения почему большая накопленная история - плохо и как перенести контекст в новый чат - регулярно вижу в litellm запросы по 80-120к токенов, без прилепленных файлов

Отрицание не равно опровержению, сколько можно уже..

Последняя миля относительно просто и дёшево решается с помощью радиомоста

Перплексия это не про качество абсолютно, это про "уверенность" при выборе следующего токена.

Прунинг делается под конкретную задачу, с контрольным датасетом и нормальными метриками

Если вы удаляли первый слой то просто обязаны были попробовать удалить и последний )) Но ни слова об этом вроде не сказано

Я бы начал с проверки теоретической возможности переноса и демонстрации на левом проекте и внешнем провайдере нормальных токенов а потом уже попробовал бы выбить под задачу бюджет на связку из пары серьезных но всё ещё бытовых gpu.

Ps То что ваши коллеги получили bad experience на кванте изначально слабой модели - логично

Sglang хорош на time to first token а вот при высокой конкурентности vllm в топе

Можно подробнее почему n8n орекстратор над flowise? Пока не щупал ни тот ни другой но планирую, рассматривал их в режиме vs а не coop

А корпоративный сектор и энтузиасты приватности все чаще выбирают Open Source решения от Meta*

Нельзя было этот маркер "экспертизы" в самом начале проговорить? Столько времени можно было бы сэкономить..

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность