Comments / Profile of Mortello / Habr

User

Три аккаунта ChatGPT и один прокси: как перестать следить за лимитами

Не понял где вы берете apikey для авторизации запросов от своего прокси. Его вроде не выпустить для расходования лимитов подписки (буду рад ошибиться)

ChatGPT может получить подписку за $100

Mortello Feb 22 at 12:38

И добавляет промежуточный тариф, ирод какой

Инженеры ИИ бьют тревогу, а мы продолжаем жить в 2024-м. Происходит нечто большее

Mortello Feb 17 at 21:41

Люди с ботхаба, напрягите своих агентов и сделайте ручку на сайте, с которой можно получать цены на токены

Ну пожалуйста..

Бенчмарк DGX Spark с LLM Qwen3: кому подойдет, почему 128 ГБ не серебряная пуля и о чем умолчал маркетинг NVIDIA

Mortello Feb 17 at 19:53

Ура, обошлось без ollama )
Насчет NVFP4, вдруг есть возможность сделать апдейт или вторую часть?
Спасибо за обзор!

Mortello Feb 16 at 21:21

Пора сборник промптов выпускать.

Не задумывались?

Доматчинг товаров с использованием LLM: от промптов до квантизации

Mortello Jan 31 at 23:22

Странно что мимо геммы 3 прошли, гугл даже QAT версию подготовил

В тексте иногда vLLM вместо VLM, по контексту не подходит

ИИ-агенты: как мы сделали DeepResearch по корпоративным данным и кодовой базе

Mortello Jan 22 at 12:19

Один из шаблонов dify про дип рисерч, редактируется под свои хотелки за пару часов. В моем случае использует mcp по яндекс трекеру и конфлюенсу

Как заставить LLM сортировать данные: от наивного подхода до TrueSkill

Mortello Jan 21 at 20:08

Как будто репостам не хватает нормировки по просмотрам, это важно

Данные реальных логов за 7 месяцев на 527 человек — что люди делают с LLM на работе и что с ними не так

Mortello Jan 19 at 11:05

Litellm oss много дашбордов не отдает, за декабрь четверть запросов была у sonnet 4.5, ~85% всех расходов через openwebui

Данных пока мало, с ноября собираем

Данные реальных логов за 7 месяцев на 527 человек — что люди делают с LLM на работе и что с ними не так

Mortello Jan 19 at 09:42

Openwebui + litellm, внешний провайдер + vllm с oss-120b в контуре (для внутренних данных)

Модели дороже 50$ за миллион исходящих отключены, как и генерация картинок

Пока самая большая проблема - длинные чаты, несмотря на объяснения почему большая накопленная история - плохо и как перенести контекст в новый чат - регулярно вижу в litellm запросы по 80-120к токенов, без прилепленных файлов

Роскомнадзор опроверг введение новых мер по блокировке Telegram в России

Mortello Jan 16 at 23:04

Отрицание не равно опровержению, сколько можно уже..

Гайд по обходу «белых списков» и настройке цепочки рабочие варианты, почему ваш VPN может не работать

Mortello Jan 16 at 11:38

Последняя миля относительно просто и дёшево решается с помощью радиомоста

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Mortello Jan 9 at 08:39

Перплексия это не про качество абсолютно, это про "уверенность" при выборе следующего токена.

Прунинг делается под конкретную задачу, с контрольным датасетом и нормальными метриками

Если вы удаляли первый слой то просто обязаны были попробовать удалить и последний )) Но ни слова об этом вроде не сказано

Переводим проекты с Python на Node.js: на что способна локальная LLM на самом деле

Mortello Dec 25 2025 at 15:24

Я бы начал с проверки теоретической возможности переноса и демонстрации на левом проекте и внешнем провайдере нормальных токенов а потом уже попробовал бы выбить под задачу бюджет на связку из пары серьезных но всё ещё бытовых gpu.

Ps То что ваши коллеги получили bad experience на кванте изначально слабой модели - логично

Выбор LLM и фреймворка для ИИ-агентов

Mortello Dec 24 2025 at 17:07

Sglang хорош на time to first token а вот при высокой конкурентности vllm в топе

Как развернуть полноценный n8n AI-стек за 15 минут, а не за целый день

Mortello Dec 6 2025 at 13:18

Можно подробнее почему n8n орекстратор над flowise? Пока не щупал ни тот ни другой но планирую, рассматривал их в режиме vs а не coop

Паника Сэма Альтмана: Почему пользователи бегут из ChatGPT, а Google празднует победу

Mortello Dec 6 2025 at 11:37

А корпоративный сектор и энтузиасты приватности все чаще выбирают Open Source решения от Meta*

Нельзя было этот маркер "экспертизы" в самом начале проговорить? Столько времени можно было бы сэкономить..

GigaAM-v3: открытая SOTA-модель распознавания речи на русском

Mortello Dec 4 2025 at 12:39

У сообщества в запросах разве нет готового образа чтоб без заморочек api дергать?

Это было бы удобно для

Если вы уже пользуетесь Whisper или другими моделями, то попробуйте подменить их на GigaAM-v3 в своём пайплайне и посмотрите, как изменятся метрики и субъективное восприятие.

-2

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Mortello Nov 5 2025 at 20:17

Спасибо за проверку.

Сейчас подумал и пришел к выводу что действительно, prefill этап быстрый и читая только один поток генерации черновика мастер будет большую часть времени простаивать занимая ценную vram, а при необходимости перехватить генерацию для 2+ потоках черновика шанс того что в памяти окажутся необходимые эксперты - небольшой, в итоге случится затык

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Mortello Nov 5 2025 at 10:49

Классный материал, спасибо!

Вы не запускали (ну вдруг) в спекулятивном режиме oss-20b (драфт) + 120b + выгрузка экспертов для мастера?

Ps тот случай когда ссылка на ТГ канал нужна но её нет )

2 3 4 5