Пользователь всегда имеет возможность уточнить/обнулить - для этого не надо историю переписывать. И к 'знаниям' это не имеет отношения - только к сессии инференса с конкретным пользователем.
Запомнить историю переписки не проблема. Проблема - как эффективно организовать мульти-сессионность инференса с LLM? В процессе диалога в модели образуются матрицы, связанные с контекстом - их надо как-то сохранять и восстанавливать, подобно тому, как это делает операционка при переключении состояния CPU между процессами.
Ингресы на ngenix и основаны, я тоже считаю, что настройка Ингресов вполне заменяет организацию какого то выделенного API GW, и.е функционал возлагается на них.
Да не яйца (не Эджайл) вам танцевать мешают.. Мутный продукт, мутный код и архитектура - следствие Мутных задач. Не допускайте Мутных задач! Участвуйте в их постановке и проработке с Бизнесом.
Сижу и работаю на балконе, точнее - крытой террассе 10 КВ.м, передо мной ёлочки через них просматривается море.. Летом, когда жарко или наоборот - осенью (сейчас) во время дождя от них веет офигенным тонким ароматом.. даже не знаю что мне больше нравится.. наверное - дождь. Вечером включаю обогреватель, инфракрасный.. при определенной доле фантазии можно представить, что это не он, а очаг огня))
1 монитор и ноут, карповое кресло в качестве рабочего.
Ничто из этого НЕ годится для AI. В 2025 в этой области рулят встройки ЦРУ+ГПУ на кристалле с общей памятью 128-512GB. Apple M3 ultra или Ryzen MAX 395+
Столько труда, чтобы порезать карту за 30тыс долл на 10 кусков по 8ГБ?? Не проще ли купить 10 RTX 3060 8GB(по 250 долл) + пару RTX 5090 32GB (по 2500 долл). В общем иметь линейку разной ёмкости карт и в 10 раз больше CUDA ядер за полцены от H100
Отлаживать реактивщину уже научились дебаггером или это в принципе - невозможно?
Пользователь всегда имеет возможность уточнить/обнулить - для этого не надо историю переписывать. И к 'знаниям' это не имеет отношения - только к сессии инференса с конкретным пользователем.
Запомнить историю переписки не проблема. Проблема - как эффективно организовать мульти-сессионность инференса с LLM? В процессе диалога в модели образуются матрицы, связанные с контекстом - их надо как-то сохранять и восстанавливать, подобно тому, как это делает операционка при переключении состояния CPU между процессами.
Выключите вы там в Авито своего любопытного бота уже.. Вы договорились? Как прошла сделка? Достал!!
Надо было попробовать, прежде чем писать - вдруг глючная кривая херня? А на словах - Лев Толстой, как говорится
Да в ИТ этих INTP - как собак нерезанных
Ингресы на ngenix и основаны, я тоже считаю, что настройка Ингресов вполне заменяет организацию какого то выделенного API GW, и.е функционал возлагается на них.
Чем предлагаете реализовать API Gateway? Неужели вручную оборачивать все вызовы?
И можно ли его заменить Ингресами Кубера?
"десятков тысяч заказов в день".. ого! почти 1 заказ в-секунду.
Верить, что Вселенная появилась из Точки так же глупо, как верить, что она вылетела из ноздри Великого Апчхибудздравия, когда тот чихнул.
Да не яйца (не Эджайл) вам танцевать мешают.. Мутный продукт, мутный код и архитектура - следствие Мутных задач. Не допускайте Мутных задач! Участвуйте в их постановке и проработке с Бизнесом.
Тимлид должен вести фичу от идеи до деплоя.
Короче - Спам платформа. Теперь нормальным людям откликов вообще - не дождаться.
Сижу и работаю на балконе, точнее - крытой террассе 10 КВ.м, передо мной ёлочки через них просматривается море.. Летом, когда жарко или наоборот - осенью (сейчас) во время дождя от них веет офигенным тонким ароматом.. даже не знаю что мне больше нравится.. наверное - дождь. Вечером включаю обогреватель, инфракрасный.. при определенной доле фантазии можно представить, что это не он, а очаг огня))
1 монитор и ноут, карповое кресло в качестве рабочего.
Не читал никакого Мартина - мой код и архитектура и так всегда были чистыми.
Просто и понятно! Прикопал на будующее.
Ничто из этого НЕ годится для AI. В 2025 в этой области рулят встройки ЦРУ+ГПУ на кристалле с общей памятью 128-512GB. Apple M3 ultra или Ryzen MAX 395+
Столько труда, чтобы порезать карту за 30тыс долл на 10 кусков по 8ГБ?? Не проще ли купить 10 RTX 3060 8GB(по 250 долл) + пару RTX 5090 32GB (по 2500 долл). В общем иметь линейку разной ёмкости карт и в 10 раз больше CUDA ядер за полцены от H100
Расскажите лучше - какие задачи вы там у себя решаете? И почему для этого нужен ML?
И что за ML сервисы такие - почему нельзя в REST обернуть и задеплоить в Кубер?
На бок кладешь и в стойку, на уголки.
Ну то есть, не глупо, а просто - преждевременно