Из описания не понял, у этого приложения есть сервер с базой данных всех сообщений? Кто держит этот сервер? Какую нагрузку он способен выдержать? Какой трафик он способен выдержать? Пока больше вопросов, чем ответов.
Про блокировки при авто обновлении статистик в MS SQL написали, а про AUTO UPDATE STATISTICS ASYNC почему-то нет. Странно.
Google AI Overview:
"Auto update statistics async" in SQL Server is a database setting that allows the query optimizer to compile a query plan using out-of-date statistics, while a background thread updates the statistics in the background.
В Express еще нет параллельных планов выполнения 1 запроса. Но это, как правило, "слава богу", т.е. наоборот на полных редакциях периодически приходится max_dop ограничивать.
Всё верно, не помнит. LLM - это вообще константа - снимок весов модели на момент окончания обучения, загруженный в память на сервере. При инференсе (при генерации ответов на вопросы по этим весам) сами веса не меняются, они только используются для расчета (вероятности слов в ответе).
Транскрипт голосовых только с подпиской Премиум
Интегрировать с RAG поиском в OpenWebUI можно?
https://github.com/open-webui/open-webui
Из описания не понял, у этого приложения есть сервер с базой данных всех сообщений? Кто держит этот сервер? Какую нагрузку он способен выдержать? Какой трафик он способен выдержать? Пока больше вопросов, чем ответов.
https://www.phoronix.com/news/NVIDIA-CUDA-Tile-IR-Open-Source
Интересно может ли это помочь ускорить код для CUDA
Какие-то нововведения в CUDA завезли, может за счет них еще какие-то оптимизации появятся:
https://www.phoronix.com/news/NVIDIA-CUDA-Tile-IR-Open-Source
Выложили то выложили ) А на каком железе вы собрались запускать модель такого размера? Не у каждого есть под рукой штук 6-8 A100 / H100
Хотел написать "мсье знает толк", но ведь и правда знает, и в данном случае это круто (независимо от странности решаемой проблемы!)
Знакомства рядом? Где-то икнул одинокий всеми забытый Tinder
И тем, в кого он влетит. Напрягают доставщики, ездящие по тротуарам.
3i/atlas пролетел мимо :( Но обещал вернуться :)
Узбагойся, идея ничего не стОит без реализации
ох, неужели кто-то в 2025 году ещё читает статьи из 2013-го! :)
Это всё потому, что у них ИИ не было :-D Вот щас как натравят ИИ на базу кода, он быстро всё допишет как надо! <sarcasm>
Про блокировки при авто обновлении статистик в MS SQL написали, а про AUTO UPDATE STATISTICS ASYNC почему-то нет. Странно.
Google AI Overview:
"Auto update statistics async" in SQL Server is a database setting that allows the query optimizer to compile a query plan using out-of-date statistics, while a background thread updates the statistics in the background.
> которая поддерживает расшифровку данных непосредственно на железе
надеюсь, это был сарказм )
Это уже очень давно не так (и, возможно, никогда такого не было).
2016-м сервере уже было "lesser of 1 socket or 4 cores"
https://learn.microsoft.com/en-us/sql/sql-server/editions-and-components-of-sql-server-2016?view=sql-server-ver16#scale-limits
В Express еще нет параллельных планов выполнения 1 запроса. Но это, как правило, "слава богу", т.е. наоборот на полных редакциях периодически приходится max_dop ограничивать.
Можно поднять MS SQL на Linux'е :-D
В 2025 версии они повысили лимит размера базы SQL Express с 10 ГБ до 50 ГБ. Хороший подарок!
Всё верно, не помнит. LLM - это вообще константа - снимок весов модели на момент окончания обучения, загруженный в память на сервере. При инференсе (при генерации ответов на вопросы по этим весам) сами веса не меняются, они только используются для расчета (вероятности слов в ответе).
>при нажатии Enter скидывается в LLM вся его история от начала времен, и LLM каждый раз читает её заново.
Так и есть. Только не от начала времен, а в пределах контекстного окна (в районе 200 Кб, у некоторых спец моделей чуть больше)