Не, для понимания всё ж обычно достаточно посмотреть на результат в ассемблере. Вот для глубокого понимания — таки да, написать компилятор не помешает. Лично я на глубокое не претендую, могу только сравнить себя с однокурсником, который таки написал.
Вот только domain.tld и www.domain.tld для него разные домены и может вернуть две разные ссылки на одно и то же. Ну и скорее, старается не возвращать. Не скажу, что мои запросы совсем уж уникальны, но когда все результаты укладываются на одну страницу — иногда половина с одного сайта.
Зачем в ollama балансировка запросов, если это бекенд, запускающий инстанс конкретной модели (моделей, если влезут) на конкретном сервере или даже конкретной видеокарте в сервере?
Очередь запросов там есть. Кеширование тоже. Балансировать должен фронтенд, если бекендов несколько.
Не устраивает ollama (всё-таки не всегда подходит и не всё может запустить из новых) — берём vllm, настраиваем несколько больше, чем ollama (опций сильно больше) и пользуемся практически так же, через api. Но там уже строго одна модель в одном запущенном бекенде.
Фронтендом к ним можно много чего в проде поставить, начиная с nginx+lua, заканчивая чем-то вроде litellm.
А вообще, мы, похоже, чуть-чуть о разном — localai про единую инфраструктуру (не знаю, насколько она гибкая и переиспользуемая не в рамках dev), ollama/vllm — кирпичики, которые очень легко встраиваются куда-то ещё.
И что? Оно работает, дохрена док по всему инету, можно сделать морду у себя, бекенд — где-то там. Ну то есть, можно разрабатывать на сетапе, идентичном продовому и потом выкатить тупо ту же конфигурацию, а не разбираться, в чём разница в запуске модели, отчего это она на одном и том же тестовом запросе выдаёт разные результаты в разных местах.
Потому что морда отдельно, запуск отдельно, а не всё в одном. Ту же ollama отлично можно использовать где-нибудь в кластере и обращаться к ней будут далеко не люди.
Пинг будет ~200ms и это по проводам. А если имелось ввиду "взять сотовые и через них замутить" — добавь ещё полсекунды. Вобщем, даже если получится запустить — ой не факт, что такая пошаговая стратегия будет юзабельна.
Вот на дебиан тянуть не надо — archive.debian.org отлично работает и позволяет доустановить пакеты или обновить систему на следующую версию. Оно, конечно, неправильно, держать такую древность, но случаи разные бывают.
Государству в целом и в долгую — выгоднее. В примерах — либо местная инициатива, либо нечто сиюминутное без учёта долговременных последствий, ибо на них наплевали.
Не, для понимания всё ж обычно достаточно посмотреть на результат в ассемблере. Вот для глубокого понимания — таки да, написать компилятор не помешает. Лично я на глубокое не претендую, могу только сравнить себя с однокурсником, который таки написал.
Не обязательно даже что-то менять, кроме урла сервиса.
Скорее, чтобы понимать, что делаешь, когда пишешь на си.
"рубильник вниз — станок выключен, рубильник вверх — сломан"
:-)
Они выбрали тач лопаты потому что сейчас из приемлемого по возможностям нихрена нет.
У nc была в соответствующих журналах прошлого века.
Вот только
domain.tldиwww.domain.tldдля него разные домены и может вернуть две разные ссылки на одно и то же. Ну и скорее, старается не возвращать. Не скажу, что мои запросы совсем уж уникальны, но когда все результаты укладываются на одну страницу — иногда половина с одного сайта.Ваш комментарий заставляет меня почувстввать синдром самозванца :-)
"Создавать пассивный доход" — совершенно отдельный навык, зачастую никак не связанный с навыками в IT.
Там уже саму надпись "Мотив" считают наследием — до ковида хотели снять и таки в голосовании народ был против.
Смотря для какого прода. Если прод == "запускать одну модель с максимальной производительностью", то лучше vllm.
Зачем в ollama балансировка запросов, если это бекенд, запускающий инстанс конкретной модели (моделей, если влезут) на конкретном сервере или даже конкретной видеокарте в сервере?
Очередь запросов там есть. Кеширование тоже. Балансировать должен фронтенд, если бекендов несколько.
Не устраивает ollama (всё-таки не всегда подходит и не всё может запустить из новых) — берём vllm, настраиваем несколько больше, чем ollama (опций сильно больше) и пользуемся практически так же, через api. Но там уже строго одна модель в одном запущенном бекенде.
Фронтендом к ним можно много чего в проде поставить, начиная с nginx+lua, заканчивая чем-то вроде litellm.
А вообще, мы, похоже, чуть-чуть о разном — localai про единую инфраструктуру (не знаю, насколько она гибкая и переиспользуемая не в рамках dev), ollama/vllm — кирпичики, которые очень легко встраиваются куда-то ещё.
И что? Оно работает, дохрена док по всему инету, можно сделать морду у себя, бекенд — где-то там. Ну то есть, можно разрабатывать на сетапе, идентичном продовому и потом выкатить тупо ту же конфигурацию, а не разбираться, в чём разница в запуске модели, отчего это она на одном и том же тестовом запросе выдаёт разные результаты в разных местах.
Потому что морда отдельно, запуск отдельно, а не всё в одном. Ту же ollama отлично можно использовать где-нибудь в кластере и обращаться к ней будут далеко не люди.
ATM0 и тишина :-)
Ибо нефиг тревожить соседей терзаемыми кошками :-)
Пинг будет ~200ms и это по проводам. А если имелось ввиду "взять сотовые и через них замутить" — добавь ещё полсекунды. Вобщем, даже если получится запустить — ой не факт, что такая пошаговая стратегия будет юзабельна.
Ну это до того, как начали снимать жесткие диски, дабы пойти до товарища. С тех пор — hdd-net :-)
Чего-то вспомнилась фидошная байка про ноду на 286 и модем к ней на 386.
Вы про какие модели спорите? А то люминофор разный, где-то пару кадров на 60Гц мог светиться, где-то на 75Гц меньше кадра.
Вот на дебиан тянуть не надо — archive.debian.org отлично работает и позволяет доустановить пакеты или обновить систему на следующую версию. Оно, конечно, неправильно, держать такую древность, но случаи разные бывают.
Государству в целом и в долгую — выгоднее. В примерах — либо местная инициатива, либо нечто сиюминутное без учёта долговременных последствий, ибо на них наплевали.