Comments 19
Ну хоть про базовые фичи высоконагруженных систем рассказать), ну елки попки, там я не знаю, батчи, параллелизация, очереди, кафки шмафки, в чем инженерные мысли, хотел хоть глазом прикинуть, но в статье просто:
Я сделал систему, вот картинка со статистикой, спасибо за внимание
🫠
Да, спасибо, замечание действительно по делу. Это моя первая публикация на Хабре - своего рода проба пера. Пока не до конца понимаю, какой уровень технической глубины будет интересен аудитории, поэтому сделал упор на общий обзор и выводы.
Что касается архитектурных решений - полностью согласен, сейчас это описано слишком обобщённо. Отчасти потому, что текущий уровень нагрузки, на мой взгляд, ещё не требует каких-то ультрасложных/модных-молодежных решений вроде кафки, шардирования и батчинга - пока всё может работать стабильно и на относительно простом стеке (имею в виду, что все трюки, реализованный на данный момент пока не сильно оправдывают себя, а-ля из пушки по воробьям). Но я к этому иду, и как только появятся реальные вызовы, требующие таких подходов, обязательно сделаю отдельную техническую статью с описанием архитектуры, схемами, очередями и пр.
В любом случае спасибо за фидбэк - обязательно учту в следующих материалах. 🙌
Интересный опыт. Посмотрел питоновский пакет - Модель в 70b? А что за ускоритель\видеокарта используется на сервере?
Спасибо!
Вы планируете это дальше развивать или отключите через какое-то время? Можно ли на проде для пет-проекта заюзать?
Спасибо! Пока отключать не планирую. Если в будущем решу приостановить сервис, постараюсь заранее повесить предупреждение на главной странице и, возможно, возвращать предупреждение и, например, в теле ответов от API.
Пользоваться, разумеется, можно, в том числе и на проде - особенно если это pet-проект. Свои open-source Python-пакеты (использующие Langchain и совместимые с ChatModel) я уже отрефакторил на использование llm7 по умолчанию - если не задан другой провайдер. Там десятки тысяч скачиваний, и всё работает +- стабильно.
Полной бесперебойности, конечно, не могу гарантировать - это экспериментальный сервис, но в целом архитектура выдерживает. Буду рад, если сервис будет полезен.
Подключился, работает, спасибо.
Дарёному коню в зубу не смотрят, но что за странная реклама? Примерно раз в 50 сообщений добавляется в ответ от модели и ломает json объект, который я ожидаю в респонсе.
Keep your family safe online with SentryPC parental control—monitor and manage kids’ computer time effortlessly, [Learn more](https://api.llm7.io/redirect/200613)
Бывает и на русском
Управляйте безопасностью и временем работы за ПК вашего ребенка с SentryPC — удобным решением для заботливых родителей! [Learn more](https://api.llm7.io/redirect/200613)"
Очень впечатляет. Если не секрет, можете пожалуйста подробнее рассказать, за счёт чего такая щедрость?
10000/день это Средняя нагрузка 6 запросов в минуту а там моделей десять те на одну модель 1 запрос в минуту примерно
Когда-то давно, создавая сайты на заказ, всегда говорил клиентам, что надо написать тексты для "идиотов". Т.е. для людей, которые вообще впервые видят этот товар. Если ты описываешь какие-то мелочи, которые важны только профессионалам, ты по факту отказываешься от тех, кто не в теме и только делает начальный выбор. При этом у профессионала, для которого ты писал, чаще всего уже есть проверенный поставщик и него есть смысл заказать у тебя только при проблемах с проверенным поставщиком и не факт, что эти проблемы от поставщика, а не от клиента.
Поэтому в данном случае рекомендация на странице проекта https://llm7.io указать, на кого проект рассчитан, какие требования к железу у интересующегося должны быть, на каких системах оно может работать. В общем, закрыть все элементарные вопросы.
На данный момент я легко могу получить ответы у ИИ на сложные вопросы по установке и написании своего кода для работы с llm7.io Но по имеющейся информации я тупо не представляю с чего начать, так как не знаю, как сформулировать вопрос:(. Я бы с удовольствием опробовал бы сервис перед тем, как устанавливать модели локально на свой комп, а может быть и не стал бы пока их устанавливать себе вообще, если бы меня все устроило в сервисе.
1) Я вижу в списке моделей gpt-4.1 - разве она открытая?
2) Как уже спрашивали, интересно знать о технических деталях, и о мотивации/деньгах поднять бесплатный сервис
Тоже интересно что за сетапчик в плане железа используется
по 4 пункту, советую тут же на странице сделать ссылку на такую же страницу, но с оплатой. потом поделитесь результатами
Подскажите, какое железо использовали для запуска моделей? Как рассчитывали нагрузки?
Подскажите пожалуйста, модель умеет транскрибировать аудио?
Фетбэки, инсайты, ... пиши по русски. Эти слова тоже переводятся. Мусорный русский "имхо не комильфо".
Если Вам доведётся побывать в it компании, у вас уши завянут. Там таких слов во много раз больше чем русских. В статье автор старался использовать их меньше, как я вижу. Я тоже постоянно говорю: господа, вы либо на английском языке разговаривайте либо на русском, а так получается жаргон ничем не отличается от блатного на зоне.
Читая Ваш комментарий внезапно пришла идея написать статью о культуре фидбэка, затрагивающую основные аспекты успешной человеческой коммуникации, поскольку в некоторых отдельно взятых случаях пользователи информационной системы с нерусским названием "интернет" посредством устройств с нерусским названиями "компьютер" или "телефон" демонстрируют выпадение из фактической реальности.
Почему установили DeepSeek-V3 а не DeepSeek-V3-0324 ?
Полмиллиона запросов за месяц: мой LLM-challenge и первые выводы