evgeniievstafev May 15 at 08:16

Полмиллиона запросов за месяц: мой LLM-challenge и первые выводы

Easy

3 min

8.5K

Python * JavaScript * Open source *

From sandbox

Comments 19

digtatordigtatorov May 15 at 09:17

Ну хоть про базовые фичи высоконагруженных систем рассказать), ну елки попки, там я не знаю, батчи, параллелизация, очереди, кафки шмафки, в чем инженерные мысли, хотел хоть глазом прикинуть, но в статье просто:

Я сделал систему, вот картинка со статистикой, спасибо за внимание

🫠

evgeniievstafev May 15 at 11:55

Да, спасибо, замечание действительно по делу. Это моя первая публикация на Хабре - своего рода проба пера. Пока не до конца понимаю, какой уровень технической глубины будет интересен аудитории, поэтому сделал упор на общий обзор и выводы.

Что касается архитектурных решений - полностью согласен, сейчас это описано слишком обобщённо. Отчасти потому, что текущий уровень нагрузки, на мой взгляд, ещё не требует каких-то ультрасложных/модных-молодежных решений вроде кафки, шардирования и батчинга - пока всё может работать стабильно и на относительно простом стеке (имею в виду, что все трюки, реализованный на данный момент пока не сильно оправдывают себя, а-ля из пушки по воробьям). Но я к этому иду, и как только появятся реальные вызовы, требующие таких подходов, обязательно сделаю отдельную техническую статью с описанием архитектуры, схемами, очередями и пр.

В любом случае спасибо за фидбэк - обязательно учту в следующих материалах. 🙌

hardtop May 15 at 10:05

Интересный опыт. Посмотрел питоновский пакет - Модель в 70b? А что за ускоритель\видеокарта используется на сервере?

Veikedo May 15 at 12:42

Спасибо!
Вы планируете это дальше развивать или отключите через какое-то время? Можно ли на проде для пет-проекта заюзать?

evgeniievstafev May 15 at 12:53

Спасибо! Пока отключать не планирую. Если в будущем решу приостановить сервис, постараюсь заранее повесить предупреждение на главной странице и, возможно, возвращать предупреждение и, например, в теле ответов от API.

Пользоваться, разумеется, можно, в том числе и на проде - особенно если это pet-проект. Свои open-source Python-пакеты (использующие Langchain и совместимые с ChatModel) я уже отрефакторил на использование llm7 по умолчанию - если не задан другой провайдер. Там десятки тысяч скачиваний, и всё работает +- стабильно.

Полной бесперебойности, конечно, не могу гарантировать - это экспериментальный сервис, но в целом архитектура выдерживает. Буду рад, если сервис будет полезен.

Veikedo May 15 at 20:45

Подключился, работает, спасибо.
Дарёному коню в зубу не смотрят, но что за странная реклама? Примерно раз в 50 сообщений добавляется в ответ от модели и ломает json объект, который я ожидаю в респонсе.

Keep your family safe online with SentryPC parental control—monitor and manage kids’ computer time effortlessly, [Learn more](https://api.llm7.io/redirect/200613)

Бывает и на русском

Управляйте безопасностью и временем работы за ПК вашего ребенка с SentryPC — удобным решением для заботливых родителей! [Learn more](https://api.llm7.io/redirect/200613)"

CodeDict May 15 at 14:30

Очень впечатляет. Если не секрет, можете пожалуйста подробнее рассказать, за счёт чего такая щедрость?

Fardeadok May 15 at 15:25

10000/день это Средняя нагрузка 6 запросов в минуту а там моделей десять те на одну модель 1 запрос в минуту примерно

Newm May 15 at 15:27

Когда-то давно, создавая сайты на заказ, всегда говорил клиентам, что надо написать тексты для "идиотов". Т.е. для людей, которые вообще впервые видят этот товар. Если ты описываешь какие-то мелочи, которые важны только профессионалам, ты по факту отказываешься от тех, кто не в теме и только делает начальный выбор. При этом у профессионала, для которого ты писал, чаще всего уже есть проверенный поставщик и него есть смысл заказать у тебя только при проблемах с проверенным поставщиком и не факт, что эти проблемы от поставщика, а не от клиента.

Поэтому в данном случае рекомендация на странице проекта https://llm7.io указать, на кого проект рассчитан, какие требования к железу у интересующегося должны быть, на каких системах оно может работать. В общем, закрыть все элементарные вопросы.

На данный момент я легко могу получить ответы у ИИ на сложные вопросы по установке и написании своего кода для работы с llm7.io Но по имеющейся информации я тупо не представляю с чего начать, так как не знаю, как сформулировать вопрос:(. Я бы с удовольствием опробовал бы сервис перед тем, как устанавливать модели локально на свой комп, а может быть и не стал бы пока их устанавливать себе вообще, если бы меня все устроило в сервисе.

vitaly_il1 May 15 at 15:33

1) Я вижу в списке моделей gpt-4.1 - разве она открытая?

2) Как уже спрашивали, интересно знать о технических деталях, и о мотивации/деньгах поднять бесплатный сервис

digtatordigtatorov May 15 at 16:02

Написано же в статье, что анонимный сбор данных

losander May 16 at 04:56

Тоже интересно что за сетапчик в плане железа используется

Yurij_LL May 16 at 05:33

по 4 пункту, советую тут же на странице сделать ссылку на такую же страницу, но с оплатой. потом поделитесь результатами

Zaf97 May 16 at 05:56

Подскажите, какое железо использовали для запуска моделей? Как рассчитывали нагрузки?

NikiRiki May 16 at 05:56

Подскажите пожалуйста, модель умеет транскрибировать аудио?

FirstMaster May 17 at 00:16

Фетбэки, инсайты, ... пиши по русски. Эти слова тоже переводятся. Мусорный русский "имхо не комильфо".

Pashe4ka May 19 at 05:14

Если Вам доведётся побывать в it компании, у вас уши завянут. Там таких слов во много раз больше чем русских. В статье автор старался использовать их меньше, как я вижу. Я тоже постоянно говорю: господа, вы либо на английском языке разговаривайте либо на русском, а так получается жаргон ничем не отличается от блатного на зоне.

Stanry May 19 at 05:14

Читая Ваш комментарий внезапно пришла идея написать статью о культуре фидбэка, затрагивающую основные аспекты успешной человеческой коммуникации, поскольку в некоторых отдельно взятых случаях пользователи информационной системы с нерусским названием "интернет" посредством устройств с нерусским названиями "компьютер" или "телефон" демонстрируют выпадение из фактической реальности.

Alosxkj May 17 at 20:59

Почему установили DeepSeek-V3 а не DeepSeek-V3-0324 ?