Фрилансер рассказал про контракт, в рамках которого за $35 тыс. развернёт ИИ-решение на Llama 3 70B / Хабр

Реддитор поведал сообществу n8n о своём недавно заключённом контракте. Как рассказывает фрилансер, он развернёт для юридической фирмы полноценное ИИ-решение на основе Llama 3 70B со стоимостью хостинга около $1200 в месяц.

ChatGPT и другие схожие продукты молниеносно завоевали мировой рынок. Свой первый миллион пользователей чат-бот от OpenAI набрал всего за 5 дней, а уже через два месяца сайт ежемесячно открывали 100 млн человек. На данный момент более 400 млн человек пользуются ChatGPT раз в неделю или чаще. Согласно прикидке Google, 600 млн людей прибегают к ИИ от OpenAI хотя бы раз в месяц.

Аналогичные показатели демонстрируют другие чат-боты на больших языковых моделях (БЯМ). Как хвастает Alphabet, 400 млн человек хотя раз в месяц пользуются услугами сервисов Gemini — и это без учёта ещё 1,5 млрд людей, получающих ответы ИИ в поиске Google. Компания Anthropic, куда более мелкий игрок, никогда не раскрывала точную статистику, но оценки указывают, что у Claude десятки миллионов ежемесячных пользователей.

Подобную скорость сложно оценить без сравнения. TikTok, который часто ругают за механики вырабатывания зависимости, собирал первые 100 млн пользователей долго, почти год, а Instagram — 28 месяцев. Чат-боты на БЯМ значительно популярней даже самых известных мобильных приложений.

Насколько быстро выросла аудитория этих чат-ботов, настолько же быстро компании ограничили своим сотрудникам возможность ими пользоваться. Делалось это по соображениям безопасности и управления чувствительными данными. Комплаенс и другие политики строго ограничивают передачу информации, чтобы соответствовать законодательству и договорным обязательствам.

Как убедилась Samsung, это не просто абстрактные соображения. Вскоре после появления ChatGPT в конце 2022 года в компании ввели полный запрет на ChatGPT. Но после онлайн-семинара 22 февраля 2023 на тему пользы ИИ было решено устроить послабления, пусть и в тестовом режиме — только для некоторых отделов. С подачи одного из вице-президентов компании Хан Ёнхи ChatGPT внутри Samsung разбанили 11 марта. Впрочем, в СМИ сообщалось , что часть департаментов общалась с БЯМ уже 9 числа.

Как выяснилось в апреле 2023 года, всего за 20 дней сотрудники отдела полупроводников Samsung три раза умудрились допустить утечку данных. За неполные три недели самсоновцы копипастили в ChatGPT скрипты для промышленного оборудования, программный код для анализа дефектных микросхем и даже полную расшифровку совещания.

Вставлять подобные данные в чат-бота категорически нельзя: информация будет сохранена на серверах OpenAI, поэтому рискует попасть в датасеты обучения и дообучения. Если БЯМ запомнит такие данные, то в дальнейшем сможет цитировать их. После опроса внутри Samsung запрет вернули на место.

Не нужно думать, что южнокорейский пример уникален. Этот случай интересен только вниманием СМИ — в других организациях вводили ровно такие же ограничения, просто без драматичных утечек. ChatGPT запретили использовать (1, 2) везде: как технологические компании по типу Apple, Amazon или Verizon, так и финансовые гиганты уровня JPMorgan Chase, Bank of America и Deutsche Bank. Речь идёт не только об организациях, ограниченных правилами GLBA и PCI-DSS. Также часто запрещено общаться с чужими чат-ботами в области здравоохранения, где применяется закон HIPAA. Наконец, часто данные нельзя передавать куда попало из-за общих норм по типу GDPR в Евросоюзе, 242-ФЗ в России и PIPL в Китае.

Однако ИИ бывает необходим, и в таких случаях разворачивают собственные продукты на БЯМ.

Стоимость подобных решений иногда явно уходит в миллионы долларов. К примеру, Microsoft развернула GPT-4 в частном изолированном облаке Azure Government Top Secret для министерства обороны США. Стоимость проекта не называлась, однако известно, что Пентагон кормит Google, Oracle, Amazon и Microsoft через контракты Joint Warfighting Cloud Capability, и суммарно на «совместную боевую облачную платформу» тратится почти миллиард долларов в год.

В последние месяцы БЯМ с открытыми веса́ми и лицензиями на коммерческое использование вплотную приблизились к проприетарным решениям. Как продемонстрировал пример одной мелкой американской студии из двух человек, собственный ИИ может позволить себе юридическая фирма среднего размера. В посте на подреддите /r/n8n фрилансер под ником eeko_systems (не связан с одноимённой компанией из Нигерии) рассказал, что получил контракт на частное ИИ-решение на $35 тыс.

Реддитор дал общее описание архитектуры, которую будет разворачивать. Хотя облачные компоненты присутствуют, сторонние API не используются, из-за чего удаётся добиться соответствия строгим политикам обработки юридических данных. Условно систему можно представить в виде трёх частей:

Языковая модель Llama 3 в варианте на 70 млрд параметров, запущенная через библиотеку vLLM. Модель сжата квантованием. Его битность или схему eeko_systems не уточняет.
Изолированный сервер в облаке CoreWeave с двумя Nvidia A100 (80 ГиБ памяти). Ускорители дорогие — $2,21 в час, что в пересчёте на месяц составит порядка $1600. Однако с помощью резервирования и планирования стоимость хостинга после деплоя упадёт до порядка $1,2 тыс. в месяц. Предусмотрена возможность лёгкого переноса всех компонентов на собственные локальные серверы.
Документы нужно разбивать на части и проводить к ним запросы. Необходимый для этого пайплайн RAG будет настроен через LlamaIndex с хранилищем в ChromaDB.

Планируемый продукт необходим для анализа юридических документов. Экспертная система сможет отвечать на сложные вопросы о юридических делах, судебных ходатайствах и контрактах. Реализована она будет как простейший чат на Streamlit с JWT-авторизацией и журналом запросов для аудита.

Оркестрация событий планируется через n8n. Конечно, речь идёт о Community Edition на собственном сервере, а не запросах через облачное API компании-разработчика. Телеметрия в Community Edition полностью отключается установкой параметра N8N_ENABLE_TELEMETRY=false, но дополнительно сервер будет находиться за файрволом. В любом случае n8n должен обрабатывать только автоматизацию, а не сами чувствительные данные.

Именно через n8n будет настроен мониторинг расшаренного аккаунта Google Drive, в котором появляются новые документы. После этого документы будут конвертироваться, разбиваться на части и встраиваться в ChromaDB. За этим следует стадия запуска задачи по составлению краткого содержания, которое уйдёт на электронную почту и в Slack помощникам юристов.

Именно n8n поможет обработать идущие через форму или UI чата вопросы и отдать ответ от БЯМ. Дополнительно n8n журналирует информацию с целями комплаенса, составления отчётов и аудита. Что особенно важно, сотрудники клиента при желании смогут самостоятельно менять воркфлоу n8n.

Юридическая фирма не раскошелилась на услуги по поддержанию инфрасткрутуры, но, как пишет eeko_systems, он готов был заключить соответствующий договор за $2000 в месяц. Кстати, получить этот контракт помог обычный холодный звонок и 5 недель переговоров.

По результатам выгодного контракта реддитор сделал несколько выводов. Как отмечает eeko_systems, приватность и контроль данных стали новыми киллер-фичами. Многие организации отказываются от выгрузки данных в ChatGPT или в Claude из-за опасений о приватности и всерьёз рассматривают разворачивание собственного ИИ. При этом компании часто не желают делать это самостоятельно, желая видеть некое простое решение, которое развернёт кто-то ещё. Подобный опыт реддитор планирует адаптировать в специальный продукт для юридических, финансовых и медицинских организаций.

Наконец, eeko_systems считает Llama 3 70B моделью, достаточной для реального использования, если БЯМ развернули правильно.