Команда vLLM — самого популярного open-source движка для запуска больших языковых моделей — основала стартап Inferact и привлекла $150M seed при оценке $800M. Раунд возглавили Andreessen Horowitz и Lightspeed, участвовали Sequoia, Databricks Ventures и фонд канцлера UC Berkeley. У проекта vLLM более 2000 контрибьюторов, код входит в экосистему PyTorch.

Движок ускоряет работу ассистента Rufus (Amazon, 250 млн пользователей), Assistant (Roblox, более 1 млрд токенов в неделю) и Hiring Assistant (LinkedIn). Ключевая технология — PagedAttention — управляет памятью GPU по принципу виртуальной памяти в операционных системах. Это сокращает потери памяти с 60–80% почти до нуля и позволяет обрабатывать больше запросов на том же железе.

Среди сооснователей Inferact — Ион Стойка, профессор Беркли, сооснователь Databricks и Anyscale, а также Вусук Квон, автор оригинальной архитектуры vLLM и диссертации по теме. CEO стал Саймон Мо, один из создателей проекта. По его словам, среди пользователей vLLM — Amazon Web Services и приложение Amazon Shopping.

Inferact планирует запустить коммерческую версию движка. "Сегодня развертывание топовых ИИ-моделей требует выделенной инфраструктурной команды. Завтра это должно быть так же просто, как запустить serverless базу данных. Сложность не исчезает — она поглощается инфраструктурой, которую мы строим", — написал Квон в блоге компании.

Неделей ранее другой проект из лаборатории Стойки — SGLang — превратился в стартап RadixArk с оценкой $400M. Два раунда за неделю из одной лаборатории Беркли— сигнал: инвесторы считают запуск, а не обучение моделей, главным полем битвы в AI-инфраструктуре.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.