Стартап Taalas впаял нейросеть в кремний и получил рекордные 17 000 токенов в секунду / Хабр

Канадский стартап Taalas вышел из стелс-режима и показал первый продукт — специализированный чип HC1 с "захардкоженной" Llama 3.1 8B. Модель не загружается в память, а буквально впаяна в кремний: веса зашиты в транзисторы на этапе производства. Результат — 17 000 токенов в секунду на одного пользователя, что почти в 10 раз быстрее текущих решений на GPU, при 20-кратном снижении стоимости производства и 10-кратной экономии энергии.

Основал Taalas Любиша Байич — основатель другого чипмейкера, Tenstorrent, и бывший директор проектирования интегральных схем в AMD. Вместе с ним компанию запустили его жена Лейла Байич (экс-AMD, экс-ATI) и Драго Игнятович (экс-AMD, экс-Tenstorrent). После того как в Tenstorrent пришел легендарный чип-дизайнер Джим Келлер и занял кресло CEO, Байич ушел — и через полгода начал строить Taalas с радикально другой идеей.

Суть подхода — тотальная специализация. Вместо того чтобы запускать модели на универсальных GPU, Taalas для каждой модели производит отдельный чип. Из более чем 100 слоев микросхемы кастомизируются только два верхних металлических — в них встраивается так называемая mask ROM recall fabric, где хранятся веса. Это позволяет TSMC выпускать готовый чип за два месяца вместо шести, типичных для обычного ИИ-процессора. Архитектура объединяет память и вычисления на одном кристалле, что снимает потребность в HBM, продвинутой упаковке, 3D-стекировании и жидкостном охлаждении.

Пока "захардкоженная" Llama — далеко не фронтирная модель, а агрессивная квантизация до 3 и 6 бит заметно снижает качество по сравнению с GPU-бенчмарками. Taalas это признает и позиционирует продукт как бета-сервис для разработчиков, которые хотят поэкспериментировать с инференсом на субмиллисекундных задержках. Чип поддерживает настраиваемое контекстное окно и дообучение через LoRA-адаптеры, так что минимальная гибкость сохраняется.

Компания привлекла более $200 млн (последний раунд — $169 млн от Quiet Capital, Fidelity и полупроводникового ветерана Пьера Ламонда), но потратила пока лишь $30 млн — на зарплаты 24 сотрудникам и разработку. Следующий чип на платформе HC1 будет рассуждающей моделью среднего размера (ожидается весной), а к зиме на платформе второго поколения HC2 обещают запустить передовую LLM. Если Taalas удастся масштабировать подход на большие модели, у Nvidia и конкурентов вроде Cerebras и Groq может появиться неожиданный соперник — из тех, кто предлагает не ускорять старую парадигму, а отменить ее.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.