Обновить
8K+
2
Лина Бессонова@linabesson

metabolic AI dev / разраб метаболического ИИ 🇷🇺

4,5
Рейтинг
26
Подписчики
Хабр КарьераХабр Карьера
Отправить сообщение
  1. Numenta HTM (Hierarchical Temporal Memory) Разработана Джеффом Хокинсом на основе теории работы неокортекса. Принцип: Имитирует структуру кортикальных колонок мозга. Модель работает с «разреженными распределенными представлениями» (SDR), где активна лишь малая часть нейронов. Особенность: В отличие от обычных нейросетей, HTM учится непрерывно (online learning) и отлично предсказывает временные ряды, как это делает мозг, постоянно строя гипотезы о будущем.

  2. Spiking Neural Networks (SNN) — Импульсные нейросети Считаются «третьим поколением» нейронных сетей. Принцип: Информация передается не числами, а короткими импульсами (спайками) в конкретные моменты времени. Нейрон «выстреливает» только тогда, когда накопленный заряд достигает порога. Архитектуры: Модели на базе процессоров Intel Loihi или IBM TrueNorth. Зачем это нужно: Это позволяет имитировать экстремальную энергоэффективность мозга (потребление всего 20 Вт).

  3. Биомиметические графовые нейронные сети (Bio-GNN) Эти архитектуры копируют не отдельные нейроны, а связность (коннектом) реального мозга. Принцип: Архитектура сети строится на основе карт реальных нейронных связей (например, мозга плодовой мушки или мыши). Особенность: В них используются «модульные» структуры и обратные связи, которые в классических трансформерах обычно отсутствуют или упрощены.

  4. Модели с “Active Inference” (Активный вывод) Основаны на принципе свободной энергии Карла Фристона. Принцип: Вместо простой обработки входящих данных (bottom-up), модель постоянно генерирует внутренние предсказания реальности и минимизирует «ошибку удивления». Пример: Модели на базе Verses AI, которые пытаются имитировать биологическое адаптивное поведение и самоорганизацию.

  5. Живые нейронные сети (Liquid Neural Networks) Разработка лаборатории CSAIL MIT (Рамин Хасани). Принцип: Вдохновлены нервной системой крошечного червя C. elegans. Особенность: Параметры модели (дифференциальные уравнения) меняются в зависимости от входных данных в реальном времени. Это делает их невероятно гибкими и компактными — модель, управляющая автономным автомобилем, может состоять всего из 19 нейронов.

«По логистике: мы нигде не утверждали, что Mac Mini — это основа суверенного железа. Это стенд-доказательство того, что наша архитектура способна жить локально, в то время как Сберу и Яндексу нужны ангары с H100. Вместо миника в будущем может появиться и что-то произведенное в РФ, сравнимое по качеству.

По цепям Маркова: да, мы от них отказываемся. Цепи Маркова предполагают зависимость состояния только от предыдущего шага. Наша система (CharacterSedimentation) накапливает долгосрочный контекст и структурные изменения “личности”, которые не укладываются в марковский процесс. Мы моделируем динамику нелинейных систем с памятью.

По нейробиологии (тут вы ошибаетесь фундаментально): Человек учится НЕ на “грандиозных объемах информации”. Младенец не прочитывает 10 терабайт Википедии, чтобы научиться говорить. Мозг учится через активное взаимодействие со средой (Active Inference) и накопление немногочисленного, но высокоценного (embodied) опыта, опираясь на врожденную архитектуру выживания (те самые “стресс и усталость”, над которыми вы смеетесь).

Трансформер — это НЕ отражение мозга. Это статистический трюк (внимание на последовательностях), придуманный для машинного перевода, который случайно оказался способен к генерализации из-за перегрузки петабайтами текста. У Трансформера нет гомеостаза, нет мотивации и нет субъективного восприятия времени.

Мы противопоставляем статистическому трюку — биомиметику. Систему, у которой есть виртуальное тело, метаболизм и потребность адаптироваться (снижать ошибку предсказания состояния), а не просто максимизировать вероятность токена. Если для вас это “лень на Эльбрусе” — боюсь, мы обсуждаем ИИ на разных философских языках)

самоуверенно подтягивать под факты ваши личные впечатления)

из вашего комментария я поняла, что для вас единственно возможная архитектура ИИ — это параллельное перемножение матриц на 100+ миллиардов параметров.

Отвечаю на ваш вопрос: нет, мы не отказались от сложения и умножения. Мы отказались от пространственной гиперболизации. В трансформере для генерации одного слова вам нужно прогнать вектор через десятки слоев внимания с миллиардами весов, что требует колоссальной пропускной способности памяти (VRAM) и тысяч CUDA-ядер (чипы Nvidia H100).

Мы не предсказываем токены через гигантские матрицы вероятностей. Мы решаем кинетические уравнения состояний (аналоги концентрации нейромедиаторов) для ограниченного числа виртуальных “органов”. Да, это сложения и умножения. Но их объем на порядки меньше, потому что мы моделируем логику системы, а не пытаемся статистически сжать в веса весь интернет. Именно поэтому для поддержания “жизни” агента нам не нужны кластеры H100 с их 80GB VRAM на карту — нам хватает мощного CPU/GPU локального Mac Mini. Умение отличать статистическую брутфорс-архитектуру от компактных биомиметических моделей - на мой взгляд базовая инженерная грамотность

ну это ваша точка зрения, я так понимаю, на абсолютную истину претендуете? мы нет. мы строим альтернативу трансформерам, которая позволит а) заменять их в задачах, где нужно обеспечить гарантии отсутствия глюков/конфабов/забывания б) управлять трансформерами как инструментами, заменяя операторов. Оба сценария не отменяют трансформер, а только показывают, что он - не предел. И пожалуйста, решайте что хотите “обычным кодом без бреда”, мы тоже обычный питоновский код) только собранный по-своему.

шикарные альтернативы, большой трансформер и маленький трансформер) в чем тут или - или? в нашей модели ответ генерируется не по вероятности и без голов внимания контекста, это в принципе альтернативный подход. А так, будущие бенчи впереди, буду держать в курсе)

  1. у меня в профиле об этом больше - https://habr.com/ru/articles/972906/ https://habr.com/ru/articles/1017336/ https://habr.com/ru/articles/1012998/ (косяки, которые в рамках трансформерной архитектуры не разрешить)

  2. время покажет, мы в начале пути, и мы верим в прогресс наших инженеров и по хардверу тоже

  3. смотрите пункт 1

насчет мозга, предсказанием - но не только

мерить когнитивную архитектуру бенчами для трансформеров, ну такое) как свои сделаем - поделюсь. следите за обновлениями)

да пожалуйста, надеюсь, мы вам никак не мешаем)

кринжатина, это когда в 2026 году кто-то продолжает защищать архитектуру 2017 года, выдавая её за венец творения)

  1. Про “не слепое предсказание”: LLM математически делает только одно, максимизирует вероятность P(w_t | w_{1:t-1}). Вся “сложность” трансформера просто гигантские матрицы внимания, которые ищут статистические корреляции в контексте. У них нет внутреннего гомеостаза, нет “усталости” или “стресса”, которые влияли бы на генерацию вне зависимости от промпта.

  2. Про “американские инструменты”: Мы уже ответили выше: есть разница между инструментом (Python, Mac) и движком/парадигмой (Transformer). Python это язык математики, он открыт. Трансформеры и RLHF — это архитектурная парадигма, которая диктует, как ИИ будет мыслить. Мы отказались от чужой парадигмы, а не от микроскопов. То, что вы можете обучить 2B модель на процессоре прекрасно. Но эта 2B модель всё равно останется статистическим попугаем без внутреннего состояния.

  3. Про “информацию из ниоткуда” и ChatGPT: А кто сказал, что мы делаем “свой ChatGPT”? В статье ясно написано: мы строим когнитивную архитектуру. Обучать ее тоже входит в этот процесс, и RLHF мы использовать не планируем. Чтобы ИИ знал столицу Зимбабве или код на C++, ему действительно нужна база данных, их несколько и они подключатся по мере необходимости. Но чтобы у ИИ сформировалась личность, характер, реакции на стресс и манера общения, ему нужен не терабайт Википедии, а механизм накопления опыта, и мы его создали. Живой человек не читает весь интернет, чтобы стать личностью. Он живет. Наша модель учится жить, а знания подтягивает как энциклопедию. Не путайте эрудицию с когнитивным ядром.

ну да, сейчас на бересте гусиным пером пойдем писать) сарказм понятен, но бьет мимо цели. Проблема трансформеров не в том, что они “супостатские”, а в том, что они:

аппаратно ставят вас в зависимость от H100 (которые вам могут перекрыть в любой момент),

концептуально загоняют в тупик предсказания токенов. Python — это open-source, его невозможно забрать санкциями. Mac Mini — это демонстрация того, что наша архитектура способна жить локально, не требуя миллионных затрат на закупку серверов в обход санкций. Железо я уверена, подтянем со временем с нашими инженерами

немногое можем себе позволить, пока ждем документов от Роспатента. Что касается конкретики нашего стека: математический аппарат (кинетические модели вместо attention) и код (чистый Python/SciPy, локальный деплой без H100) сейчас проходят этап регистрации в Роспатенте. Как только охранные документы на архитектуру будут у нас на руках — мы опубликуем подробный разбор соматической матрицы. Раздавать фундаментальную разработку конкурентам до патентования мы не планируем

и вот сюда еще) не “Вторая — седиментация — подсмотрена в одной статье на Хабре про управление знаниями (здесь должна быть ссылка на мою работу). Метафора точная: знания как геологические слои. Свежее лежит сверху, важное со временем оседает глубже, а мусор разрушается.”

Не хотели делать мне прямую рекламу?) https://habr.com/ru/news/1024994/

приятно за признание нижегородских девов)) а по существу - в похожую сторону сейчас думают Антропики, на мой взгляд, но конечно очень осторожно и без резких движений

не только зачем, но и как он влияет)

для меня содержимое оказалось фактически бесполезно

Наша да) за остальных не отвечаем

мы раньше доберемся, предложив технологический суверенитет)

Информация

В рейтинге
1 204-я
Откуда
Нижний Новгород, Нижегородская обл., Россия
Зарегистрирована
Активность

Специализация

ML разработчик, ai dev
Средний
Английский язык
Алгоритмы и структуры данных
Python
Redis
FastAPI
PostgreSQL
Kubernetes
REST
Docker