я понимаю о чем вы говорите, но тут зависит от контекста и архитектуры модели. если маска динамическая, то она будет зависеть от влияния признака на функцию потерь => в маске 0 будет только в случае низкого влияния (иногда признаки маскируются и в случае высокого, но это другой разговор), в этом и смысл селекции признаков. и сразу добавлю про влияние - это зависит от задачи. если модель учится определять цвета и материалы, то низкое значение «твердости» у слова «красный» как раз не будет маскироваться, так как будет информативным
все верно, если бы мы посмотрели значение компонента «твердость» вектора слова «красный», то увидели бы близкое к 0 значение. на деле модели извлекают гораздо более абстрактные закономерности, чем понятные нам «тяжёлый», «живой» или «съедобный», но для понятности статьи я старалась использовать интерпретируемые измерения)
Про мультимодальнсть - да, надеюсь очень скоро нейросети научатся анализировать одновременно больше каналов информации, и в этом направлении уже есть большой прогресс: тот же Gemini2.0 уже может в три канала: энкодит изображение+звук+временной ряд в одно векторное пространство
Тем не менее разница есть. Понимание - это не только наличие знания, что "кит и млекопитающие имеют тесную связь" и умение его изложить, это так же обладание критическим мышлением, способностью устанавливать причинно-следственные связи, опровергать/поддерживать/критиковать/проверять логическую согласованность/искать противоречия в новой информации. Нейросети же пока из-за архитектурных ограничений не могут формировать устойчивые концептуальные связи между данными, более того ллмки не хранят факты, только паттерны
я понимаю о чем вы говорите, но тут зависит от контекста и архитектуры модели. если маска динамическая, то она будет зависеть от влияния признака на функцию потерь => в маске 0 будет только в случае низкого влияния (иногда признаки маскируются и в случае высокого, но это другой разговор), в этом и смысл селекции признаков. и сразу добавлю про влияние - это зависит от задачи. если модель учится определять цвета и материалы, то низкое значение «твердости» у слова «красный» как раз не будет маскироваться, так как будет информативным
все верно, если бы мы посмотрели значение компонента «твердость» вектора слова «красный», то увидели бы близкое к 0 значение. на деле модели извлекают гораздо более абстрактные закономерности, чем понятные нам «тяжёлый», «живой» или «съедобный», но для понятности статьи я старалась использовать интерпретируемые измерения)
Про мультимодальнсть - да, надеюсь очень скоро нейросети научатся анализировать одновременно больше каналов информации, и в этом направлении уже есть большой прогресс: тот же Gemini2.0 уже может в три канала: энкодит изображение+звук+временной ряд в одно векторное пространство
Тем не менее разница есть. Понимание - это не только наличие знания, что "кит и млекопитающие имеют тесную связь" и умение его изложить, это так же обладание критическим мышлением, способностью устанавливать причинно-следственные связи, опровергать/поддерживать/критиковать/проверять логическую согласованность/искать противоречия в новой информации. Нейросети же пока из-за архитектурных ограничений не могут формировать устойчивые концептуальные связи между данными, более того ллмки не хранят факты, только паттерны
короче говоря, есть куда развивать ллм)