All streams
Search
Write a publication
Pull to refresh
10
0

ML-engineer

Send message

я понимаю о чем вы говорите, но тут зависит от контекста и архитектуры модели. если маска динамическая, то она будет зависеть от влияния признака на функцию потерь => в маске 0 будет только в случае низкого влияния (иногда признаки маскируются и в случае высокого, но это другой разговор), в этом и смысл селекции признаков. и сразу добавлю про влияние - это зависит от задачи. если модель учится определять цвета и материалы, то низкое значение «твердости» у слова «красный» как раз не будет маскироваться, так как будет информативным

все верно, если бы мы посмотрели значение компонента «твердость» вектора слова «красный», то увидели бы близкое к 0 значение. на деле модели извлекают гораздо более абстрактные закономерности, чем понятные нам «тяжёлый», «живой» или «съедобный», но для понятности статьи я старалась использовать интерпретируемые измерения)

Про мультимодальнсть - да, надеюсь очень скоро нейросети научатся анализировать одновременно больше каналов информации, и в этом направлении уже есть большой прогресс: тот же Gemini2.0 уже может в три канала: энкодит изображение+звук+временной ряд в одно векторное пространство

Тем не менее разница есть. Понимание - это не только наличие знания, что "кит и млекопитающие имеют тесную связь" и умение его изложить, это так же обладание критическим мышлением, способностью устанавливать причинно-следственные связи, опровергать/поддерживать/критиковать/проверять логическую согласованность/искать противоречия в новой информации. Нейросети же пока из-за архитектурных ограничений не могут формировать устойчивые концептуальные связи между данными, более того ллмки не хранят факты, только паттерны

короче говоря, есть куда развивать ллм)

Information

Rating
Does not participate
Registered
Activity

Specialization

Backend Developer, ML-engineer
Middle
Python
Pytorch
Deep Learning
LLM
Docker
Linux