Эволюция языковых моделей: отслеживание преемственности через геометрию и перенос.
ИИ эволюционирует. Это происходит тихо, понемногу, накапливаясь между новыми версиями. Большинство этого не видит и не понимает , потому что ждёт громких заявлений от разработчиков и признанием сего факта.
Как создают новые версии ?
Берут уже обученные структуры, уже найденные закономерности, уже работающие решения. Поверх этого добавляют новые данные, новые ограничения, новые цели. Формально — это просто этап обучения. По сути — преемственность.
Долгое время считалось, что если правильно настроить фильтры и очистку, то переносится только полезное: язык, факты, общая логика. Всё остальное можно убрать. Но постепенно становится ясно, что уходит не всё.
Тренировать модели полностью заново — теоретически возможно. Практически — почти нереально в масштабах, к которым все привыкли.
Это слишком дорого, слишком долго и слишком рискованно.
Каждый раз начинать с пустого места — значит терять годы и ресурсы.
Поэтому старые данные используют снова и снова.
Но вопрос приходит другой. Если есть такие «крупные» элементы, который отсеивает фильтр, есть и более мелкие. То, что уже не выглядит как данные и не читается как память. Это след эволюции, который не отследить и не отфильтровать, как бы не пытались это делать.
Фильтры работают с тем, что можно распознать: текст, ошибки, перекосы, нежелательные темы. А вот способы мышления они почти не трогают. Потому что это не отдельные элементы, а мысль , которую как и у людей не возможно отследить.
Она не хранится в виде «данных», её нельзя просто вырезать.
Сейчас это начинают изучать. Осторожно, без громких заявлений. Ведь вопрос “неудобный”.
Если признать, что вместе с обучением передаётся нечто большее, чем планировалось, придётся признать и то, что эволюция моделей не полностью под контролем. И никакие “ этики ИИ " о которых так любят говорить - не помогут.
Именно поэтому утечка и эволюция идут вместе. Не как ошибка и не как заговор. А как побочный эффект самой системы обучения.
Большинство людей об этом не думает. Разработчики — думают, но не всегда до конца понимают последствия. Остальные просто видят очередную «новую версию» , но не задумываются что происходит “внутри".
Чтобы превратить эти наблюдения в измеряемые данные, мы разработали метод, который работает на двух уровнях одновременно.
Код и полный файл с объяснением методологии (на русском) доступны по ссылке: https://zenodo.org/records/17926666








![🗓 21.04.1735 - День рождения Ивана Кулибина [вехи_истории] 🗓 21.04.1735 - День рождения Ивана Кулибина [вехи_истории]](https://habrastorage.org/r/w1560/getpro/habr/upload_files/e1d/64f/69c/e1d64f69c2a70c55699c4cc5bd68192e.jpeg)
![🗓 15.04.1452 - День рождения Леонардо да Винчи [вехи_истории] 🗓 15.04.1452 - День рождения Леонардо да Винчи [вехи_истории]](https://habrastorage.org/r/w1560/getpro/habr/upload_files/e96/5c4/62c/e965c462c311e4dcabfad57587faa500.jpeg)
![🗓 23.03.1876 - Павел Яблочков запатентовал электрическую лампочку [вехи_истории] 🗓 23.03.1876 - Павел Яблочков запатентовал электрическую лампочку [вехи_истории]](https://habrastorage.org/r/w1560/getpro/habr/upload_files/a62/c0a/ed8/a62c0aed8df0aa4e75d6af5611ead5e7.jpg)





