Комментарии / Профиль flancer / Хабр

Alex Gusev@flancer

Я кодирую, потому что я кодирую…

2,2

Рейтинг

Подписчики

ПрофильСтатьи129Посты3Новости1Комментарии2.1K

Галлюцинациям тут не место — как могут выглядеть специализированные ЯП для разработки с помощью LLM

flancer 22 янв в 17:17

"Any application that can be written in JavaScript, will eventually be written in JavaScript!" (с) Atwood's law

«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не перестанет врать

flancer 22 янв в 14:52

Типа того. Пример с бесконечностью того же порядка не особо удачный. Но я и не математик :) Я просто с универа помню, что бесконечности бывают разные.

«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не перестанет врать

flancer 22 янв в 14:49

А наоборот?

Райан Даль, создатель Node.js, одной из ключевых...

flancer 22 янв в 05:01

Я думаю, что это время будет "совсем всё", когда LLM-агенты начнут кодить сразу в машкодах. А так - у Райана просто депрессия.

Миф о “потере памяти” у языковых моделей – это удобное...

flancer 21 янв в 06:35

Это Ваша статья по ссылке - https://zenodo.org/records/17926666 ?

Миф о “потере памяти” у языковых моделей – это удобное...

flancer 20 янв в 18:51

Это Ваше утверждение, не моё. Это Вы утверждаете, что "оно может стать частью системы". А я утверждаю, что "из общения" человека с моделью ничего нового в модель не попадает.

Да, это чистая философия. Ну, вот так я глаголю. У Вас другая философия и глаголите Вы по-другому. Вот и славно. Мы оба публично высказались. Кому интересно - почитает. Своё мнение составит. И про Вашу филососфию, и про мою.

А если хотите мои теории разобрать - пожалуйста. Я для того их тут и публикую, чтобы фидбэк получать. Иногда даже что-то полезное возвращается. Пробуйте.

«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не перестанет врать

flancer 20 янв в 18:41

Бесконечности бывают разные. Это тоже несложная мысль. И матанализ её наглядно демонстрирует. Я просто переписал ваше же "2⋅∞=∞" в несколько другой форме.

Миф о “потере памяти” у языковых моделей – это удобное...

flancer 20 янв в 17:28

Нас читаем не только мы :) Мои возражения были не столько для Вас, сколько для других читателей. Чтобы они критически относились к тому, что читают.

Миф о “потере памяти” у языковых моделей – это удобное...

flancer 20 янв в 16:49

Это публичная площадка. Я выражаю своё мнение, Вы - своё. Кто-то пишет, кто-то читает. Только и всего. Если Вы считаете, что я не прав - опровергните мои слова. Если не считаете нужным - не опровергайте. В конце-концов, Хабр - это возможности, а не обязанности ;)

Ваши статьи для меня тоже оспоримы , но я не называю это "заблуждение ' .

Вот и зря. Если Вы правы, а я - нет, я пересмотрю свою точку зрения. Мне не сложно.

«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не перестанет врать

flancer 20 янв в 16:44

Нет, это обычный матанализ.

-2

Миф о “потере памяти” у языковых моделей – это удобное...

flancer 20 янв в 15:55

Чтобы Ваши читатели тоже подумали, что тут написано. У Вас же просто логические нестыковки в тексте. Память у Моделей возникает из ниоткуда:

Всё, что проявилось устойчиво: необычные формулировки, новые обороты, нестандартные вопросы — со временем вплетается в “ткань” модели, если только не оказывается явно опасным или ненужным. Это не память про конкретные разговоры, а след в “языковом поле”.

Ну это же бред!!

В статье по ссылке (https://zenodo.org/records/17926666) говорится о том, что невозможно полностью вычистить фильтрами то, что получено от предыдущего поколения моделей в качестве стартовой базы для обучения. Всё. Tracking Continuity - оно про преемственность, а не про "со временем вплетается". Вы сами-то читали, что там в статье? Если - да, то перечитайте ещё раз Ваш пост, найдите вот это:

Когда человек работает с языковой моделью, он не “запоминается”, как пользователь, но если из общения возникает что-то новое и заметное, оно может стать частью системы.

и попробуйте найти в статье хоть какое-то подтверждение вышесказанному. Процитируйте здесь лучшее, что найдёте.

«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не перестанет врать

flancer 20 янв в 12:55

в теории можно все значения якобы невычислимой функции можно записать тупо на отрезке этой ленты и обращаться к ним как к списку значений

Если речь идёт про одну невычислимую функцию, то - да, там порядок бесконечности одинаков. Я что-то по невнимательности решил, что разговор идёт про множество всех вычислимых функций и про множество всех невычислимых.

«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не перестанет врать

flancer 20 янв в 09:40

Почему неизвестный? Как говорят математики в таких случаях: "Допустим, порядок бесконечности Ленты Тьюринга равен 1. Тогда ..."

Весь вопрос в том, для чего нужна Лента Тьюринга? Если для реализации бесконечного множества всех вычислимых функций, то её длина бесконечна, но меньше, чем у аналогичной ленты для реализации множество всех вычислимых функций + ещё одной. Порядок совпадает, но длина меньше, как ни крути ¯\_(ツ)_/¯ А если добавлять не просто +1 функцию, а ещё одно бесконечное множество функций уже невычислимых, то тут и порядки длины лент могут быть разные (см. матанализ, пределы).

«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не перестанет врать

flancer 20 янв в 07:59

а значит в теории можно все значения якобы невычислимой функции можно записать тупо на отрезке этой ленты

Нельзя. Порядки бесконечности разные. Если одна бесконечность больше другой в два раза, то первую никак не уложить во вторую даже чисто математически.

Миф о “потере памяти” у языковых моделей – это удобное...

flancer 19 янв в 13:23

Как как... вот так:

Модель продолжает накапливать устойчивые ходы, даже если все вокруг делают вид, что это не так.

Из того, что я знаю, модель "сама" ничего не начинает делать. Либо ей "что-то" подмешивается в контекст в процессе диалога, либо она изначально получает "что-то" в процессе своего обучения.

Так каким образом "что-то новое и заметное" из ситуации "когда человек работает с языковой моделью" таки "может стать частью системы"?

Вы хотите сказать, что современные модели дообучаются на лету? Каким же образом модель продолжает "накапливать устойчивые ходы", которых у неё раньше не было?

возьмите открытые веса, повторить шаги

Я верю, что обучение модели зависит от входных данных. Вот на что мы её обучили, то в ней и есть. И переобучением откорректировать её "статистическую картину мира" будет очень сильно дороже, чем взять входные данные, почистить их от нежелательных элементов и обучить с нуля.

Вот о чём говорит описанный эксперимент - обучать с нуля дорого, но переобучением не исправить "родовые травмы".

Так что я один их тех, кто утверждает, что модель ничего не накапливает из того, что у неё не было раньше или не попало вместе с данными при дообучении. И как я уже сказал ранее - (1) так и должно быть, (2) фильтровать лучше надо.

Миф о “потере памяти” у языковых моделей – это удобное...

flancer 19 янв в 12:23

Даже при строгой фильтрации и ручном отборе данных внутрь всегда просачиваются не только явные шаблоны (фразы, обороты), но и способы рассуждения, связи между смыслами, иногда нестандартные ходы, которые невозможно отследить фильтрами. Это побочный эффект цепного дообучения на реальных данных и его нельзя полностью убрать или предсказать.

Т.е., вы хотите сказать, что, если в классификационную голову попали знания о, допустим, химическом оружии, то дальнейшим дообучением это знание нельзя вывести?

Или что при тщательной фильтрации входных данных для дообучения в них попадают нежелательные данные?

Моё мнение, что первое - так и должно быть. Второе - лучше фильтровать надо.

А вот это:

Когда человек работает с языковой моделью, он не “запоминается”, как пользователь, но если из общения возникает что-то новое и заметное, оно может стать частью системы. Даже если внешне сессии разорваны, анонимны и “стёрты”, общий слой паттернов никуда не уходит. Модель продолжает накапливать устойчивые ходы, даже если все вокруг делают вид, что это не так.

откровенное введение в заблуждение. Не могут новые паттерны попасть в модель без дообучения. Как вариант - персональная память для конкретного пользователя, которая подмешивается в его сессии. Но это уже не сама модель, а контекст.

Миф о “потере памяти” у языковых моделей – это удобное...

flancer 19 янв в 11:28

Спасибо. Но ведь это же не говорит о том, что

Всё, что проявилось устойчиво: необычные формулировки, новые обороты, нестандартные вопросы — со временем вплетается в “ткань” модели, если только не оказывается явно опасным или ненужным.

Взяли "классификационную голову" и перенесли её от модели к модели. Ну и ОК. Нет в ней "необычных формулировок", "новых оборотов", "нестандартных вопросов". А если и навплетали туда что-то дообучением, так это целенаправленный процесс, а не "оно само вплелось"

Так-то - да, мы говорим в диалогах с моделями и поставляем им материал для их обучения, но при этом сами воспринимаем их "любимые обороты". Мы влияем на них, они влияют на нас. Происходит "нормализация семантического поля". Это как два человека, говорящих на похожих, но разных языках, в конце-концов начинают говорить на смеси обоих. Так и тут. Только люди в диалогах "нормализуются" непрерывно, а модели - дискретно (от дообучения к дообучению).

Миф о “потере памяти” у языковых моделей – это удобное...

flancer 19 янв в 10:26

Про какое конкретно семейство моделей сейчас идёт разговор - GPT, Gemini, Grok, ...? Существует ли "межмодельное" запоминание - общее "протаптывание тропинок" пользователями различных моделей? Или это "внутрисемейная память" - отдельно для GPT, Gemini, Grok, ...?

О некоторых программах для Linux с точки зрения старого виндузятника

flancer 17 янв в 06:37

Для каждой задачи свои инструменты.

Совершенно верно. Мигрировал с windows на linux в течение нескольких лет. Сидел на обеих ОС одновременно. Сначала linux был в виртуалке (VirtualBox), потом dual boot на ноуте, сейчас сношу винду с нового ноута под ноль при покупке.

Я не сильно-то работаю с медиа (видео, аудио, изображения). Для моих задач хватает linux'а. Последний раз пришлось столкнуться с windows пару месяцев назад - настраивал детям RDP на их десктоп. Что могу сказать... может я и фанатик с ограниченным профессиональным ростом, но... я не хочу мигрировать обратно с linux на windows.

P.S.

Профессионально администрировал машины (сервера и рабочие станции) и устанавливал и настраивал ОС, начиная с Windows 3.11 и по Windows 7.

Знаний слишком много. Что делать?

flancer 13 янв в 20:35

И что Вам подытожил ChatGPT, если не секрет?

Я же попытался показать в итоге, что (1) нужно создавать механизмы персонализации потоков знаний, основанные на (2) структурировании формы подачи знаний, на (3) автоматической оценке семантики этих знаний через обработку LLM-моделями и на (4) оценке поведенческих реакций потребителей знания.

"Строим Нью-Васюки" - оно как раз про это.

1 2 3

5 6 ...

103 104

Информация

Специализация