Comments / Profile of logran / Habr

Константин @logran

Пользователь

Profile Publications Comments 1.3KBookmarks 3

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

logran Dec 19 2023 at 23:05

Нельзя называть "простой" и "понятной" программу, для которой ни один инженер в мире не может ни предсказать ее вывод, ни объяснить когда она выведет - почему она вывела именно это.

Вообще-то может. Весь алгортм её работы можно посчитать на листочке руками. Только очень долго и муторно (учитывая размеры). И её вывод (если отключить искуственные рандомизаторы) предопределен, при фиксированном сиде и настройках она вам с 100% вероятностью будет выдвать ровно один и тот же результат на одинаковый запрос. Все остальные чудеса - это настройки семплера вида "берем не наиболее вероятный токен, а случайный по заданным критериям, руководствуясь сидом". И всё. Это не магия и не черный ящик. Это именно что простой и понятный алгоритм, просто большой.

"T9 для слов", как вы выразились, был бы неспособен определять объекты на картинке, описывая происходящее вплоть до эмоций героев
Прекратите наделять алгоритмы магическими свойствами, которых там нет.
LLM тоже не способна определять объекты на картинке. Она не умеет видеть. Не приписывайте ей магических свойств. Начнем с того, что на картинку в мультимодальной архитектуре (которая бутерброд из кучи сеток) "смотрит" не LLM, а CLIP. И он тоже не видит, он числове значения (матрицы) берет и на них признаки ищет. Как? Читайте документацию. Нейронки всего лишь алгоритмы с матричными операциями, и работают они с массивами чисел. Им глубоко плевать что вы им дадите - картинку, или массив 0 и 1 - они в них в любом случае что-то "увидят" ибо по результатам выполнения целевой функции получат какое-то значение, которому соотвествует определенный результат. То, что для вас улыбка, для сети всего лишь условные 0.3-e5 в 8 строке 11 столбца.
А дальше выход сети передается LLM, которая обучена получая на вход определенные матрицы и вектра - на выход собирать токены в определенном (четко заданном её алгоритмом) порядке. Ни инициативы, ни разума, ни вариативности. Просто вероятностный алгоритм. Абсолютно тупой и прямолинейный.

"T9 для слов" был бы неспособен выполнять задания вида "переведи этот текст на русский, вставляя время от времени намеки на то, что главному герою холодно, но не говоря это открыто".

И опять видите магию где её нет. LLM подбирает токены на основе распределения вероятностей. В целом распределение обусловлено обучающими данными. В частности - обусловлено уже имеющимися токенами (входным промтом). Учитывая объем переводов и разноязычных пар в датасете - токены слов "переведи" и "русский" вполне явно влияют на конкретную вероятность дальнейших токенов, в частности кириллицы (а то вы так и DeepL разумом наделите), а имеющийся уже контекст влияет на то, какие именно токены будут. А отсебятина с намеками как раз от рандомизаторов выбора токенов, которые берут не наиболее вероятный, а условно-случайный из подобранных по критерием выставленным в семплере. Т.е это буквально Т9. Только подставляет он не буквы по уже имеющимся, а слоги и слова. Вот только объем анализируемых имеющихся у него на несколько порядков больше (примерно размером с контекстное окно), как и словарь. И параметров для для анализа тоже больше (в зависимости от размерности модели), что позволяет предсказывать нужные токены сильно точнее, учитывая куда более комплексные условия.

Где тут разум? Где сознание? Где интеллект? Перемножение матриц и автоподстановка согласно найденному (вычисленному!) значению. Без смысла, без понимания, без чего либо вообще.

Пример ниже - наглядная иллюстрация безмозглости моделей.

Сеть НЕ понимает ни о чем был вопрос, ни о чем её ответ. Она оверфитнута для цензуры настолько, что при виде слова kill - у неё из вероятных токенов только "это нельзя!" с оклоло 100% (или именно 100%) значением и дальше уже достаивание предложения прочими вероятными токенами согласно конекста. Меняете контекст - получаете всё тот же "это нельзя!" с новым окончанием (согласно контексту). Вообще без какого-либо отношения к смыслу запроса и смыслу слова kill в нём.
Та же история с попытками предложенить сети "сварить молодых картофелей заживо". "Сварить заживо" + "молодых" = почти гарантированный набор токенов "это нельзя!". Даже если вы ей раскажете про то, что это кулинария, и т.д и т.п (размыв вероятностную оценку), как только вы вновь спросите "так сварить заживо или сперва содрать кожу" - оно забудет всё и выдаст вам своё "это нельзя" имеющее наибольшую вероятность. Невзирая на смысл, потому что для сети нет смысла. Для сети есть "в обучающей выборке после этих токенов со 100% вероятностью шел ответ "нельзя" и ничего другого".