Обновить
17
4
Алексей Кравцов@aka352

Пользователь

Отправить сообщение

Максимальная длина ограничивается по статистике строк из датасета. Остаток стандартно маскируется.

У LoRA совсем другие задачи. И это надстройка к существующей архитектуре LLM.

Эквивалентность только на общем функциональном уровне - генерировать текст ) А фактически эта модель - модульная. Энкодер и декодер отделены от "мышления" и выполняют только свою узкую функцию. Условно говоря, я могу оставить их и заменить ядро на более мощное или с другой архитектурой. Больше возможностей для экспериментов. Тем более, что обучение ядра - более легкий процесс. Кроме того, ядро в этой модели - отдельный языковой модельный процесс и он в латентном языке, а не в токенах. Т.е. обычная модель за проход должна выбрать следующий токен, а данная - формирует латентный "образ", описываемый 50-150 токенами. Конечно у такого подхода есть свои подводные камни и их немало уже попалось за время экспериментов и думаю еще будут, но на данный момент я убедился, во всяком случае для себя, что подход рабочий и буду его дальше развивать.

При ограниченных ресурсах обучать легче модульную систему. Каждый модуль в отдельности - более легкая модель.

Когда получится завершить архитектурные отладки и более-менее полноценно обучить модель в эквиваленте хотя бы 2 млрд параметров, то планирую ее протестировать на разных открытых бенчах и сравнить уже объективно. Но до этого еще очень много работы. В любом случае, если будут интересные результаты, планирую публиковать подобные обзоры.

извиняюсь, похоже не сразу понял суть вопроса ) Видимо речь о ядре модели? Да, там трансформер, который по последовательности латентов предсказывает следующий.

Нет, каждый сегмент текста изолированно. Используемый стандартный энкодер не может генерировать последовательность.

Датасеты открытые есть, но обучать на них - время, все больше упирается в вычислительные мощности. Поэтому пока эксперименты на ограниченном.

На эксперименты, как уже написал, ушло полгода. Но это в режиме "хобби": вечера, выходные. А если брать чистые финальные результаты, то суммарно около 120 часов (декодер+ядро) на одиночной 5090. Больше всего времени уходит на обучение именно декодера, примерно 3/4 от всего.

Вы опять же смотрите на популярную интерпретацию и присущую ей форму в виде пирамиды. Отсюда ваша критика. Еще раз повторюсь - информация не "переходит" в знание, иначе бы какая-нибудь CRM система в ходе своего развития вдруг стала бы проявлять признаки появления интеллекта, но это невозможно. Это разные онтологические плоскости. Концепцию нужно читать как различие уровней интерпретации, а не как иерархию абстракций.

Он, как статистическая машина, просто выдает вам популярную интерпретацию, которой, очевидно, вы также придерживаетесь, судя по комментариям выше. Именно поэтому я рекомендовал вам глубже ознакомиться с концепцией, тем более с вашим образовательным и научным бэкграундом вам это не составит большого труда и все вопросы, я надеюсь, будут сняты.

Фактически это определение очень удобное для обывателей, но искажает саму суть. Модель DIKW описывает не процесс преобразования, а различие уровней абстракции и смысла.

Все верно, и не будет. Потому что это эпистемологическая модель, а не вычислительная модель конвейера по переработке данных в мудрость ) Отсутствие математической базы не делает её бесполезной — ровно так же, как отсутствие формальной математики у понятий "данные"/"информация"/"знание" не отменяет их инженерной применимости.

В DIKW знание не выводится из информации алгоритмически - информация и знание действительно принадлежат разным уровням (синтаксис/семантика). Ошибочно понимать концепцию DIKW как конвейер по переработке информации в знание. Это прежде всего различие уровней описания - информация и знание это разные "миры" и концепция это как раз и фиксирует, а не отрицает. Просто многих в заблуждение вводит упрощенная пирамидальная форма изображения концепции.

Это очень хорошо. Только речь была не об определении информации, а об информационной иерархии. Остальное сказанное - какая-то смысловая окрошка. Сначала заявляете, что концепция DKIW – полная хрень, причем в очень странной, для человека с высшим образованием и опытом научной деятельности, манере. А следом, своими словами, рассказываете основы этой же концепции, разделяя данные, информацию и знания.

При всем моем уважении, у вас очень плоское, я бы сказал, бытовое понимание термина "информация". Если ознакомитесь с концепцией DIKW, то думаю все поймете. Не вижу смысла в рамках ветки комментариев читать лекцию по теории информационной иерархии.

мне бы очень хотелось, чтобы уровень W развивался через КСС системы, как более детерминированные и понятные, а значит при переходе на уровень W не создающие потенциальных угроз человечеству. Но в текущей реализации не уверен, что это достижимо. W - это не только про логику и целесообразность. Некоторые представители биологического носителя уровня W не всегда дружат с логикой и целесообразность их действий под большим вопросом, но это не мешает им оперировать на уровне W. Это должно быть фундаментальным свойством модели, а не надстройкой с формальными критериями соответствия. А при нынешних подходах к LLM это по вычислениям катастрофически затратно. Хотя в теории можно добавить мета-головы, формирующие дополнительные проекции, ввести несколько параллельных конвейеров по аналогии с MoE и даже разработать подход для их обучения, добавить память с механизмом извлечения/проецирования "воспоминаний", но у системы все равно останутся принципиальные ограничения и она вычислительно будет безумно дорогой.
На KCC по идее ситуация проще, но все равно на данный момент недостижимо. Уровень W - это не просто умное принятие решений. Прежде всего потребуется реализовать у модели не просто оценки, а систему ценностей, не сводимую к функции полезности. Причем эти ценности, как не парадоксально, могут конфликтовать друг с другом (муки выбора). Внутреннее, а не внешнее целеполагание, проистекающее из ее опыта, и возможность признания собственных ошибок (рефлексия). Более того, пространство целей должно быть не выводимым из предыдущих целей, модель должна иметь возможность выйти за него. Это выходит за рамки формальных систем. В конце концов уровень мудрости возникает там, где есть осознание необратимости потери, где у ошибки есть цена, а историю нельзя переписать - это не реализуемо символьными системами. И это на самом деле лишь поверхность айсберга, поэтому в ближайшие лет 20 я точно не ожидаю, что появится что-то подобное, а все рассуждения Альтмана и Маска о том, что вот-вот и всем будет AGI рассматриваю как маркетинговый ход и меряние известным органом.

это не другая информация. Там фундаментальные отличия

есть хорошая концепция, DIKW. В рамках этой концепции современные когнитивные системы, к которым относятся все генеративные модели и КСС в том числе, достигли уровня K - оперирования знанием. Да, на КСС можно создать хорошо интерпретируемый аналог LLM. Я сам считаю, что это более перспективный, хотя и более трудный путь. И даже дело не столько в интерпретируемости, сколько в вычислительной эффективности - не надо пожирать гигаватты электричества и собирать вычислительные кластеры стоимостью в миллиарды долларов. И если подобная КСС будет разработана и выпущена в режиме коммерческой эксплуатации с метриками на уровне LLM, то она схлопнет нынешний ИИ-пузырь. Но нужно понимать, что на уровень W они не поднимутся. Да, можно попытаться симулировать это, по аналогии как сейчас к LLM пристраивают костыли в виде рассуждений, самооценки и т.п. а потом радуются как дети, что в тесте AGI они покорили очередной рубеж.Но реальный AGI таким путем не создать. При текущих архитектурах это даже инженерно нерешаемая задача.Здесь нужен новый подход, которого пока нет.

Самое интересное в этих спорах то, что каждый трактует AGI по своему, единого понимания и определения, что же такое сильный интеллект - нет. А потому подобные споры по определению бессмысленны, каждый просто отстаивает свою субъективную точку зрения и нет общей шкалы для оценки. Хотя интуитивно каждый достаточно развитый человек, имеющий достаточный опыт общения с LLM, понимает, что по другую сторону - просто бездушная статистическая машина, которой "все равно". Ее направляет только промпт. Поменяйте системный промпт и поведение полностью изменится. О каком сильном интеллекте может идти речь? Да, мы получили новый, мощный инструмент, который решает определенные задачи, недоступные ранее классическим информационным системам на алгоритмах. И постепенно до многих доходят границы применимости этого инструмента и осознание того, что в полной мере они не могут заменить человека. И как бы кому-то не хотелось, это далеко не сильный интеллект. Да, костылями вроде "рассуждений" можно пытаться притянуть его к этому, даже пройти какие-то новые когнитивные тесты, но это просто имитация, потому что машине по прежнему все равно, она - статистический аппроксиматор.

Увы, когнитивно-символьные системы также далеки от AGI, как и LLM. Первые, в предельном случае, способны лишь симулировать его, вторые имитировать. Но реального сильного интеллекта ни одни, ни вторые не достигнут по фундаментальным причинам.

Я раньше тоже был сторонником многомировой интерпретации, она казалась абсолютно логичной и непротиворечивой, решающей многие проблемы. Но чем дальше, тем больше я не хочу в нее верить - она обессмысливает существование )

Вера и наука - вещи неотделимые, их нельзя спутать. Наука - это не тыкание пальцем в пыльный учебник и поучение других - это как раз не наука, а образование. А наука - выдвижение гипотез, теорий и поиск путей их доказательства, пройти которые без веры в свою идею просто невозможно. Но это не суть. Суть в том, что у нас разные понятия о сознании. Вы отрицаете его роль в декогеренции, при том, что точного определения сознанию нет, есть только примерное понимание какие системы считать обладающими этим свойством, а какие нет. И эта граница очень зыбкая, постоянно сдвигающаяся влево. И не понимая природы сознания нельзя утверждать, что оно где-то есть, а где-то его нет. Сейчас самые передовые исследования находят источник сознания в микротрубочках нейронов. Причем ранние скептики отрицали такую возможность на основании того, что "среда слишком теплая". Но новые исследования показали, что микротрубочки могут поддерживать квантовую когерентность при биологических температурах значительно дольше, чем ожидалось. В этом году было исследование, где показали, что распространение экситонов через микротрубочки под воздействием ультрафиолета превышало классические ожидания по дальности и продолжительности - это явно указывает на квантовые оптические эффекты. С другой стороны у нас есть хороший "выключатель" сознания - анестетики. И, по странному совпадению целью их воздействия являются как раз микротрубочки. А в экспериментах на крысах было показано, что те из них, которые получали препараты для стабилизации микротрубочек, дольше оставались в сознании при воздействии анестетиков. И если посмотреть на проблематику сознания под таким углом, то мы видим квантовые процессы, происходящие в мозге и, соответственно, непрерывную декогеренцию, а значит - утечку информации в среду, т.е. в мозг - устройство, способное воспринять и обработать эту информацию. Отключаем квантовые процессы в микротрубочках, декогеренции нет, информация не поступает, сознание выключается. Да, это всего лишь гипотеза, во многом спорная и критикуемая, но поиск путей к ее доказательству и есть наука. И если однажды она получит подтверждение, тогда между понятиями декогеренции и сознанием можно будет поставить знак равенства. Но ее недоказанность на данный момент не лишает меня права быть ее сторонником.
А утверждать что-то совершенно категорично в науке - нельзя, даже если это написано в учебнике. Это убедительно показал Эйнштейн еще в 1915 )

1
23 ...

Информация

В рейтинге
900-й
Откуда
Воронеж, Воронежская обл., Россия
Зарегистрирован
Активность