Pull to refresh
12
0
Alexander Kaigorodov @AlexKay28

Инженер по глубокому обучению @ Яндекс

Send message

Философия нужна, как и все в этом мире, в меру.

Логика - раздел философии. Математика наука во многом построенная на абстракциях которые не проверить экспериментом. Поставьте эксперимент над временем или над пространством, скорее всего не получится, т.к это вещи созерцаемые.

Я считаю что не стоит относиться к философии как к чему то бесполезному. Это фундамент который лежит в основе многих наук, в том числе и естественных.

По сути своей работает как модель поиска на его последних уровнях. Это может быть обычная энкодер моделька по типу БЕРТа, с размером контекста в который влезает ожидаемый запрос, позволяющая получить эмбеддинг с которым мы ходим в индекс с целью найти наилучший подкрепляющий генерацию документ.

Подходов можно придумать много самых разных, но так как хочется развивать модели в направлении решения большего круга задачи, то приходится искать общие паттерны которые могут встретиться в наибольшем круге задач. Подстановка какого либо длинного текста в подводке\промпте звучит очень уместно для большого множества задачи.

Работу с длинным контекстом предполагают задачи QA, Reformulation, задачи ICL с few-shot примерами в подводке. Таким образом, если есть модель которая здорово работает с длинным контекстом, то мы сразу значительно лучше по метрикам чем модель которая не умеет в длинный контекст.

Идея с апишкой очень здравая и лично я конечное решение вижу тоже таким. Интересность в том что основная работа в этом и любом другом случае сконцентрирована вокруг попыток создать модель для работы с контекстом и в частности с длинным контекстом. По пути возникает много проблем связанных с робастностью моделей, максимально допустимым размером контекста и тем как эффективно модель его использует

Зачем антропоморфизация:

Это конечно очень интересная тема для обсуждения. Антропоморфизация, как мне кажется, достаточно удобный способ для пояснения происходящего и он никак не исключает математический способ интерпретации происходящего.

"...И вот на этом можно остановиться и не читать"
Возможно у Вас снова возникнет такое желание, но можно потерпеть ради того чтобы узнать что думают или как мыслят другие... продолжаем

Почему это имеет место быть в рассуждениях о том как работает ЛЛМ:

По терминам чуть-чуть:
МЫСЛЬ ж. всякое одиночное действие ума, разума, рассудка; представленье чего в уме; идея;

Генерируем (пишем) токены один за одним, т.е есть атомарность, дискретность, что кажется можно причислить к одиночному действию УМА*, РАЗУМА*, РАССУДКА*, представления чего-то в уме, это могут быть те заученные распределения вероятностей, высказывания идеи, чаще всего не собственной, но стохастично полученной.
Получается генерируем вероятное, узнаваемое, логичное, выводим по лекалам логично и с наибольшей вероятностью упорядоченные и связные высказывания извлекая их из памяти, из внутреннего представления, ума, делаем осмысленно и умышленно, формируем мысль одну за другой, выстраиваем поток мысли, мыслим.

УМ м. общее названье познавательной и заключительной способности человека, способность мыслить;
мне нравится: принимая ум в сем ограниченном, тесном смысле, можно сказать: умная лошадь, собака, но разумная, сказать нельзя.

ДУМАТЬ, думывать что или о чем, мыслить, размышлять, помышлять, доходить своим умом, судить, заключать про себя;

МЫСЛИТЬ, лю, лишь; несов. 1. Работой мысли, ума сопоставлять данные опыта и обобщать познанное. м. образами.

---

Думать, мыслить, узнавать, знать, обобщать познанное. Окееей, мы ведь довольно легально можем сказать что модели обладают обобщающей способностью по результату познанного в опыте, в процессе обучения, познания. Аналогично есть способы измерения знаний моделей, их способность к логическому выводу.

В отличии от человека, который за жизнь получает свой тип отклика от среды, мы можем попробовать утверждать что модель переживает отличный способ познания, скажем, через отклик в виде функции потерь.

Получается что мы определенным методом помещаем знания\опыт в модель на этапе предтрейна и что очень важно, благодаря тому как устроена ее архитектура, мы можем инициировать процесс получения знаний и комбинаций этих знаний в доступной нам форме, в форме доступного нам способа коммуникации - языка.

Процесс извлечения этих знаний мы можем пытаться улучшать (алайнмент) и контролировать (температура при семплинге, промпты, ICL, и тд тп...) аналогично тому как мы это делаем при общении с людьми.
Люди мыслят, модели имитируют мышление.

Одни и те же процессы, как минимум с одинаковым названием, можно осуществлять по разному:

  • Ездить на коне, имитировать поездку на коне при помощи машины?

  • Птицы, поршневые и реактивные самолеты немного по разному создают тягу благодаря которой они могут осуществлять процесс под названием полет, разве не так?

CoT, ToT это ведь отличные попытки имитировать процесс мышления... Разве мы, люди, не сходим образом мыслим?


И на подумать вот еще:

Георгий Петрович Щедровицкий (1929–1994) — советский и российский философ и методолог, общественный и культурный деятель.

Мышление по Г.П. Щедровицкому
Мышление. Принадлежит ли оно индивиду или оно принадлежит функциональному месту в человеческой организации и структуре? Я на этот вопрос отвечаю очень жестко: конечно, не индивиду, а функциональному месту! Утверждается простая вещь: есть некоторая культура, совокупность знаний, которые транслируются из поколения в поколение, а потом рождается - ортогонально ко всему этому - человек, и либо его соединят с этим самым духом, сделают дух доступным, либо не соединят. Мышление было положено как новая реальность в мир, реальность, отдельная от реальности материи и противостоящая ей. И было заявлено, что это особая субстанция, существующая в социокультурном пространстве. Тем самым был преодолен психологизм, или натурализм. Поскольку трактовка мышления как эманации человека и человеческого сознания есть, по моему глубокому убеждению, величайшее заблуждение европейской истории. И это то, что сегодня делает нас идиотами и мешает нашему развитию


На сколько я понимаю, получать эмбеддинги слов на двух выборках сразу — идея не самая честная. Необходимо проводить обработку только на обучающей выборке и валидироваться на незатронутой тестовой. Для слов которые не попадают в тренировочную выборку выставлять (out of vocabulary token). В противном случае наша модель тестируется на токенах которые она уже откуда то знает, а это не так, да и в дальнейшем полюбому понадобится…
Да, очень вероятно. Работать с мешком слов дороговато будет. Спасибо

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity