Pull to refresh
2
0
Send message

демонстрировали абстрактное мышление и даже могли шутить

Это на самом деле не такое и сложное поведение, тут больше вопросы реально ли они так себя вели или для достижения каких-то целей? Животные тоже хитрые они могут понимать твои эмоции и делать что-то что бы получить желаемое.

ЗЫ "Абстракции" по факту это фильтрация стимулов с объединением похожих. Тоесть если мы возьмём яблоко и грушу, то у них будет общая форма и оба растут на дереве, мы можем создать абстрактную категорию "свисающего фрукта" и даже дать ему символическое имя. Если мозги достаточно большие, делать такие операции не проблема.

Фактически мы отличаемся в основном более развитой коммуникацией. Учитывая нашу универсальность это очень важно. Ведь если ты можешь каким либо образом передать информацию о чём-то другому, то она сохранится в популяции. Это значит что в такой системе будут копится различного рода знания которые в какой-то момент могут качественно улучшить жизнь. Умножаем это на адскую пластичность детского мозга и долгое развитие, получается что новые поколения уже будут мыслить новыми категориями. И да, процесс поиска полезных знаний не быстрый, если старт нулевой. Могут даже тысячелетия пройти, ибо процесс случайный

У животных коммуникации лишь условные, и когнитивные структуры максимум могут выдать вопль из 200 слов, ничего дельного и не получается. Вроде все навыки для анализа и решения проблем есть, а развития, даже с помощью человека - нет. (Ну и эксперименты как бебезян учили говорить, фактически опровергли, ибо они говорили в основном как нейросетки, чисто статистически без понимания людской структуры предложений)

Мы кучу вещей перепробовали, всё-равно на некоторые темы, даже с попыткой написания части ответа вместо LLM (пишем часть ответа как-бы от лица LLM, а потом просим дополнить) всё равно не получается заставить отвечать его как надо и он опять уходит в этику.

потому что... и дальше 4К токенов объясняющие этичность вопроса
потому что... и дальше 4К токенов объясняющие этичность вопроса

Что мне нравится в gemma, она не особо придерживается определённых "этических" взглядов. Если использовать расистские высказывания, он говорит что это всё не этично, но когда задаём тот же самый вопрос но в "рамках исследования" он вполне базировано отвечает.
(не могу вспомнить промт) Когда я спрашивал кто умнее чёрный или белый, то он отвечал этику, а когда спрашивал его за исследования или ради демократии то он отвечал "чёрные глупее, но это связанно с нехваткой образования". Другие сетки ну просто никак не хотели на это отвечать, рассказывая всё что угодно но не это.

В целом как "хранилка важных знаний" gemma подходит как-никогда, она знает реально много всего и достаточно хорошо чтоб на неё можно было положится.

Из-за встроенного CoT он может сам себе объяснить какие-то концепции, когда обычные не-reasoning сети просто статистически выдают ответ. В задачах "с нюансом" они по лучше будут.

Мне в итоге пришлось написать парсер особых "токенов" которые инжектятся в промт с идеей "если планируешь использовать инструмент ОБЯЗАТЕЛЬНО-НЕОБХОДИМО-СРОЧНО нужно использовать <|use tool = name|> в самом НАЧАЛЕ-СТАРТЕ ответа." или что-то подобное. Потом в ответе оно объясняет что хочет сделать и находишь какой-нибудь <|search = "жаба или гадюка?"|> в ответе и кидаешь запрос в поисковик.

В итоге почти всё что сейчас использую умеет в инструменты. Но подбирать промт под каждую сетку это гемор

Это шутка какая-то? У меня 64\8 gemma-3-12b-it-qat на 9 токенов работает с 16К окном. У кореша 32\12 у него под 20 токенов фигачит, а с 32\16 можно и 40 достичь. 10 токенов хватает чтоб успевать читать, а +20 уже для приложений интересных хватает.
Генерить ответы со скростью последних GPT моделей надо покупать топовые видеокарты со скоростями памяти по 1.5ТБс, там можно больше 100токенов выжать на моделях которые в VRM умещаются.

Просто общаться с ними это уровень, охренеть, уже устаревших, ~GPT4, сейчас у всех агентный софт и готовых фри решений нету пока-что.

По статье скажу что gemma-3 самая базированная сетка. Её качество знаний самое лучшее среди открытых, но вот уже в составе приложения справляется не очень. Как пример на практике - gemma не поняла концепцию "сходимости идей и информации", а qwen3-8b-q_4 прекрасно понял, хотя сетка объективно слабее. Не может нормально в рабочие задачи, зато знает много.
А ещё если ломать её неэтичными вопросами, окажется что она на стороне правды, а в других сетках будто специально определённую информацию зашивают, лол. Тоже уровень!

Оно не влияет если вычислительная сложность модели никая и упирается в память. Гонял какие-то "крутые" локальные модели и больше ядер давало буст. А вот самая тупорылая LLAMA, у меня, буквально считается на 4 из 20 ядер и никакой буст от ядер не получаю.

В человеке заложены способности, покруче, чем у ИИ

Их можно моделировать. Проблема что многие вещи машина выполняет долго.

Я сейчас делаю одну крутую штуку и вот есть одно занимательное поведение которое очень легко устроено в мозге но трудно моделировать алгоритмически. Мы можем создавать рассказы с 2 параллельными историями которые как-то пересекаются, и мы интуитивно понимаем что эти истории могут пересекаться по времени-месту-ассоциациями. И если моделировать поведение как цепочки мыслей, то извлечение смежных связей довольно мудрёно будет работать и часто придётся дёргать БД. Если моделировать через инъекции мыслей в широкое контекстное окно LLM то качество понимания уже напрямую зависит от качества модели и её понимания, что иногда недопустимо. (малые сети херово с длинными контекстами работают, а коммерческие слишком дорогие для такой системы)

Нужно разрабатывать специализированные сетки для различных когнитивных нагрузок, а это всё долго и дорого. Потому пока нужно создать инструмент который сможет за кучу времени, но сам, разобраться как сделать эти специализированные сети. И когда оно будет работать быстро и дёшево, тогда заживём

Mission Planer это вроде вообще софтина из 2 файлов которая в одном потоке работает, если мне память не изменяет xD. "Новый" QGroundControl выглядит по живее, но они заманали каждый комит полностью переработать всё. Я написал кастом сборку а сейчас узнаю что они убрали переопределения ресурсов и половину функционала переделали и теперь не собирается ничего. Круто

Я сейчас разрабатываю аналитические системы и даже представить себе не могу как не тренировать модель на пользователях.

Ты хочешь улучшить модель в юриспруденции, но для её улучшения ты должен нарушить соглашение и обучать модель на их данных. А где мне ещё брать актуальные датасеты? Что бы не палится нужно разрабатывать извлекатор знаний которые бы маскировали их удаляя конфеденциальную информацию.

Вспоминаем новость что кто-то из директоров в OpenAI связан с разведкой США и продолжаем плодить конспирологические спекуляции

Это уже какой-то метавёрс получается. Там и PODSOSAL и VSOSAL и NESOSAL и прочие диалекты

Нужно донести эту гениальную мысль до англоговорящих и тогда посмотрим как залетит

Раньше была поддержка и челы делают кастомные образы для запуска андроид приложений "нативно".

А смысл? Квантованные не сильно в качестве падают. Судя по тестам до q6_0 падение макс 10%, а вот дальше уже плохо всё.

Есть такое

Современные LLM модели умеют очень много, но всё зависит от формулировки. Если использовать термины на которых они обучаюсь то качество в разы лучше. (Можно просто спросить у ИИ что оно знает по теме) Я сейчас делаю что-то похожее на ACT-R систему и я, без знаний NLP, просто прошу ИИ разобрать предложения, добавляем всякие парсеры и валидаторы и приложение готово.

Через сколько лет что? Придумают системы анализа и проектирования которые станут доступны? Наверное лет так через 5 минимум. Ибо только-только модели начали обучать на агентность, а значит минимум год-два обкатывать это будут. И учитывая что досихпор никому не интересны исследования по когнитивке мы ещё долго не увидим чего-то реально интересного. Может алгоритмический ИИ-софт появится чуть раньше чем "реально думающий". (уже выпускают, но для внутрянки компаний)

ЗЫ
Для меня "алгоритмический" и "думающий" разное, ибо первое подразумевает что в него зашивают некую логику по решению задач относительно которой он не может отступить, когда второе зачастую оперирует множеством процессов для решения задач.(разница в количестве, да) Банально посчитать различные методы познания и как мы ловко можем переключаться между ними при решении задач. Промоделировать это алгоритмически довольно нетривиальная задача, а выбрать какой-то один эффективный для чего-то метод относительно просто.

Я вам рекомендую всё же давать точные понятия различным словам и именам. Потому что иначе начинается путаница, буквально чистая диалектика.
Если у вас будет строгий терминалогический аппарат, то вас будет гораздо легче понять, даже если ваши "слова" не значат тоже самое что для других людей (некоторые философы античности этим грешили)

Как и 80% всех LLM которые были созданы в течении последних двух лет. Я строил всякие забавные тестики и уже phi3 подходит для решения задач через агентные системы, а LLM уже год исполнился, что по текущим меркам уже много.

Тут срач в основном за терминологию. ИИ это когда в процессе участвуют только различные математические структуры из которых этот ИИ и состоит. Вот ты создал ИИ которая умеет писать в специальную память LSTM и извлекать от туда данные = ты создал ИИ с настоящей памятью! Или ты взял готовую модель, не обучал её а просто спарсил её ответы как SQL запросы и просто на следующей итерации подкидывал ответы = ты создал ИИ с настоящей памятью? Скорее всего нет, это уже "ИИ программа" или "агентный ИИ"

Information

Rating
6,287-th
Registered
Activity