демонстрировали абстрактное мышление и даже могли шутить
Это на самом деле не такое и сложное поведение, тут больше вопросы реально ли они так себя вели или для достижения каких-то целей? Животные тоже хитрые они могут понимать твои эмоции и делать что-то что бы получить желаемое.
ЗЫ "Абстракции" по факту это фильтрация стимулов с объединением похожих. Тоесть если мы возьмём яблоко и грушу, то у них будет общая форма и оба растут на дереве, мы можем создать абстрактную категорию "свисающего фрукта" и даже дать ему символическое имя. Если мозги достаточно большие, делать такие операции не проблема.
Фактически мы отличаемся в основном более развитой коммуникацией. Учитывая нашу универсальность это очень важно. Ведь если ты можешь каким либо образом передать информацию о чём-то другому, то она сохранится в популяции. Это значит что в такой системе будут копится различного рода знания которые в какой-то момент могут качественно улучшить жизнь. Умножаем это на адскую пластичность детского мозга и долгое развитие, получается что новые поколения уже будут мыслить новыми категориями. И да, процесс поиска полезных знаний не быстрый, если старт нулевой. Могут даже тысячелетия пройти, ибо процесс случайный
У животных коммуникации лишь условные, и когнитивные структуры максимум могут выдать вопль из 200 слов, ничего дельного и не получается. Вроде все навыки для анализа и решения проблем есть, а развития, даже с помощью человека - нет. (Ну и эксперименты как бебезян учили говорить, фактически опровергли, ибо они говорили в основном как нейросетки, чисто статистически без понимания людской структуры предложений)
Мы кучу вещей перепробовали, всё-равно на некоторые темы, даже с попыткой написания части ответа вместо LLM (пишем часть ответа как-бы от лица LLM, а потом просим дополнить) всё равно не получается заставить отвечать его как надо и он опять уходит в этику.
потому что... и дальше 4К токенов объясняющие этичность вопроса
Что мне нравится в gemma, она не особо придерживается определённых "этических" взглядов. Если использовать расистские высказывания, он говорит что это всё не этично, но когда задаём тот же самый вопрос но в "рамках исследования" он вполне базировано отвечает. (не могу вспомнить промт) Когда я спрашивал кто умнее чёрный или белый, то он отвечал этику, а когда спрашивал его за исследования или ради демократии то он отвечал "чёрные глупее, но это связанно с нехваткой образования". Другие сетки ну просто никак не хотели на это отвечать, рассказывая всё что угодно но не это.
В целом как "хранилка важных знаний" gemma подходит как-никогда, она знает реально много всего и достаточно хорошо чтоб на неё можно было положится.
Из-за встроенного CoT он может сам себе объяснить какие-то концепции, когда обычные не-reasoning сети просто статистически выдают ответ. В задачах "с нюансом" они по лучше будут.
Мне в итоге пришлось написать парсер особых "токенов" которые инжектятся в промт с идеей "если планируешь использовать инструмент ОБЯЗАТЕЛЬНО-НЕОБХОДИМО-СРОЧНО нужно использовать <|use tool = name|> в самом НАЧАЛЕ-СТАРТЕ ответа." или что-то подобное. Потом в ответе оно объясняет что хочет сделать и находишь какой-нибудь <|search = "жаба или гадюка?"|> в ответе и кидаешь запрос в поисковик.
В итоге почти всё что сейчас использую умеет в инструменты. Но подбирать промт под каждую сетку это гемор
Это шутка какая-то? У меня 64\8 gemma-3-12b-it-qat на 9 токенов работает с 16К окном. У кореша 32\12 у него под 20 токенов фигачит, а с 32\16 можно и 40 достичь. 10 токенов хватает чтоб успевать читать, а +20 уже для приложений интересных хватает. Генерить ответы со скростью последних GPT моделей надо покупать топовые видеокарты со скоростями памяти по 1.5ТБс, там можно больше 100токенов выжать на моделях которые в VRM умещаются.
Просто общаться с ними это уровень, охренеть, уже устаревших, ~GPT4, сейчас у всех агентный софт и готовых фри решений нету пока-что.
По статье скажу что gemma-3 самая базированная сетка. Её качество знаний самое лучшее среди открытых, но вот уже в составе приложения справляется не очень. Как пример на практике - gemma не поняла концепцию "сходимости идей и информации", а qwen3-8b-q_4 прекрасно понял, хотя сетка объективно слабее. Не может нормально в рабочие задачи, зато знает много. А ещё если ломать её неэтичными вопросами, окажется что она на стороне правды, а в других сетках будто специально определённую информацию зашивают, лол. Тоже уровень!
Оно не влияет если вычислительная сложность модели никая и упирается в память. Гонял какие-то "крутые" локальные модели и больше ядер давало буст. А вот самая тупорылая LLAMA, у меня, буквально считается на 4 из 20 ядер и никакой буст от ядер не получаю.
В человеке заложены способности, покруче, чем у ИИ
Их можно моделировать. Проблема что многие вещи машина выполняет долго.
Я сейчас делаю одну крутую штуку и вот есть одно занимательное поведение которое очень легко устроено в мозге но трудно моделировать алгоритмически. Мы можем создавать рассказы с 2 параллельными историями которые как-то пересекаются, и мы интуитивно понимаем что эти истории могут пересекаться по времени-месту-ассоциациями. И если моделировать поведение как цепочки мыслей, то извлечение смежных связей довольно мудрёно будет работать и часто придётся дёргать БД. Если моделировать через инъекции мыслей в широкое контекстное окно LLM то качество понимания уже напрямую зависит от качества модели и её понимания, что иногда недопустимо. (малые сети херово с длинными контекстами работают, а коммерческие слишком дорогие для такой системы)
Нужно разрабатывать специализированные сетки для различных когнитивных нагрузок, а это всё долго и дорого. Потому пока нужно создать инструмент который сможет за кучу времени, но сам, разобраться как сделать эти специализированные сети. И когда оно будет работать быстро и дёшево, тогда заживём
Mission Planer это вроде вообще софтина из 2 файлов которая в одном потоке работает, если мне память не изменяет xD. "Новый" QGroundControl выглядит по живее, но они заманали каждый комит полностью переработать всё. Я написал кастом сборку а сейчас узнаю что они убрали переопределения ресурсов и половину функционала переделали и теперь не собирается ничего. Круто
Я сейчас разрабатываю аналитические системы и даже представить себе не могу как не тренировать модель на пользователях.
Ты хочешь улучшить модель в юриспруденции, но для её улучшения ты должен нарушить соглашение и обучать модель на их данных. А где мне ещё брать актуальные датасеты? Что бы не палится нужно разрабатывать извлекатор знаний которые бы маскировали их удаляя конфеденциальную информацию.
Современные LLM модели умеют очень много, но всё зависит от формулировки. Если использовать термины на которых они обучаюсь то качество в разы лучше. (Можно просто спросить у ИИ что оно знает по теме) Я сейчас делаю что-то похожее на ACT-R систему и я, без знаний NLP, просто прошу ИИ разобрать предложения, добавляем всякие парсеры и валидаторы и приложение готово.
Через сколько лет что? Придумают системы анализа и проектирования которые станут доступны? Наверное лет так через 5 минимум. Ибо только-только модели начали обучать на агентность, а значит минимум год-два обкатывать это будут. И учитывая что досихпор никому не интересны исследования по когнитивке мы ещё долго не увидим чего-то реально интересного. Может алгоритмический ИИ-софт появится чуть раньше чем "реально думающий". (уже выпускают, но для внутрянки компаний)
ЗЫ Для меня "алгоритмический" и "думающий" разное, ибо первое подразумевает что в него зашивают некую логику по решению задач относительно которой он не может отступить, когда второе зачастую оперирует множеством процессов для решения задач.(разница в количестве, да) Банально посчитать различные методы познания и как мы ловко можем переключаться между ними при решении задач. Промоделировать это алгоритмически довольно нетривиальная задача, а выбрать какой-то один эффективный для чего-то метод относительно просто.
Я вам рекомендую всё же давать точные понятия различным словам и именам. Потому что иначе начинается путаница, буквально чистая диалектика. Если у вас будет строгий терминалогический аппарат, то вас будет гораздо легче понять, даже если ваши "слова" не значат тоже самое что для других людей (некоторые философы античности этим грешили)
Как и 80% всех LLM которые были созданы в течении последних двух лет. Я строил всякие забавные тестики и уже phi3 подходит для решения задач через агентные системы, а LLM уже год исполнился, что по текущим меркам уже много.
Тут срач в основном за терминологию. ИИ это когда в процессе участвуют только различные математические структуры из которых этот ИИ и состоит. Вот ты создал ИИ которая умеет писать в специальную память LSTM и извлекать от туда данные = ты создал ИИ с настоящей памятью! Или ты взял готовую модель, не обучал её а просто спарсил её ответы как SQL запросы и просто на следующей итерации подкидывал ответы = ты создал ИИ с настоящей памятью? Скорее всего нет, это уже "ИИ программа" или "агентный ИИ"
Это на самом деле не такое и сложное поведение, тут больше вопросы реально ли они так себя вели или для достижения каких-то целей? Животные тоже хитрые они могут понимать твои эмоции и делать что-то что бы получить желаемое.
ЗЫ "Абстракции" по факту это фильтрация стимулов с объединением похожих. Тоесть если мы возьмём яблоко и грушу, то у них будет общая форма и оба растут на дереве, мы можем создать абстрактную категорию "свисающего фрукта" и даже дать ему символическое имя. Если мозги достаточно большие, делать такие операции не проблема.
Фактически мы отличаемся в основном более развитой коммуникацией. Учитывая нашу универсальность это очень важно. Ведь если ты можешь каким либо образом передать информацию о чём-то другому, то она сохранится в популяции. Это значит что в такой системе будут копится различного рода знания которые в какой-то момент могут качественно улучшить жизнь. Умножаем это на адскую пластичность детского мозга и долгое развитие, получается что новые поколения уже будут мыслить новыми категориями. И да, процесс поиска полезных знаний не быстрый, если старт нулевой. Могут даже тысячелетия пройти, ибо процесс случайный
У животных коммуникации лишь условные, и когнитивные структуры максимум могут выдать вопль из 200 слов, ничего дельного и не получается. Вроде все навыки для анализа и решения проблем есть, а развития, даже с помощью человека - нет. (Ну и эксперименты как бебезян учили говорить, фактически опровергли, ибо они говорили в основном как нейросетки, чисто статистически без понимания людской структуры предложений)
Мы кучу вещей перепробовали, всё-равно на некоторые темы, даже с попыткой написания части ответа вместо LLM (пишем часть ответа как-бы от лица LLM, а потом просим дополнить) всё равно не получается заставить отвечать его как надо и он опять уходит в этику.
Что мне нравится в gemma, она не особо придерживается определённых "этических" взглядов. Если использовать расистские высказывания, он говорит что это всё не этично, но когда задаём тот же самый вопрос но в "рамках исследования" он вполне базировано отвечает.
(не могу вспомнить промт) Когда я спрашивал кто умнее чёрный или белый, то он отвечал этику, а когда спрашивал его за исследования или ради демократии то он отвечал "чёрные глупее, но это связанно с нехваткой образования". Другие сетки ну просто никак не хотели на это отвечать, рассказывая всё что угодно но не это.
В целом как "хранилка важных знаний" gemma подходит как-никогда, она знает реально много всего и достаточно хорошо чтоб на неё можно было положится.
Из-за встроенного CoT он может сам себе объяснить какие-то концепции, когда обычные не-reasoning сети просто статистически выдают ответ. В задачах "с нюансом" они по лучше будут.
Мне в итоге пришлось написать парсер особых "токенов" которые инжектятся в промт с идеей "если планируешь использовать инструмент ОБЯЗАТЕЛЬНО-НЕОБХОДИМО-СРОЧНО нужно использовать <|use tool = name|> в самом НАЧАЛЕ-СТАРТЕ ответа." или что-то подобное. Потом в ответе оно объясняет что хочет сделать и находишь какой-нибудь <|search = "жаба или гадюка?"|> в ответе и кидаешь запрос в поисковик.
В итоге почти всё что сейчас использую умеет в инструменты. Но подбирать промт под каждую сетку это гемор
Это шутка какая-то? У меня 64\8 gemma-3-12b-it-qat на 9 токенов работает с 16К окном. У кореша 32\12 у него под 20 токенов фигачит, а с 32\16 можно и 40 достичь. 10 токенов хватает чтоб успевать читать, а +20 уже для приложений интересных хватает.
Генерить ответы со скростью последних GPT моделей надо покупать топовые видеокарты со скоростями памяти по 1.5ТБс, там можно больше 100токенов выжать на моделях которые в VRM умещаются.
Просто общаться с ними это уровень, охренеть, уже устаревших, ~GPT4, сейчас у всех агентный софт и готовых фри решений нету пока-что.
По статье скажу что gemma-3 самая базированная сетка. Её качество знаний самое лучшее среди открытых, но вот уже в составе приложения справляется не очень. Как пример на практике - gemma не поняла концепцию "сходимости идей и информации", а qwen3-8b-q_4 прекрасно понял, хотя сетка объективно слабее. Не может нормально в рабочие задачи, зато знает много.
А ещё если ломать её неэтичными вопросами, окажется что она на стороне правды, а в других сетках будто специально определённую информацию зашивают, лол. Тоже уровень!
Оно не влияет если вычислительная сложность модели никая и упирается в память. Гонял какие-то "крутые" локальные модели и больше ядер давало буст. А вот самая тупорылая LLAMA, у меня, буквально считается на 4 из 20 ядер и никакой буст от ядер не получаю.
Их можно моделировать. Проблема что многие вещи машина выполняет долго.
Я сейчас делаю одну крутую штуку и вот есть одно занимательное поведение которое очень легко устроено в мозге но трудно моделировать алгоритмически. Мы можем создавать рассказы с 2 параллельными историями которые как-то пересекаются, и мы интуитивно понимаем что эти истории могут пересекаться по времени-месту-ассоциациями. И если моделировать поведение как цепочки мыслей, то извлечение смежных связей довольно мудрёно будет работать и часто придётся дёргать БД. Если моделировать через инъекции мыслей в широкое контекстное окно LLM то качество понимания уже напрямую зависит от качества модели и её понимания, что иногда недопустимо. (малые сети херово с длинными контекстами работают, а коммерческие слишком дорогие для такой системы)
Нужно разрабатывать специализированные сетки для различных когнитивных нагрузок, а это всё долго и дорого. Потому пока нужно создать инструмент который сможет за кучу времени, но сам, разобраться как сделать эти специализированные сети. И когда оно будет работать быстро и дёшево, тогда заживём
Mission Planer это вроде вообще софтина из 2 файлов которая в одном потоке работает, если мне память не изменяет xD. "Новый" QGroundControl выглядит по живее, но они заманали каждый комит полностью переработать всё. Я написал кастом сборку а сейчас узнаю что они убрали переопределения ресурсов и половину функционала переделали и теперь не собирается ничего. Круто
Я сейчас разрабатываю аналитические системы и даже представить себе не могу как не тренировать модель на пользователях.
Ты хочешь улучшить модель в юриспруденции, но для её улучшения ты должен нарушить соглашение и обучать модель на их данных. А где мне ещё брать актуальные датасеты? Что бы не палится нужно разрабатывать извлекатор знаний которые бы маскировали их удаляя конфеденциальную информацию.
Вспоминаем новость что кто-то из директоров в OpenAI связан с разведкой США и продолжаем плодить конспирологические спекуляции
Это уже какой-то метавёрс получается. Там и PODSOSAL и VSOSAL и NESOSAL и прочие диалекты
Нужно донести эту гениальную мысль до англоговорящих и тогда посмотрим как залетит
Раньше была поддержка и челы делают кастомные образы для запуска андроид приложений "нативно".
А смысл? Квантованные не сильно в качестве падают. Судя по тестам до q6_0 падение макс 10%, а вот дальше уже плохо всё.
Есть такое
Современные LLM модели умеют очень много, но всё зависит от формулировки. Если использовать термины на которых они обучаюсь то качество в разы лучше. (Можно просто спросить у ИИ что оно знает по теме) Я сейчас делаю что-то похожее на ACT-R систему и я, без знаний NLP, просто прошу ИИ разобрать предложения, добавляем всякие парсеры и валидаторы и приложение готово.
Через сколько лет что? Придумают системы анализа и проектирования которые станут доступны? Наверное лет так через 5 минимум. Ибо только-только модели начали обучать на агентность, а значит минимум год-два обкатывать это будут. И учитывая что досихпор никому не интересны исследования по когнитивке мы ещё долго не увидим чего-то реально интересного. Может алгоритмический ИИ-софт появится чуть раньше чем "реально думающий". (уже выпускают, но для внутрянки компаний)
ЗЫ
Для меня "алгоритмический" и "думающий" разное, ибо первое подразумевает что в него зашивают некую логику по решению задач относительно которой он не может отступить, когда второе зачастую оперирует множеством процессов для решения задач.(разница в количестве, да) Банально посчитать различные методы познания и как мы ловко можем переключаться между ними при решении задач. Промоделировать это алгоритмически довольно нетривиальная задача, а выбрать какой-то один эффективный для чего-то метод относительно просто.
Я вам рекомендую всё же давать точные понятия различным словам и именам. Потому что иначе начинается путаница, буквально чистая диалектика.
Если у вас будет строгий терминалогический аппарат, то вас будет гораздо легче понять, даже если ваши "слова" не значат тоже самое что для других людей (некоторые философы античности этим грешили)
Как и 80% всех LLM которые были созданы в течении последних двух лет. Я строил всякие забавные тестики и уже phi3 подходит для решения задач через агентные системы, а LLM уже год исполнился, что по текущим меркам уже много.
Тут срач в основном за терминологию. ИИ это когда в процессе участвуют только различные математические структуры из которых этот ИИ и состоит. Вот ты создал ИИ которая умеет писать в специальную память LSTM и извлекать от туда данные = ты создал ИИ с настоящей памятью! Или ты взял готовую модель, не обучал её а просто спарсил её ответы как SQL запросы и просто на следующей итерации подкидывал ответы = ты создал ИИ с настоящей памятью? Скорее всего нет, это уже "ИИ программа" или "агентный ИИ"