Ну, там не на много подороже. В общем, идей в статье как бы две: 1) Что TF-IDF на текстах с высокой степенью формализма всё ещё рулит. 2) Что SVM позволяет мега быстро определять границу предпочтений и учится на ходе без расходов (и это не зависит от того, берём мы TF-IDF или llm embeddings - там мат. представление идентичное).
В то же время, попытку высадить эмбеддер специальным датасетом можно сравнить с попыткой высадить grep сжатым архивом: grep ищет слова (подстроки), а в архиве только буквы вперемежку.
Так и в их исследовании: эмбеддер ищет смыслы и способен справляться даже тогда, когда пересекающихся слов вообще нет, а bm25 ищет именно на комбинациях слов. Это два разных уровня. Если посмотреть на их тестовый датасет в таком ракурсе, то мы обнаружим, что там вообще всего примерно один смысл: что кому-то что-то нравится. Неудивительно, что для эмбеддера строки по смыслу слабо отличаются. И никакие мультивекторы тут не помогут.
В то же время, этот пример очень хорошо иллюстрирует, что в практике RAG - это не серебряная пуля и что нужно оценивать состав данных, а затем комбинировать инструменты.
Есть смысл избегать применения RAG практически везде, где легко справляются алгоритмы. Лёгкость алгоритмической обработки материала - прямое свидетельство конечности и относительной узости смыслового корпуса входных данных.
Прошу прощения, комментарий с телефона набирал - "собрать" - это "собрат" :)
В общем, если про Instruct-версию, то для 1.2B она, на удивление неплохо, понимает, что от неё хотят, ей не срывает крышу от повторяющихся блоков (типа вагона ссылок на страничке), при этом работает с высокой скоростью.
В итоге получается скоростной и довольно интеллектуальный саммаризатор для чтения интернет-страничек, ленты чата и прочего мусора - сильно лучше и стабильнее, чем Qwen3B по всем параметрам, кроме русского. Русский понимает хорошо, а выдаёт на четвёрочку. Но если вывод идёт потом обратно в LLM, то это как-то вообще без разницы. Зато 320-380 ток/с на 3090.
Плюс, при таком размере легче дообучать, в т.ч. на тот же русский.
А про оркестр - LFM сделала несколько мелких моделей, там и аудио и видео и всякое. Они их позиционируют для мобильных приложений, но в сегодняшней реальности их можно напихать в 3060 все одновременно. И получится туповатый, но деятельный локальный комбайн с низкой задержкой. А это уже уровень обычного игрового ноута.
Хорошая работа, хорошая статья! Плюсовать не дают, но спасибо скажу.
Есть вопрос: вот пример рассуждения про проверку оси - чем он обеспечен в датасете?
Есть образцы рассуждений прямо по данному вопросу?
Есть образцы общих/отвлеченных рассуждений плюс эта логика акцентирована в решениях?
Или как?
Сколько образцов нужно на такой кейс?
Как их готовили? Синтетика старшей моделью на комментировании образцов кода?
И ещё аналогичный вопрос по обучению синтаксису: что ей нужно показать, чтобы она его начала понимать строго?
К сожалению в сети полно хороших объяснялок, как учить, но про подготовку датасета все рассказывают как художники про рисование совы: рисуем овал, ещё овал... И что дальше здесь пёрышки докрашиваем :)
Если бы Вы немного рассказали по этой теме, был бы благодарен.
Перед этим стоит попробовать просто увеличить число чанков в выдаче для прода. Этот тест проводился на 5 чанков выдачи. Хороший объём для теста. Если сделать 10-25, то охват будет больше. Но и мусора больше, и токенов тоже и там уже реранкинг в помощь.
А ансамблить есть смысл с bm25. Он сам по себе, тупее, но быстрый и "альтернативно мыслящий" и вот он даст несколько процентиков к охвату.
Тестировались три модели серии Qwen3-Embedding: 8B, 4B и 0.6B. По идее, чем меньше параметров, тем менее точным должен быть поиск. Но технически выгодее брать более слабую модель, потому что гораздо быстрее работает. И вот на том тестсете, что я гонял, разницы, можно сказать, что нет.
Ну... Винни-Пух поглубже, чем ностальгическая утопия. Все игрушки Кристофера Робина - это частички его внутреннего мира, его характера. Довольно занятная декомпозиция.
Тезис о жестокой конкуренции ошибочен. При высоком уровне случайности никогда неизвестно, кто найдёт ответ - возможно, что самый слабый. Поэтому если при каждой победе сжирать другого, что шансы популяции будут таять, а они должны расти. Более того, при высокой случайности, у агентов и так повышенный риск убиться - не о людей, а о среду. Поэтому, наоборот - милосердие, помощь даже без запроса, как при дружбе.
Каковы параметры мира, в которых распределённая сеть изобретателей выигрывает у иерархии?
В рамках Теории социальной специализации была предложена деятельностная формулировка Теории игр. Суть там сводится к тому, что существуют параметры среды, которые диктуют выигрышную деятельность, а выигрышная деятельность диктует структуру отношений и там не шибко богатое и вполне однозначное соответствие:
Когда условия среды непредсказуемы и в каждом другом месте может оказаться всё по другому, приоритет получают агенты с высокой степенью свободы, адаптивностью, изобретательностью. Основной деятельностью является поиск. Тем не менее, на фоне личной свободы, требованием для выживания популяции является наличие совести (т.е., приоритетной заботы о ресурсах других) и взаимовыручке в ситуациях, создающих риск для жизни другого агента (как он живёт - его дело, но выжить и коптить дальше - должен). Если будете моделировать, то ровно к этому и придёте. Многие инженерные среды склонны к этой структуре.
Когда условия среды частично предсказуемы, приоритет получают сообщества, которые больше знают универсальных законов - те, кто сможет освоить сбор, накопление, обработку и передачу знаний. Монастыри, университеты, секты, тайные общества. Ценность знания, оберегание знания, передача знания. Причём, основной социальный метод оберегания - не столько "не скажу" (хотя значение посвящения в члены сообщества тоже не стоит игнорировать), сколько максимальное усложнение и запутывание подачи, чтобы со средним умом и без знания "ключей" было попросту не разобраться. Примечательно, что, не смотря на инженерную тематику, Хабр является площадкой второго типа, а не первого... точнее являлся, когда его сделали, сейчас инструменты остались второго типа, а сообщество, всё больше, третьего, что, в целом, следует за эволюцией российской айтихи.
Когда большинство, или все условия среды предсказуемы, приоритет получают сообщества, где лучше всего фигачат по правилам. Трудолюбие, организационные таланы, понимание цикического характера процессов. Естественный критерий оценки: кто больше наработал, тот и лучше работал, потому что тяжело работать и нифига не заработать в среде, где все правила известны - это какая-то ерунда. Такова протестантская этика, капитализм и либеральные ценности.
Когда возможно менять условия (например, характер среды, или общественные законы), приоритет получают общества, которые способны собраться большей шоблой, чтобы их поменять в свою пользу. Это иерархии, потому что они лучше всего масштабируются. Здесь рулит устав и делегирование (воспринимайте это как механики агентов). Основной принцип - разделение свой-чужой, что чётенько выведет вас на физику плазмы (а то, что Вы хотите промоделировать - это физика воды с диполями и слабыми водородными связями).
Если же говорить о популяции в целом, то она всегда специализируется по этим четырём нишам (агенты одного типа практически не воспринимают правила ниши другого типа) и Природа постоянно поддерживает это разнообразие, потому что условия в любой момент могут поменяться. И всегда кто-то имеет в моменте приоритет, а кто-то должен понимать, как ему найти свою хлебную нишу в мире, основные правила которого легли не очень удачно.
В общем, первый тип получает приоритет на переднем крае и во всяких непригодных для жизни неудобьях, в которые не добираются те, кто имеет более организованные модели. Цена свободы.
Почему именно эта модель в ряду других опенсорсных?
Выглядит как отдельное описание некого концепта применения ИИ в интегрированных системах анализа и принятия решений и отдельное нахлабучивание на неё конкретной модели, без обоснования ключевых метрик по сравненияю с qwen2.5-coder, qwen3, а также моделей 70B+. Всё-таки говорим о применении в крупном, дорогом производстве, есть ли смысл гнаться за модельками, квантовка которых должна умещаться в 24Gb?
Хотя для массового потребления, да, удачный формат.
Секс-бомба - это ChatGPT, который у вас наверняка установлен.
А Макс - это кусочек дома, а которм вы живёте. Такой же теперь необходимый, как свои надёжные электросети и надёжный интернетек.
И вот пытаться вам его "продать", участвуя в "честной конкуренции" управдому ехало болело. Да и не до вас. Если честно, сейчас вообще всем не до вас. Не до вашей показной паранойи, которая, на деле, секс-бомбу (GPT) от простой завалинки (Макс) отличить не может.
Если бы вы действительно профессионально были "тенью", вы бы тут не писали вот это вот. По факту же, вы, ан масс, пользуетесь телефоном с GPS, ездите по навигатору, чатитесь в воцапе и спрашиваете GPT о сокровенном.
P.S. Это не вам лично, конечно, это всем апологетам этой довольно широко распространённой среди айтишников позиции.
Саморефлексия без обратной связи... Ну, в принципе, если следующих слоев хватит на то, чтобы заново подумать и сравнить, то да. А если нет, то она просто как психопат подстраивается, зная словесный шаблон.
А что за ассистент такой за полтинник, на которого Вы все время киваете?
Подскажите, как устроено подключение к тому же Вайлдберриз? Они засабмттили какого-то провайдера к Клауд скиллу?
Ну, там не на много подороже. В общем, идей в статье как бы две:
1) Что TF-IDF на текстах с высокой степенью формализма всё ещё рулит.
2) Что SVM позволяет мега быстро определять границу предпочтений и учится на ходе без расходов (и это не зависит от того, берём мы TF-IDF или llm embeddings - там мат. представление идентичное).
За статью спасибо - познавательно!
А что мешает тот же SVM напустить на эмбеддинги вместо TF-IDF? Структура та же, но вместо слов уже - смыслы.
Статья интересная, спасибо!
В то же время, попытку высадить эмбеддер специальным датасетом можно сравнить с попыткой высадить grep сжатым архивом: grep ищет слова (подстроки), а в архиве только буквы вперемежку.
Так и в их исследовании: эмбеддер ищет смыслы и способен справляться даже тогда, когда пересекающихся слов вообще нет, а bm25 ищет именно на комбинациях слов. Это два разных уровня. Если посмотреть на их тестовый датасет в таком ракурсе, то мы обнаружим, что там вообще всего примерно один смысл: что кому-то что-то нравится. Неудивительно, что для эмбеддера строки по смыслу слабо отличаются. И никакие мультивекторы тут не помогут.
В то же время, этот пример очень хорошо иллюстрирует, что в практике RAG - это не серебряная пуля и что нужно оценивать состав данных, а затем комбинировать инструменты.
Есть смысл избегать применения RAG практически везде, где легко справляются алгоритмы. Лёгкость алгоритмической обработки материала - прямое свидетельство конечности и относительной узости смыслового корпуса входных данных.
Прошу прощения, комментарий с телефона набирал - "собрать" - это "собрат" :)
В общем, если про Instruct-версию, то для 1.2B она, на удивление неплохо, понимает, что от неё хотят, ей не срывает крышу от повторяющихся блоков (типа вагона ссылок на страничке), при этом работает с высокой скоростью.
В итоге получается скоростной и довольно интеллектуальный саммаризатор для чтения интернет-страничек, ленты чата и прочего мусора - сильно лучше и стабильнее, чем Qwen3B по всем параметрам, кроме русского. Русский понимает хорошо, а выдаёт на четвёрочку. Но если вывод идёт потом обратно в LLM, то это как-то вообще без разницы. Зато 320-380 ток/с на 3090.
Плюс, при таком размере легче дообучать, в т.ч. на тот же русский.
А про оркестр - LFM сделала несколько мелких моделей, там и аудио и видео и всякое. Они их позиционируют для мобильных приложений, но в сегодняшней реальности их можно напихать в 3060 все одновременно. И получится туповатый, но деятельный локальный комбайн с низкой задержкой. А это уже уровень обычного игрового ноута.
Хорошая работа, хорошая статья! Плюсовать не дают, но спасибо скажу.
Есть вопрос: вот пример рассуждения про проверку оси - чем он обеспечен в датасете?
Есть образцы рассуждений прямо по данному вопросу?
Есть образцы общих/отвлеченных рассуждений плюс эта логика акцентирована в решениях?
Или как?
Сколько образцов нужно на такой кейс?
Как их готовили? Синтетика старшей моделью на комментировании образцов кода?
И ещё аналогичный вопрос по обучению синтаксису: что ей нужно показать, чтобы она его начала понимать строго?
К сожалению в сети полно хороших объяснялок, как учить, но про подготовку датасета все рассказывают как художники про рисование совы: рисуем овал, ещё овал... И что дальше здесь пёрышки докрашиваем :)
Если бы Вы немного рассказали по этой теме, был бы благодарен.
Думающую не пробовал, а вот её Instruct собрать - прямо агонь! Там у них очень хороший оркестр выходит.
Интриги, месье
Перед этим стоит попробовать просто увеличить число чанков в выдаче для прода. Этот тест проводился на 5 чанков выдачи. Хороший объём для теста. Если сделать 10-25, то охват будет больше. Но и мусора больше, и токенов тоже и там уже реранкинг в помощь.
А ансамблить есть смысл с bm25. Он сам по себе, тупее, но быстрый и "альтернативно мыслящий" и вот он даст несколько процентиков к охвату.
У квенов - один общий. Не такой, как у других
Тестировались три модели серии Qwen3-Embedding: 8B, 4B и 0.6B. По идее, чем меньше параметров, тем менее точным должен быть поиск. Но технически выгодее брать более слабую модель, потому что гораздо быстрее работает.
И вот на том тестсете, что я гонял, разницы, можно сказать, что нет.
Да, всё так.
Ну, это весьма внятный обзор. Не знаю, как другие. Спасибо автору. Но к вопросу присоединяюсь.
Ну... Винни-Пух поглубже, чем ностальгическая утопия. Все игрушки Кристофера Робина - это частички его внутреннего мира, его характера. Довольно занятная декомпозиция.
Тезис о жестокой конкуренции ошибочен. При высоком уровне случайности никогда неизвестно, кто найдёт ответ - возможно, что самый слабый. Поэтому если при каждой победе сжирать другого, что шансы популяции будут таять, а они должны расти. Более того, при высокой случайности, у агентов и так повышенный риск убиться - не о людей, а о среду. Поэтому, наоборот - милосердие, помощь даже без запроса, как при дружбе.
В рамках Теории социальной специализации была предложена деятельностная формулировка Теории игр. Суть там сводится к тому, что существуют параметры среды, которые диктуют выигрышную деятельность, а выигрышная деятельность диктует структуру отношений и там не шибко богатое и вполне однозначное соответствие:
Когда условия среды непредсказуемы и в каждом другом месте может оказаться всё по другому, приоритет получают агенты с высокой степенью свободы, адаптивностью, изобретательностью. Основной деятельностью является поиск. Тем не менее, на фоне личной свободы, требованием для выживания популяции является наличие совести (т.е., приоритетной заботы о ресурсах других) и взаимовыручке в ситуациях, создающих риск для жизни другого агента (как он живёт - его дело, но выжить и коптить дальше - должен). Если будете моделировать, то ровно к этому и придёте. Многие инженерные среды склонны к этой структуре.
Когда условия среды частично предсказуемы, приоритет получают сообщества, которые больше знают универсальных законов - те, кто сможет освоить сбор, накопление, обработку и передачу знаний. Монастыри, университеты, секты, тайные общества. Ценность знания, оберегание знания, передача знания. Причём, основной социальный метод оберегания - не столько "не скажу" (хотя значение посвящения в члены сообщества тоже не стоит игнорировать), сколько максимальное усложнение и запутывание подачи, чтобы со средним умом и без знания "ключей" было попросту не разобраться. Примечательно, что, не смотря на инженерную тематику, Хабр является площадкой второго типа, а не первого... точнее являлся, когда его сделали, сейчас инструменты остались второго типа, а сообщество, всё больше, третьего, что, в целом, следует за эволюцией российской айтихи.
Когда большинство, или все условия среды предсказуемы, приоритет получают сообщества, где лучше всего фигачат по правилам. Трудолюбие, организационные таланы, понимание цикического характера процессов. Естественный критерий оценки: кто больше наработал, тот и лучше работал, потому что тяжело работать и нифига не заработать в среде, где все правила известны - это какая-то ерунда. Такова протестантская этика, капитализм и либеральные ценности.
Когда возможно менять условия (например, характер среды, или общественные законы), приоритет получают общества, которые способны собраться большей шоблой, чтобы их поменять в свою пользу. Это иерархии, потому что они лучше всего масштабируются. Здесь рулит устав и делегирование (воспринимайте это как механики агентов). Основной принцип - разделение свой-чужой, что чётенько выведет вас на физику плазмы (а то, что Вы хотите промоделировать - это физика воды с диполями и слабыми водородными связями).
Если же говорить о популяции в целом, то она всегда специализируется по этим четырём нишам (агенты одного типа практически не воспринимают правила ниши другого типа) и Природа постоянно поддерживает это разнообразие, потому что условия в любой момент могут поменяться. И всегда кто-то имеет в моменте приоритет, а кто-то должен понимать, как ему найти свою хлебную нишу в мире, основные правила которого легли не очень удачно.
В общем, первый тип получает приоритет на переднем крае и во всяких непригодных для жизни неудобьях, в которые не добираются те, кто имеет более организованные модели. Цена свободы.
Почему именно эта модель в ряду других опенсорсных?
Выглядит как отдельное описание некого концепта применения ИИ в интегрированных системах анализа и принятия решений и отдельное нахлабучивание на неё конкретной модели, без обоснования ключевых метрик по сравненияю с qwen2.5-coder, qwen3, а также моделей 70B+. Всё-таки говорим о применении в крупном, дорогом производстве, есть ли смысл гнаться за модельками, квантовка которых должна умещаться в 24Gb?
Хотя для массового потребления, да, удачный формат.
Ничёсе вас тут потрепали. Да и меня за одно.
Вопрос по теме: а МАКСовцы собираются юридически значимое голосование делать?
Ну, т.е., чтобы голоса как подписи можно было засчитывать. В идеале, оформлять просто как вставляемую голосовалку, как везде.
Секс-бомба - это ChatGPT, который у вас наверняка установлен.
А Макс - это кусочек дома, а которм вы живёте. Такой же теперь необходимый, как свои надёжные электросети и надёжный интернетек.
И вот пытаться вам его "продать", участвуя в "честной конкуренции" управдому ехало болело. Да и не до вас. Если честно, сейчас вообще всем не до вас. Не до вашей показной паранойи, которая, на деле, секс-бомбу (GPT) от простой завалинки (Макс) отличить не может.
Если бы вы действительно профессионально были "тенью", вы бы тут не писали вот это вот. По факту же, вы, ан масс, пользуетесь телефоном с GPS, ездите по навигатору, чатитесь в воцапе и спрашиваете GPT о сокровенном.
P.S. Это не вам лично, конечно, это всем апологетам этой довольно широко распространённой среди айтишников позиции.
Саморефлексия без обратной связи... Ну, в принципе, если следующих слоев хватит на то, чтобы заново подумать и сравнить, то да. А если нет, то она просто как психопат подстраивается, зная словесный шаблон.