Мы тоже разрабатываем мультиагентный ИИ в связке с LLM Думаем тоже в сторону песочницы, но только у нас агенты это не человечки или паравозики, а языковые модели, планировщики, составители датасетов - которые организуются в конечные бизнес-решения в цепочку Телеграм - fractal_gpt
Нужен гибридный поиск, и векторная база и обычный поисковик bm25 - но потом нужно ранжировать результаты, чтобы понять какой же из них дал более правильные результаты
Посмотрите в сторону нашей библиотеки ExplainitAll ExplainitAll — это библиотека для интерпретируемого ИИ, предназначенная для интерпретации генеративных моделей ( GPT-like), и векторизаторов, например, Sbert. Библиотека предоставляет пользователям инструменты для анализа и понимания работы этих сложных моделей. Кроме того, содержит модули RAG QA, fast_tuning и пользовательский интерфейс.
Мы сделали там чекер галлюцинаций. Плюс либу можно использовать как компонент RAG систем для оценки доверия ответу и чтобы система отказывалась давать ответ, если вопрос некорректен или ответа в тексте нет.
Вариантов улучшений масса - например мы провели много экспериментов по построению структуры текста, для того, чтобы на разных уровнях абстракции улавливать связи (документ, главы, разделы, абзацы, предложения) - это похоже на knowledge graph, только у нас он фрактальный из-за самоподобия, поэтому назвали Fractal answer synthesis.
Вообще в целом проблема глобальная - вариантов RAG систем сейчас если погуглить будет штук 15, с разными параметрами настроек под разные доменные области. Найти оптимальный вариант - это проводить десятки экспериментов и учить модели. А еще адаптировать поиск, тк по нашим наблюдениям более 70% качества это не LLM а эмбеддинги, поэтому глобально даже дорогущая GPT4 не поможет. Один из вариантов - применять Ai агентов с многоагентной системой, чтобы агенты сами собирались оптимально под задачу.
Войны правок являются следствием того, что принципиально огромное количество информации не является проверяемым на момент написания статьи СМИ - то есть не соблюдается правило журналистики. А есть еще научные проблемы: фейки в статьях, бред из Чатгпт в статьях и пр - которые вообще мало людей способны проверить.
В чем у нас спор - не вижу его. Просто Википедия изменится сильнее -в ней и так уже есть механизм когда разные версии событий изложены со ссылками. А можно это распространить и автоматизировать еще круче. Условно читатель статьи в Вики имеет только лишь один шаг для аналитики - он идет по ссылке в другой материал. Но вот тот материал СМИ он уже не в состоянии проверить физически - нет времени и желания, есть куча сми о которых мы не знаем кто там владельцы, как они аффилированы с компаниями и пр - и почему у них есть причины врать по тому или иному поводу. Можно внедрить систему, которая и сами источники Вики будет верифицировать - круто же
Статья от января. Вообще идея прозрачности и подтверждаемости источников - давняя проблема. Чего стоят войны правок в Википедии. Я даже похожую идею продукта высказывал и на ФБ делал пост что вот бы было круто если б был некий сервис который сразу бы к любой речи политика или эксперта делал в риал-тайм выжимку правду он говорит или нет со списком источников и перекрестным анализом надежности каждого. Но тут нужна мат модель анализа достоверности, которая сама должна хорошо контролироваться, т.к. на ее основе будет получен ИИ, определяющий ложь или правда сказана в определенном культурном контексте - а это и есть главная проблема. Ведь в разных культурах недосказанность информации не является ложью
Есть наша работа в FractalGPT, есть статья на Хабре про Алгоритм фрактального синтеза - описано концептуально, без кода и важных деталей. В основном крутость этого подхода в том, что он универсален и скейлится как по тематикам, так и по сложности текста. Как следствие - в отличие от других подходов нарезки на чанки, поиска релевантных заголовков, реранкеров релевантных чанков и тп у нас подход не требует сильной кастомизации под конкретную доменную область, а в других подходах это нужно делать и возникает проблема типа "проклятия размерности" - есть 10 настроек у каждой 15 параметров, и есть 50 типов бизнеса и вам надо подобрать оптимальные настройки под каждый бизнес - типы вопросов, длина и структура ответов, что делать если юзер неполный вопрос задает и тп - комбинаторно придется перебирать сотни комбинаций и донастраивать векторный поиск.
Например, в курсе https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/ сооснователь Ламаиндекс - Jerry Liu Co-founder and CEO of LlamaIndex рассказывает про метод Auto-merging_Retrieval - который и является наивным, эвристическим подходом к проблеме разрозненной нарезки на чанки. Собственно ауто-мерджинг это сборка маленьких чанков в большие с иерархией - ведь это и есть граф связей между ними. Это в их курсе в видео будет на 4й минуте: leaf node, intermidiate node, parent node
Это подход мы например попробовали одним из первых еще год назад(их курс новый), и потом докрутили. Очевидно, что описанный ими подход многократно можно улучшать, добавляя больше связей, более глубоких, сложных по структуре, что конечно же даст более высокое качество ответа и более гибкий реранкер - а значит под конечный бизнес легче заточить.
У нас как разработчиков часто спрашивают доказательства, что наш подход к RAG с помощью построения графа структуры текста лучше наивного RAG с разбиением на чанки.
В связи с этим просят бенчмарк - знаете ли вы датасет на русском для RAG, на котором можно было бы адекватно сравнить качество retrieval augmented generation систем, такой, чтобы в нем был баланс тематик по топикам и сложности (новости и конструкторская документация это разные по сложности тексты), типов вопросов, длин контекстов, типов ответов (инструкции, научные ответы, консультации и тп), ответов по типу разрозненности: ответ собирается из разных частей документа (а не находится в в одном абзаце), темпоральные (по времени происходящих событий), по жаргонности(юзеры задают вопрос а жаргоном, а система должна иметь векторный движок понимающий жаргон) ?
"SBS (Side-By-Side) Результаты SBS (52%) GigaChat Pro [25.01.2024] vs ChatGPT [gpt-3.5-turbo-0613] (48%)"
преимущество не тотальное, а совсем небольшое, в 4%, и это обращу внимание сайд бай сайд SBS (Side-By-Side), то есть попарное сравнение, которое может быть конечно субъективным - потому что оценку делают люди. НО: ничего лучше оценки людьми пока нет, можно конечно GPT4 использовать но тоже будут вопросы к этому.
Цитата из другой статьи Сбера: " У SBS есть минусы и поэтому мы дополняем его с помощью автоматических метрик — задач, ответы на которые можно проверить без участия людей. Такие метрики позволяют получать оценку модели очень быстро, а также оценивать Pretrain'ы, которые еще не научились следовать инструкциям. "
Далее, сразу уберу критику что подгоняли под бенчмарки: в комментах С. Марков ответил что нет (не доверять нет оснований).
И все же в комментах ниже погладили против шерсти ? Естественно покидали плохие кейсы и попытались это обобщить чуть ли не до обвинения в лжи)) Типичная ошибка, обобщения нельзя делать - контрпримеры не опровергают бенчмарки, они и являются объективной метрикой. Конечно, очень важна гладкость качества - и она тоже есть, на диаграммах мы видим близкие цифры качества по разным категориям теста - если бы это было не так, а скажем категория ответов на вопросы была сильно лучше, а другие категории проседали - тогда да, можно было бы обвинить в подгонке результатов, и то смотря какая % разницы.
Итого: почему людям может не нравиться результат, и почему может быть иллюзия непаритетности по качеству. Я бы объяснил это тем, что бенчмарк все же не совсем полностью показывает широту и разнообразие кейсов, в которых люди тестируют обе модели - они берут кейсы более широкие, чем те, что в бенчмарке. А ведь помимо MMLU есть еще много других бенчмарков, в которых разница может быть уже видна. Есть эта разница или нет - мы не знаем, до тех пор, пока нет проверки на них. А это значит трудно сказать - является ли мнение "не обогнали" субъективным, выбросом из выборки, или оно является отражением кейсов, которые люди брали для сравнения - и если эти кейсы выходили за рамки MMLU то все равно в статье написана правда - там утверждается "получили более высокую оценку, чем ChatGPT (gpt-3.5-turbo-0613) на бенчмарке MMLU" и все, ничего про другие типы задач не говорится.
Думаю вы перепутали нашу разработку с Гигачатом - я лично не работаю в Сбере) Поэтому скриншот их продукта - это не к нам вопрос, это не наш продукт. Нет, ту вашу задачу наш FractalMath не решит, так же как и квадратные уравнения, задачи на вероятности, лжецов-правдецов, колпаки, взвешивания и еще сотни задач на смекалку, шахматные этюды и тп. - потому, что мы не учили этому нашу систему.
Это вопрос-троллинг. Ответ на него не имеет смысла в контексте нашего разговора. Не важно решит или нет - если решит вы скажете, что "вы решение заготовили заранее в коде", а если не решит - "ахаха чепуха у вас система, не решает мою задачу". Поэтому вместо троллинг вопросов, которые на Хабре не приняты (это не Пикабу) лучше реально почитайте статью - будет интересно) И да, мы сделали публичное демо, где любой может протестить, что заявленный функционал действительно работает.
Просьба прочитать статью по ссылке, там есть ответ на ваш вопрос, который типовой и очень частый.
1. Тестовые данные не "наши", а взяты из публичного датасета, составленного также не нами https://huggingface.co/datasets/ChilleD/MultiArith 2. В статье также приведены бенчмарки ChatGPT на этом же датасете, поэтому мы его и взяли, чтобы не зависимо сравнить и нас бы не могли обвинить в том, что мы подкрутили цифры у ChatGPT вниз - так вот по результатам исследований других команд разработчиков у Чатгпт либо 95 либо 97% точности (смотря какой промтинг используется) 3. В науке сравнение делается именно на тестовом датасете, именно эти цифры везде в научных статьях в таблицах (в том числе это публикации Хабра). Но вопрос сам по себе верный и правильный - мы не стали составлять сами датасет вне распределения (чтобы не сказали опять же "а что это вы тут составили, наверное черипикинг"), а сделали даже сильнее - опубликовали бота в Телеграм с это системой, где каждый человек может сам протестить наши заявления - как проверить по датасету, так и дать свои задачи, уж точно тогда вопросов не будет. Этот тест провели конечно же и мы сами как разработчики, и также десятки тех кто прочитал статью - и работает довольно хорошо на задачах которые модель никогда не видела, точность понятное дело быть 100% уже не может, но она довольно высокая и стабильная, по нашим наблюдениям порядка 95-98%
Если вам кажется, что какое-то чудо в числе 100% то уверяю это не так, задачи ОЧЕНЬ простые, их дети 5 лет решают безошибочно стабильно, ну то есть тоже 100% решат. И вот "стабильно" ключевое слово
Попробуйте позадавать задачи 3го класса школы из этого датасета, видоизменяя в них имена, предметы, увеличив числа до сотен тысяч, введя повторные действия и увидите ужас)) А задачки ОЧЕНЬ простые, их дети 5 лет щелкают легко, но Чатгпт посыпется, и это прям удручает.
Я вас немного огорчу, мы сделали довольно интересную разработку FractalMath в которой сравнили мультиагентную систему с ChatGPT и обошли ее по качеству и самое главное по стабильности в решении задачек арифметик ризонинг - у нас 100% на тестовом датасете, у Чатгпт 97% (тоже неплохо, но у нас больше) Вот тут можно подробно в статье почитать с разбором конкретных кейсов.
Чатгпт в любыми промтами тотально проигрывает агентному подходу, не стоит ее использовать для задач, требующих точности. И самое главное - почему мы этот рисеч сделали: чтобы показать, что стабильности в решении задач математики добиться на LLM невозможно, и не важно сколько в ней параметров и какая цифра стоит после слов GPT, хоть GPT4 возьмите - она будет все равно плохо работать.
На самом деле идей с промтингом очень много и есть более 10 уже проектов, которые лучше по бенчмаркам самому очевидному - CoT - это например работа Promptbreeder - где предлагается использовать генетический алгоритм для отбора не только промтов, но и самого способа отбора промтов - что шаг к самоолучшению.
Есть еще работа Generative Agents: Interactive Simulacra of Human Behavior https://arxiv.org/abs/2304.03442 - к сожалению тоже все сделано на промтах, с точки зрения разработки тут не описано никакого эффекта, но вот что интересно у них в статье, это то что они дали график на котором видно с какого момента у системы возникают эмерджентные свойства - и там видно что скажем убирая память у агентов (там это человечки с ролями), убирая рефлексию, кооперацию и тп - как сильно падает их способность договориться друг с другом чтобы скажем созвать вечеринку в доме. Без этих способностей там просто тотально начинаются галлюцинации и промты уже не помогают.
А в прошлом году была работа про Цицерона, правда она что-то не имела популярности - но там было прикольно что они, как заявляют, смогли поставить цели и понимание чужих целей агентам.
Если интересно есть вот такой наш доклад на ИИ конференции Ai Journey где я немного рассказал про наш подход к созданию агентов в рамках мультиагентной системы - у нас это показано на решении математических задач, и там результат получается 99.8% точность, то есть число правильных ответов, что недостижимо на LLM
Да, обучили свою модель, там несколько хаков есть, и в модели и в других местах. Но конечно не хочется их раскрывать - наверное небольшие компании не смогут это повторить, а вот большие, с кем мы и конкурируем могут попробовать, а нам бы этого не хотелось)
Ваш вопрос в целом об ответах по табличным данным - при этом не очень важно как они выражены, в виде разделителей как в csv, или визуальными границами как в docx.
Сейчас официально поддержки ответов по таблицам нет - эта фича может работать, но нестабильно, и лучше на простых таблицах, чем на сложных (с большим числом колонок, пустыми ячейками иногда и тп.) В течение трех месяцев планируется выпуск VisualQA agent - и там ответ по таблицам будет, и не только.
По поддержке промтинга: вообще ваш кейс лучше работает если обучить свою модель, тогда модель будет понимать стиль. Без обучения это тоже будет работать, но хуже - потому что собственно модель не знает что такое "оператор службы поддержки" - отчасти она будет считать этим стилем те ответы, которые в файле уже есть, тогда ок.
Я согласен в целом с вашей аргументацией. А сегодня OpenAi выпустил на своем DevDay еще и обновление модели и поддержку RAG официально (хотя она там была и ранее). Но все же наше решение лучше минимум по тонкости настройки под клиента и установке в контур заказчика без утечек данных.
Можно ответить так: скорее средний бизнес будет выбирать качество и цену, а крупный - надежность. Далее, если нам удастся вырасти в клиентах, в медиа, репутации - то и крупный подтянется и перестанет бояться. Примеров этому много, и в ИТ индустрии, и в других
Мы тоже разрабатываем мультиагентный ИИ в связке с LLM
Думаем тоже в сторону песочницы, но только у нас агенты это не человечки или паравозики, а языковые модели, планировщики, составители датасетов - которые организуются в конечные бизнес-решения в цепочку
Телеграм - fractal_gpt
Нужен гибридный поиск, и векторная база и обычный поисковик bm25 - но потом нужно ранжировать результаты, чтобы понять какой же из них дал более правильные результаты
Посмотрите в сторону нашей библиотеки ExplainitAll
ExplainitAll — это библиотека для интерпретируемого ИИ, предназначенная для интерпретации генеративных моделей ( GPT-like), и векторизаторов, например, Sbert. Библиотека предоставляет пользователям инструменты для анализа и понимания работы этих сложных моделей. Кроме того, содержит модули RAG QA, fast_tuning и пользовательский интерфейс.
Мы сделали там чекер галлюцинаций. Плюс либу можно использовать как компонент RAG систем для оценки доверия ответу и чтобы система отказывалась давать ответ, если вопрос некорректен или ответа в тексте нет.
Вариантов улучшений масса - например мы провели много экспериментов по построению структуры текста, для того, чтобы на разных уровнях абстракции улавливать связи (документ, главы, разделы, абзацы, предложения) - это похоже на knowledge graph, только у нас он фрактальный из-за самоподобия, поэтому назвали Fractal answer synthesis.
Вообще в целом проблема глобальная - вариантов RAG систем сейчас если погуглить будет штук 15, с разными параметрами настроек под разные доменные области. Найти оптимальный вариант - это проводить десятки экспериментов и учить модели. А еще адаптировать поиск, тк по нашим наблюдениям более 70% качества это не LLM а эмбеддинги, поэтому глобально даже дорогущая GPT4 не поможет.
Один из вариантов - применять Ai агентов с многоагентной системой, чтобы агенты сами собирались оптимально под задачу.
Войны правок являются следствием того, что принципиально огромное количество информации не является проверяемым на момент написания статьи СМИ - то есть не соблюдается правило журналистики.
А есть еще научные проблемы: фейки в статьях, бред из Чатгпт в статьях и пр - которые вообще мало людей способны проверить.
В чем у нас спор - не вижу его. Просто Википедия изменится сильнее -в ней и так уже есть механизм когда разные версии событий изложены со ссылками. А можно это распространить и автоматизировать еще круче.
Условно читатель статьи в Вики имеет только лишь один шаг для аналитики - он идет по ссылке в другой материал. Но вот тот материал СМИ он уже не в состоянии проверить физически - нет времени и желания, есть куча сми о которых мы не знаем кто там владельцы, как они аффилированы с компаниями и пр - и почему у них есть причины врать по тому или иному поводу.
Можно внедрить систему, которая и сами источники Вики будет верифицировать - круто же
Статья от января.
Вообще идея прозрачности и подтверждаемости источников - давняя проблема. Чего стоят войны правок в Википедии.
Я даже похожую идею продукта высказывал и на ФБ делал пост что вот бы было круто если б был некий сервис который сразу бы к любой речи политика или эксперта делал в риал-тайм выжимку правду он говорит или нет со списком источников и перекрестным анализом надежности каждого.
Но тут нужна мат модель анализа достоверности, которая сама должна хорошо контролироваться, т.к. на ее основе будет получен ИИ, определяющий ложь или правда сказана в определенном культурном контексте - а это и есть главная проблема. Ведь в разных культурах недосказанность информации не является ложью
Да я б рад, но это месяц работы)
Есть наша работа в FractalGPT, есть статья на Хабре про Алгоритм фрактального синтеза - описано концептуально, без кода и важных деталей. В основном крутость этого подхода в том, что он универсален и скейлится как по тематикам, так и по сложности текста. Как следствие - в отличие от других подходов нарезки на чанки, поиска релевантных заголовков, реранкеров релевантных чанков и тп у нас подход не требует сильной кастомизации под конкретную доменную область, а в других подходах это нужно делать и возникает проблема типа "проклятия размерности" - есть 10 настроек у каждой 15 параметров, и есть 50 типов бизнеса и вам надо подобрать оптимальные настройки под каждый бизнес - типы вопросов, длина и структура ответов, что делать если юзер неполный вопрос задает и тп - комбинаторно придется перебирать сотни комбинаций и донастраивать векторный поиск.
Есть вот такой обзор:
Retrieval-Augmented Generation for Large Language Models: A Survey
https://arxiv.org/abs/2312.10997v1
Например, в курсе https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/ сооснователь Ламаиндекс - Jerry Liu Co-founder and CEO of LlamaIndex рассказывает про метод Auto-merging_Retrieval - который и является наивным, эвристическим подходом к проблеме разрозненной нарезки на чанки.
Собственно ауто-мерджинг это сборка маленьких чанков в большие с иерархией - ведь это и есть граф связей между ними. Это в их курсе в видео будет на 4й минуте: leaf node, intermidiate node, parent node
Это подход мы например попробовали одним из первых еще год назад(их курс новый), и потом докрутили. Очевидно, что описанный ими подход многократно можно улучшать, добавляя больше связей, более глубоких, сложных по структуре, что конечно же даст более высокое качество ответа и более гибкий реранкер - а значит под конечный бизнес легче заточить.
У нас как разработчиков часто спрашивают доказательства, что наш подход к RAG с помощью построения графа структуры текста лучше наивного RAG с разбиением на чанки.
В связи с этим просят бенчмарк - знаете ли вы датасет на русском для RAG, на котором можно было бы адекватно сравнить качество retrieval augmented generation систем, такой, чтобы в нем был баланс тематик по топикам и сложности (новости и конструкторская документация это разные по сложности тексты), типов вопросов, длин контекстов, типов ответов (инструкции, научные ответы, консультации и тп), ответов по типу разрозненности: ответ собирается из разных частей документа (а не находится в в одном абзаце), темпоральные (по времени происходящих событий), по жаргонности(юзеры задают вопрос а жаргоном, а система должна иметь векторный движок понимающий жаргон) ?
Цитата:
"SBS (Side-By-Side)
Результаты SBS (52%) GigaChat Pro [25.01.2024] vs ChatGPT [gpt-3.5-turbo-0613] (48%)"
преимущество не тотальное, а совсем небольшое, в 4%, и это обращу внимание сайд бай сайд SBS (Side-By-Side), то есть попарное сравнение, которое может быть конечно субъективным - потому что оценку делают люди.
НО: ничего лучше оценки людьми пока нет, можно конечно GPT4 использовать но тоже будут вопросы к этому.
Цитата из другой статьи Сбера:
"
У SBS есть минусы и поэтому мы дополняем его с помощью автоматических метрик — задач, ответы на которые можно проверить без участия людей. Такие метрики позволяют получать оценку модели очень быстро, а также оценивать Pretrain'ы, которые еще не научились следовать инструкциям.
"
Далее, сразу уберу критику что подгоняли под бенчмарки: в комментах С. Марков ответил что нет (не доверять нет оснований).
И все же в комментах ниже погладили против шерсти ? Естественно покидали плохие кейсы и попытались это обобщить чуть ли не до обвинения в лжи)) Типичная ошибка, обобщения нельзя делать - контрпримеры не опровергают бенчмарки, они и являются объективной метрикой. Конечно, очень важна гладкость качества - и она тоже есть, на диаграммах мы видим близкие цифры качества по разным категориям теста - если бы это было не так, а скажем категория ответов на вопросы была сильно лучше, а другие категории проседали - тогда да, можно было бы обвинить в подгонке результатов, и то смотря какая % разницы.
Итого: почему людям может не нравиться результат, и почему может быть иллюзия непаритетности по качеству. Я бы объяснил это тем, что бенчмарк все же не совсем полностью показывает широту и разнообразие кейсов, в которых люди тестируют обе модели - они берут кейсы более широкие, чем те, что в бенчмарке. А ведь помимо MMLU есть еще много других бенчмарков, в которых разница может быть уже видна. Есть эта разница или нет - мы не знаем, до тех пор, пока нет проверки на них. А это значит трудно сказать - является ли мнение "не обогнали" субъективным, выбросом из выборки, или оно является отражением кейсов, которые люди брали для сравнения - и если эти кейсы выходили за рамки MMLU то все равно в статье написана правда - там утверждается "получили более высокую оценку, чем ChatGPT (gpt-3.5-turbo-0613) на бенчмарке MMLU" и все, ничего про другие типы задач не говорится.
Думаю вы перепутали нашу разработку с Гигачатом - я лично не работаю в Сбере) Поэтому скриншот их продукта - это не к нам вопрос, это не наш продукт.
Нет, ту вашу задачу наш FractalMath не решит, так же как и квадратные уравнения, задачи на вероятности, лжецов-правдецов, колпаки, взвешивания и еще сотни задач на смекалку, шахматные этюды и тп. - потому, что мы не учили этому нашу систему.
Это вопрос-троллинг.
Ответ на него не имеет смысла в контексте нашего разговора. Не важно решит или нет - если решит вы скажете, что "вы решение заготовили заранее в коде", а если не решит - "ахаха чепуха у вас система, не решает мою задачу".
Поэтому вместо троллинг вопросов, которые на Хабре не приняты (это не Пикабу) лучше реально почитайте статью - будет интересно)
И да, мы сделали публичное демо, где любой может протестить, что заявленный функционал действительно работает.
Просьба прочитать статью по ссылке, там есть ответ на ваш вопрос, который типовой и очень частый.
1. Тестовые данные не "наши", а взяты из публичного датасета, составленного также не нами https://huggingface.co/datasets/ChilleD/MultiArith
2. В статье также приведены бенчмарки ChatGPT на этом же датасете, поэтому мы его и взяли, чтобы не зависимо сравнить и нас бы не могли обвинить в том, что мы подкрутили цифры у ChatGPT вниз - так вот по результатам исследований других команд разработчиков у Чатгпт либо 95 либо 97% точности (смотря какой промтинг используется)
3. В науке сравнение делается именно на тестовом датасете, именно эти цифры везде в научных статьях в таблицах (в том числе это публикации Хабра). Но вопрос сам по себе верный и правильный - мы не стали составлять сами датасет вне распределения (чтобы не сказали опять же "а что это вы тут составили, наверное черипикинг"), а сделали даже сильнее - опубликовали бота в Телеграм с это системой, где каждый человек может сам протестить наши заявления - как проверить по датасету, так и дать свои задачи, уж точно тогда вопросов не будет.
Этот тест провели конечно же и мы сами как разработчики, и также десятки тех кто прочитал статью - и работает довольно хорошо на задачах которые модель никогда не видела, точность понятное дело быть 100% уже не может, но она довольно высокая и стабильная, по нашим наблюдениям порядка 95-98%
Если вам кажется, что какое-то чудо в числе 100% то уверяю это не так, задачи ОЧЕНЬ простые, их дети 5 лет решают безошибочно стабильно, ну то есть тоже 100% решат. И вот "стабильно" ключевое слово
Попробуйте позадавать задачи 3го класса школы из этого датасета, видоизменяя в них имена, предметы, увеличив числа до сотен тысяч, введя повторные действия и увидите ужас))
А задачки ОЧЕНЬ простые, их дети 5 лет щелкают легко, но Чатгпт посыпется, и это прям удручает.
Более подробно в чем фишка можно почитать в статье или можно посмотреть видео Автономные AI агенты: тренды индустрии и почему промты не всесильны с ИИ конференции Ai Journey (Сбера кстати)
Я вас немного огорчу, мы сделали довольно интересную разработку FractalMath в которой сравнили мультиагентную систему с ChatGPT и обошли ее по качеству и самое главное по стабильности в решении задачек арифметик ризонинг - у нас 100% на тестовом датасете, у Чатгпт 97% (тоже неплохо, но у нас больше)
Вот тут можно подробно в статье почитать с разбором конкретных кейсов.
Чатгпт в любыми промтами тотально проигрывает агентному подходу, не стоит ее использовать для задач, требующих точности.
И самое главное - почему мы этот рисеч сделали: чтобы показать, что стабильности в решении задач математики добиться на LLM невозможно, и не важно сколько в ней параметров и какая цифра стоит после слов GPT, хоть GPT4 возьмите - она будет все равно плохо работать.
На самом деле идей с промтингом очень много и есть более 10 уже проектов, которые лучше по бенчмаркам самому очевидному - CoT - это например работа Promptbreeder - где предлагается использовать генетический алгоритм для отбора не только промтов, но и самого способа отбора промтов - что шаг к самоолучшению.
Есть еще работа Generative Agents: Interactive Simulacra of Human Behavior https://arxiv.org/abs/2304.03442 - к сожалению тоже все сделано на промтах, с точки зрения разработки тут не описано никакого эффекта, но вот что интересно у них в статье, это то что они дали график на котором видно с какого момента у системы возникают эмерджентные свойства - и там видно что скажем убирая память у агентов (там это человечки с ролями), убирая рефлексию, кооперацию и тп - как сильно падает их способность договориться друг с другом чтобы скажем созвать вечеринку в доме.
Без этих способностей там просто тотально начинаются галлюцинации и промты уже не помогают.
А в прошлом году была работа про Цицерона, правда она что-то не имела популярности - но там было прикольно что они, как заявляют, смогли поставить цели и понимание чужих целей агентам.
Если интересно есть вот такой наш доклад на ИИ конференции Ai Journey где я немного рассказал про наш подход к созданию агентов в рамках мультиагентной системы - у нас это показано на решении математических задач, и там результат получается 99.8% точность, то есть число правильных ответов, что недостижимо на LLM
Да, обучили свою модель, там несколько хаков есть, и в модели и в других местах. Но конечно не хочется их раскрывать - наверное небольшие компании не смогут это повторить, а вот большие, с кем мы и конкурируем могут попробовать, а нам бы этого не хотелось)
Ваш вопрос в целом об ответах по табличным данным - при этом не очень важно как они выражены, в виде разделителей как в csv, или визуальными границами как в docx.
Сейчас официально поддержки ответов по таблицам нет - эта фича может работать, но нестабильно, и лучше на простых таблицах, чем на сложных (с большим числом колонок, пустыми ячейками иногда и тп.)
В течение трех месяцев планируется выпуск VisualQA agent - и там ответ по таблицам будет, и не только.
По поддержке промтинга: вообще ваш кейс лучше работает если обучить свою модель, тогда модель будет понимать стиль.
Без обучения это тоже будет работать, но хуже - потому что собственно модель не знает что такое "оператор службы поддержки" - отчасти она будет считать этим стилем те ответы, которые в файле уже есть, тогда ок.
Я согласен в целом с вашей аргументацией.
А сегодня OpenAi выпустил на своем DevDay еще и обновление модели и поддержку RAG официально (хотя она там была и ранее).
Но все же наше решение лучше минимум по тонкости настройки под клиента и установке в контур заказчика без утечек данных.
Можно ответить так: скорее средний бизнес будет выбирать качество и цену, а крупный - надежность. Далее, если нам удастся вырасти в клиентах, в медиа, репутации - то и крупный подтянется и перестанет бояться.
Примеров этому много, и в ИТ индустрии, и в других
Это потому, что мы сидим в Телеграм в одном чате, мы там его и увидели)