Участвую. Правда у нас система уже решает вашу задачу, из коробки - называется FractalGPT (мы ИИ компания). Поэтому разрабатывать я ничего не буду)
Я прямо сейчас затестил на ГОСТах по ссылкам 2 вопроса ваших - оба отвечены правильно (досконально не проверял тк не спец в отрасли, но ваши параметры из правильных ответов есть ответе нашей системы). Если ее дообучить понимать другие модальности, таблицы, сокращения, аббревиатуры - то количество галлюцинаций можно свести к очень низкому проценту. Еще нужно добавить онтологии - у нас то же в этом есть опыт. Мы являемся разработчиками библиотеки ExplainitAll, которая позволяет контролировать галлюцинации LLM и давать оператору метрику "доверия" ответу - очень важно для критических отраслей.
Как вам написали уже в комментах, такие системы называются RAG, подробнее об этом можете почитать в нашей же статье на Хабре P.S. Конечно же мы хотим ваше первое место, но вообще мы не делаем пилоты бесплатно, суммы не совсем те, которые за такую работу хочется получить)
Мы тоже разрабатываем мультиагентный ИИ в связке с LLM Думаем тоже в сторону песочницы, но только у нас агенты это не человечки или паравозики, а языковые модели, планировщики, составители датасетов - которые организуются в конечные бизнес-решения в цепочку Телеграм - fractal_gpt
Нужен гибридный поиск, и векторная база и обычный поисковик bm25 - но потом нужно ранжировать результаты, чтобы понять какой же из них дал более правильные результаты
Посмотрите в сторону нашей библиотеки ExplainitAll ExplainitAll — это библиотека для интерпретируемого ИИ, предназначенная для интерпретации генеративных моделей ( GPT-like), и векторизаторов, например, Sbert. Библиотека предоставляет пользователям инструменты для анализа и понимания работы этих сложных моделей. Кроме того, содержит модули RAG QA, fast_tuning и пользовательский интерфейс.
Мы сделали там чекер галлюцинаций. Плюс либу можно использовать как компонент RAG систем для оценки доверия ответу и чтобы система отказывалась давать ответ, если вопрос некорректен или ответа в тексте нет.
Вариантов улучшений масса - например мы провели много экспериментов по построению структуры текста, для того, чтобы на разных уровнях абстракции улавливать связи (документ, главы, разделы, абзацы, предложения) - это похоже на knowledge graph, только у нас он фрактальный из-за самоподобия, поэтому назвали Fractal answer synthesis.
Вообще в целом проблема глобальная - вариантов RAG систем сейчас если погуглить будет штук 15, с разными параметрами настроек под разные доменные области. Найти оптимальный вариант - это проводить десятки экспериментов и учить модели. А еще адаптировать поиск, тк по нашим наблюдениям более 70% качества это не LLM а эмбеддинги, поэтому глобально даже дорогущая GPT4 не поможет. Один из вариантов - применять Ai агентов с многоагентной системой, чтобы агенты сами собирались оптимально под задачу.
Войны правок являются следствием того, что принципиально огромное количество информации не является проверяемым на момент написания статьи СМИ - то есть не соблюдается правило журналистики. А есть еще научные проблемы: фейки в статьях, бред из Чатгпт в статьях и пр - которые вообще мало людей способны проверить.
В чем у нас спор - не вижу его. Просто Википедия изменится сильнее -в ней и так уже есть механизм когда разные версии событий изложены со ссылками. А можно это распространить и автоматизировать еще круче. Условно читатель статьи в Вики имеет только лишь один шаг для аналитики - он идет по ссылке в другой материал. Но вот тот материал СМИ он уже не в состоянии проверить физически - нет времени и желания, есть куча сми о которых мы не знаем кто там владельцы, как они аффилированы с компаниями и пр - и почему у них есть причины врать по тому или иному поводу. Можно внедрить систему, которая и сами источники Вики будет верифицировать - круто же
Статья от января. Вообще идея прозрачности и подтверждаемости источников - давняя проблема. Чего стоят войны правок в Википедии. Я даже похожую идею продукта высказывал и на ФБ делал пост что вот бы было круто если б был некий сервис который сразу бы к любой речи политика или эксперта делал в риал-тайм выжимку правду он говорит или нет со списком источников и перекрестным анализом надежности каждого. Но тут нужна мат модель анализа достоверности, которая сама должна хорошо контролироваться, т.к. на ее основе будет получен ИИ, определяющий ложь или правда сказана в определенном культурном контексте - а это и есть главная проблема. Ведь в разных культурах недосказанность информации не является ложью
Есть наша работа в FractalGPT, есть статья на Хабре про Алгоритм фрактального синтеза - описано концептуально, без кода и важных деталей. В основном крутость этого подхода в том, что он универсален и скейлится как по тематикам, так и по сложности текста. Как следствие - в отличие от других подходов нарезки на чанки, поиска релевантных заголовков, реранкеров релевантных чанков и тп у нас подход не требует сильной кастомизации под конкретную доменную область, а в других подходах это нужно делать и возникает проблема типа "проклятия размерности" - есть 10 настроек у каждой 15 параметров, и есть 50 типов бизнеса и вам надо подобрать оптимальные настройки под каждый бизнес - типы вопросов, длина и структура ответов, что делать если юзер неполный вопрос задает и тп - комбинаторно придется перебирать сотни комбинаций и донастраивать векторный поиск.
Например, в курсе https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/ сооснователь Ламаиндекс - Jerry Liu Co-founder and CEO of LlamaIndex рассказывает про метод Auto-merging_Retrieval - который и является наивным, эвристическим подходом к проблеме разрозненной нарезки на чанки. Собственно ауто-мерджинг это сборка маленьких чанков в большие с иерархией - ведь это и есть граф связей между ними. Это в их курсе в видео будет на 4й минуте: leaf node, intermidiate node, parent node
Это подход мы например попробовали одним из первых еще год назад(их курс новый), и потом докрутили. Очевидно, что описанный ими подход многократно можно улучшать, добавляя больше связей, более глубоких, сложных по структуре, что конечно же даст более высокое качество ответа и более гибкий реранкер - а значит под конечный бизнес легче заточить.
У нас как разработчиков часто спрашивают доказательства, что наш подход к RAG с помощью построения графа структуры текста лучше наивного RAG с разбиением на чанки.
В связи с этим просят бенчмарк - знаете ли вы датасет на русском для RAG, на котором можно было бы адекватно сравнить качество retrieval augmented generation систем, такой, чтобы в нем был баланс тематик по топикам и сложности (новости и конструкторская документация это разные по сложности тексты), типов вопросов, длин контекстов, типов ответов (инструкции, научные ответы, консультации и тп), ответов по типу разрозненности: ответ собирается из разных частей документа (а не находится в в одном абзаце), темпоральные (по времени происходящих событий), по жаргонности(юзеры задают вопрос а жаргоном, а система должна иметь векторный движок понимающий жаргон) ?
"SBS (Side-By-Side) Результаты SBS (52%) GigaChat Pro [25.01.2024] vs ChatGPT [gpt-3.5-turbo-0613] (48%)"
преимущество не тотальное, а совсем небольшое, в 4%, и это обращу внимание сайд бай сайд SBS (Side-By-Side), то есть попарное сравнение, которое может быть конечно субъективным - потому что оценку делают люди. НО: ничего лучше оценки людьми пока нет, можно конечно GPT4 использовать но тоже будут вопросы к этому.
Цитата из другой статьи Сбера: " У SBS есть минусы и поэтому мы дополняем его с помощью автоматических метрик — задач, ответы на которые можно проверить без участия людей. Такие метрики позволяют получать оценку модели очень быстро, а также оценивать Pretrain'ы, которые еще не научились следовать инструкциям. "
Далее, сразу уберу критику что подгоняли под бенчмарки: в комментах С. Марков ответил что нет (не доверять нет оснований).
И все же в комментах ниже погладили против шерсти ? Естественно покидали плохие кейсы и попытались это обобщить чуть ли не до обвинения в лжи)) Типичная ошибка, обобщения нельзя делать - контрпримеры не опровергают бенчмарки, они и являются объективной метрикой. Конечно, очень важна гладкость качества - и она тоже есть, на диаграммах мы видим близкие цифры качества по разным категориям теста - если бы это было не так, а скажем категория ответов на вопросы была сильно лучше, а другие категории проседали - тогда да, можно было бы обвинить в подгонке результатов, и то смотря какая % разницы.
Итого: почему людям может не нравиться результат, и почему может быть иллюзия непаритетности по качеству. Я бы объяснил это тем, что бенчмарк все же не совсем полностью показывает широту и разнообразие кейсов, в которых люди тестируют обе модели - они берут кейсы более широкие, чем те, что в бенчмарке. А ведь помимо MMLU есть еще много других бенчмарков, в которых разница может быть уже видна. Есть эта разница или нет - мы не знаем, до тех пор, пока нет проверки на них. А это значит трудно сказать - является ли мнение "не обогнали" субъективным, выбросом из выборки, или оно является отражением кейсов, которые люди брали для сравнения - и если эти кейсы выходили за рамки MMLU то все равно в статье написана правда - там утверждается "получили более высокую оценку, чем ChatGPT (gpt-3.5-turbo-0613) на бенчмарке MMLU" и все, ничего про другие типы задач не говорится.
Думаю вы перепутали нашу разработку с Гигачатом - я лично не работаю в Сбере) Поэтому скриншот их продукта - это не к нам вопрос, это не наш продукт. Нет, ту вашу задачу наш FractalMath не решит, так же как и квадратные уравнения, задачи на вероятности, лжецов-правдецов, колпаки, взвешивания и еще сотни задач на смекалку, шахматные этюды и тп. - потому, что мы не учили этому нашу систему.
Это вопрос-троллинг. Ответ на него не имеет смысла в контексте нашего разговора. Не важно решит или нет - если решит вы скажете, что "вы решение заготовили заранее в коде", а если не решит - "ахаха чепуха у вас система, не решает мою задачу". Поэтому вместо троллинг вопросов, которые на Хабре не приняты (это не Пикабу) лучше реально почитайте статью - будет интересно) И да, мы сделали публичное демо, где любой может протестить, что заявленный функционал действительно работает.
Просьба прочитать статью по ссылке, там есть ответ на ваш вопрос, который типовой и очень частый.
1. Тестовые данные не "наши", а взяты из публичного датасета, составленного также не нами https://huggingface.co/datasets/ChilleD/MultiArith 2. В статье также приведены бенчмарки ChatGPT на этом же датасете, поэтому мы его и взяли, чтобы не зависимо сравнить и нас бы не могли обвинить в том, что мы подкрутили цифры у ChatGPT вниз - так вот по результатам исследований других команд разработчиков у Чатгпт либо 95 либо 97% точности (смотря какой промтинг используется) 3. В науке сравнение делается именно на тестовом датасете, именно эти цифры везде в научных статьях в таблицах (в том числе это публикации Хабра). Но вопрос сам по себе верный и правильный - мы не стали составлять сами датасет вне распределения (чтобы не сказали опять же "а что это вы тут составили, наверное черипикинг"), а сделали даже сильнее - опубликовали бота в Телеграм с это системой, где каждый человек может сам протестить наши заявления - как проверить по датасету, так и дать свои задачи, уж точно тогда вопросов не будет. Этот тест провели конечно же и мы сами как разработчики, и также десятки тех кто прочитал статью - и работает довольно хорошо на задачах которые модель никогда не видела, точность понятное дело быть 100% уже не может, но она довольно высокая и стабильная, по нашим наблюдениям порядка 95-98%
Если вам кажется, что какое-то чудо в числе 100% то уверяю это не так, задачи ОЧЕНЬ простые, их дети 5 лет решают безошибочно стабильно, ну то есть тоже 100% решат. И вот "стабильно" ключевое слово
Попробуйте позадавать задачи 3го класса школы из этого датасета, видоизменяя в них имена, предметы, увеличив числа до сотен тысяч, введя повторные действия и увидите ужас)) А задачки ОЧЕНЬ простые, их дети 5 лет щелкают легко, но Чатгпт посыпется, и это прям удручает.
Я вас немного огорчу, мы сделали довольно интересную разработку FractalMath в которой сравнили мультиагентную систему с ChatGPT и обошли ее по качеству и самое главное по стабильности в решении задачек арифметик ризонинг - у нас 100% на тестовом датасете, у Чатгпт 97% (тоже неплохо, но у нас больше) Вот тут можно подробно в статье почитать с разбором конкретных кейсов.
Чатгпт в любыми промтами тотально проигрывает агентному подходу, не стоит ее использовать для задач, требующих точности. И самое главное - почему мы этот рисеч сделали: чтобы показать, что стабильности в решении задач математики добиться на LLM невозможно, и не важно сколько в ней параметров и какая цифра стоит после слов GPT, хоть GPT4 возьмите - она будет все равно плохо работать.
На самом деле идей с промтингом очень много и есть более 10 уже проектов, которые лучше по бенчмаркам самому очевидному - CoT - это например работа Promptbreeder - где предлагается использовать генетический алгоритм для отбора не только промтов, но и самого способа отбора промтов - что шаг к самоолучшению.
Есть еще работа Generative Agents: Interactive Simulacra of Human Behavior https://arxiv.org/abs/2304.03442 - к сожалению тоже все сделано на промтах, с точки зрения разработки тут не описано никакого эффекта, но вот что интересно у них в статье, это то что они дали график на котором видно с какого момента у системы возникают эмерджентные свойства - и там видно что скажем убирая память у агентов (там это человечки с ролями), убирая рефлексию, кооперацию и тп - как сильно падает их способность договориться друг с другом чтобы скажем созвать вечеринку в доме. Без этих способностей там просто тотально начинаются галлюцинации и промты уже не помогают.
А в прошлом году была работа про Цицерона, правда она что-то не имела популярности - но там было прикольно что они, как заявляют, смогли поставить цели и понимание чужих целей агентам.
Если интересно есть вот такой наш доклад на ИИ конференции Ai Journey где я немного рассказал про наш подход к созданию агентов в рамках мультиагентной системы - у нас это показано на решении математических задач, и там результат получается 99.8% точность, то есть число правильных ответов, что недостижимо на LLM
Да, обучили свою модель, там несколько хаков есть, и в модели и в других местах. Но конечно не хочется их раскрывать - наверное небольшие компании не смогут это повторить, а вот большие, с кем мы и конкурируем могут попробовать, а нам бы этого не хотелось)
Ваш вопрос в целом об ответах по табличным данным - при этом не очень важно как они выражены, в виде разделителей как в csv, или визуальными границами как в docx.
Сейчас официально поддержки ответов по таблицам нет - эта фича может работать, но нестабильно, и лучше на простых таблицах, чем на сложных (с большим числом колонок, пустыми ячейками иногда и тп.) В течение трех месяцев планируется выпуск VisualQA agent - и там ответ по таблицам будет, и не только.
По поддержке промтинга: вообще ваш кейс лучше работает если обучить свою модель, тогда модель будет понимать стиль. Без обучения это тоже будет работать, но хуже - потому что собственно модель не знает что такое "оператор службы поддержки" - отчасти она будет считать этим стилем те ответы, которые в файле уже есть, тогда ок.
Я согласен в целом с вашей аргументацией. А сегодня OpenAi выпустил на своем DevDay еще и обновление модели и поддержку RAG официально (хотя она там была и ранее). Но все же наше решение лучше минимум по тонкости настройки под клиента и установке в контур заказчика без утечек данных.
Можно ответить так: скорее средний бизнес будет выбирать качество и цену, а крупный - надежность. Далее, если нам удастся вырасти в клиентах, в медиа, репутации - то и крупный подтянется и перестанет бояться. Примеров этому много, и в ИТ индустрии, и в других
Участвую.
Правда у нас система уже решает вашу задачу, из коробки - называется FractalGPT (мы ИИ компания). Поэтому разрабатывать я ничего не буду)
Я прямо сейчас затестил на ГОСТах по ссылкам 2 вопроса ваших - оба отвечены правильно (досконально не проверял тк не спец в отрасли, но ваши параметры из правильных ответов есть ответе нашей системы).
Если ее дообучить понимать другие модальности, таблицы, сокращения, аббревиатуры - то количество галлюцинаций можно свести к очень низкому проценту. Еще нужно добавить онтологии - у нас то же в этом есть опыт.
Мы являемся разработчиками библиотеки ExplainitAll, которая позволяет контролировать галлюцинации LLM и давать оператору метрику "доверия" ответу - очень важно для критических отраслей.
Как вам написали уже в комментах, такие системы называются RAG, подробнее об этом можете почитать в нашей же статье на Хабре
P.S. Конечно же мы хотим ваше первое место, но вообще мы не делаем пилоты бесплатно, суммы не совсем те, которые за такую работу хочется получить)
Мы тоже разрабатываем мультиагентный ИИ в связке с LLM
Думаем тоже в сторону песочницы, но только у нас агенты это не человечки или паравозики, а языковые модели, планировщики, составители датасетов - которые организуются в конечные бизнес-решения в цепочку
Телеграм - fractal_gpt
Нужен гибридный поиск, и векторная база и обычный поисковик bm25 - но потом нужно ранжировать результаты, чтобы понять какой же из них дал более правильные результаты
Посмотрите в сторону нашей библиотеки ExplainitAll
ExplainitAll — это библиотека для интерпретируемого ИИ, предназначенная для интерпретации генеративных моделей ( GPT-like), и векторизаторов, например, Sbert. Библиотека предоставляет пользователям инструменты для анализа и понимания работы этих сложных моделей. Кроме того, содержит модули RAG QA, fast_tuning и пользовательский интерфейс.
Мы сделали там чекер галлюцинаций. Плюс либу можно использовать как компонент RAG систем для оценки доверия ответу и чтобы система отказывалась давать ответ, если вопрос некорректен или ответа в тексте нет.
Вариантов улучшений масса - например мы провели много экспериментов по построению структуры текста, для того, чтобы на разных уровнях абстракции улавливать связи (документ, главы, разделы, абзацы, предложения) - это похоже на knowledge graph, только у нас он фрактальный из-за самоподобия, поэтому назвали Fractal answer synthesis.
Вообще в целом проблема глобальная - вариантов RAG систем сейчас если погуглить будет штук 15, с разными параметрами настроек под разные доменные области. Найти оптимальный вариант - это проводить десятки экспериментов и учить модели. А еще адаптировать поиск, тк по нашим наблюдениям более 70% качества это не LLM а эмбеддинги, поэтому глобально даже дорогущая GPT4 не поможет.
Один из вариантов - применять Ai агентов с многоагентной системой, чтобы агенты сами собирались оптимально под задачу.
Войны правок являются следствием того, что принципиально огромное количество информации не является проверяемым на момент написания статьи СМИ - то есть не соблюдается правило журналистики.
А есть еще научные проблемы: фейки в статьях, бред из Чатгпт в статьях и пр - которые вообще мало людей способны проверить.
В чем у нас спор - не вижу его. Просто Википедия изменится сильнее -в ней и так уже есть механизм когда разные версии событий изложены со ссылками. А можно это распространить и автоматизировать еще круче.
Условно читатель статьи в Вики имеет только лишь один шаг для аналитики - он идет по ссылке в другой материал. Но вот тот материал СМИ он уже не в состоянии проверить физически - нет времени и желания, есть куча сми о которых мы не знаем кто там владельцы, как они аффилированы с компаниями и пр - и почему у них есть причины врать по тому или иному поводу.
Можно внедрить систему, которая и сами источники Вики будет верифицировать - круто же
Статья от января.
Вообще идея прозрачности и подтверждаемости источников - давняя проблема. Чего стоят войны правок в Википедии.
Я даже похожую идею продукта высказывал и на ФБ делал пост что вот бы было круто если б был некий сервис который сразу бы к любой речи политика или эксперта делал в риал-тайм выжимку правду он говорит или нет со списком источников и перекрестным анализом надежности каждого.
Но тут нужна мат модель анализа достоверности, которая сама должна хорошо контролироваться, т.к. на ее основе будет получен ИИ, определяющий ложь или правда сказана в определенном культурном контексте - а это и есть главная проблема. Ведь в разных культурах недосказанность информации не является ложью
Да я б рад, но это месяц работы)
Есть наша работа в FractalGPT, есть статья на Хабре про Алгоритм фрактального синтеза - описано концептуально, без кода и важных деталей. В основном крутость этого подхода в том, что он универсален и скейлится как по тематикам, так и по сложности текста. Как следствие - в отличие от других подходов нарезки на чанки, поиска релевантных заголовков, реранкеров релевантных чанков и тп у нас подход не требует сильной кастомизации под конкретную доменную область, а в других подходах это нужно делать и возникает проблема типа "проклятия размерности" - есть 10 настроек у каждой 15 параметров, и есть 50 типов бизнеса и вам надо подобрать оптимальные настройки под каждый бизнес - типы вопросов, длина и структура ответов, что делать если юзер неполный вопрос задает и тп - комбинаторно придется перебирать сотни комбинаций и донастраивать векторный поиск.
Есть вот такой обзор:
Retrieval-Augmented Generation for Large Language Models: A Survey
https://arxiv.org/abs/2312.10997v1
Например, в курсе https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/ сооснователь Ламаиндекс - Jerry Liu Co-founder and CEO of LlamaIndex рассказывает про метод Auto-merging_Retrieval - который и является наивным, эвристическим подходом к проблеме разрозненной нарезки на чанки.
Собственно ауто-мерджинг это сборка маленьких чанков в большие с иерархией - ведь это и есть граф связей между ними. Это в их курсе в видео будет на 4й минуте: leaf node, intermidiate node, parent node
Это подход мы например попробовали одним из первых еще год назад(их курс новый), и потом докрутили. Очевидно, что описанный ими подход многократно можно улучшать, добавляя больше связей, более глубоких, сложных по структуре, что конечно же даст более высокое качество ответа и более гибкий реранкер - а значит под конечный бизнес легче заточить.
У нас как разработчиков часто спрашивают доказательства, что наш подход к RAG с помощью построения графа структуры текста лучше наивного RAG с разбиением на чанки.
В связи с этим просят бенчмарк - знаете ли вы датасет на русском для RAG, на котором можно было бы адекватно сравнить качество retrieval augmented generation систем, такой, чтобы в нем был баланс тематик по топикам и сложности (новости и конструкторская документация это разные по сложности тексты), типов вопросов, длин контекстов, типов ответов (инструкции, научные ответы, консультации и тп), ответов по типу разрозненности: ответ собирается из разных частей документа (а не находится в в одном абзаце), темпоральные (по времени происходящих событий), по жаргонности(юзеры задают вопрос а жаргоном, а система должна иметь векторный движок понимающий жаргон) ?
Цитата:
"SBS (Side-By-Side)
Результаты SBS (52%) GigaChat Pro [25.01.2024] vs ChatGPT [gpt-3.5-turbo-0613] (48%)"
преимущество не тотальное, а совсем небольшое, в 4%, и это обращу внимание сайд бай сайд SBS (Side-By-Side), то есть попарное сравнение, которое может быть конечно субъективным - потому что оценку делают люди.
НО: ничего лучше оценки людьми пока нет, можно конечно GPT4 использовать но тоже будут вопросы к этому.
Цитата из другой статьи Сбера:
"
У SBS есть минусы и поэтому мы дополняем его с помощью автоматических метрик — задач, ответы на которые можно проверить без участия людей. Такие метрики позволяют получать оценку модели очень быстро, а также оценивать Pretrain'ы, которые еще не научились следовать инструкциям.
"
Далее, сразу уберу критику что подгоняли под бенчмарки: в комментах С. Марков ответил что нет (не доверять нет оснований).
И все же в комментах ниже погладили против шерсти ? Естественно покидали плохие кейсы и попытались это обобщить чуть ли не до обвинения в лжи)) Типичная ошибка, обобщения нельзя делать - контрпримеры не опровергают бенчмарки, они и являются объективной метрикой. Конечно, очень важна гладкость качества - и она тоже есть, на диаграммах мы видим близкие цифры качества по разным категориям теста - если бы это было не так, а скажем категория ответов на вопросы была сильно лучше, а другие категории проседали - тогда да, можно было бы обвинить в подгонке результатов, и то смотря какая % разницы.
Итого: почему людям может не нравиться результат, и почему может быть иллюзия непаритетности по качеству. Я бы объяснил это тем, что бенчмарк все же не совсем полностью показывает широту и разнообразие кейсов, в которых люди тестируют обе модели - они берут кейсы более широкие, чем те, что в бенчмарке. А ведь помимо MMLU есть еще много других бенчмарков, в которых разница может быть уже видна. Есть эта разница или нет - мы не знаем, до тех пор, пока нет проверки на них. А это значит трудно сказать - является ли мнение "не обогнали" субъективным, выбросом из выборки, или оно является отражением кейсов, которые люди брали для сравнения - и если эти кейсы выходили за рамки MMLU то все равно в статье написана правда - там утверждается "получили более высокую оценку, чем ChatGPT (gpt-3.5-turbo-0613) на бенчмарке MMLU" и все, ничего про другие типы задач не говорится.
Думаю вы перепутали нашу разработку с Гигачатом - я лично не работаю в Сбере) Поэтому скриншот их продукта - это не к нам вопрос, это не наш продукт.
Нет, ту вашу задачу наш FractalMath не решит, так же как и квадратные уравнения, задачи на вероятности, лжецов-правдецов, колпаки, взвешивания и еще сотни задач на смекалку, шахматные этюды и тп. - потому, что мы не учили этому нашу систему.
Это вопрос-троллинг.
Ответ на него не имеет смысла в контексте нашего разговора. Не важно решит или нет - если решит вы скажете, что "вы решение заготовили заранее в коде", а если не решит - "ахаха чепуха у вас система, не решает мою задачу".
Поэтому вместо троллинг вопросов, которые на Хабре не приняты (это не Пикабу) лучше реально почитайте статью - будет интересно)
И да, мы сделали публичное демо, где любой может протестить, что заявленный функционал действительно работает.
Просьба прочитать статью по ссылке, там есть ответ на ваш вопрос, который типовой и очень частый.
1. Тестовые данные не "наши", а взяты из публичного датасета, составленного также не нами https://huggingface.co/datasets/ChilleD/MultiArith
2. В статье также приведены бенчмарки ChatGPT на этом же датасете, поэтому мы его и взяли, чтобы не зависимо сравнить и нас бы не могли обвинить в том, что мы подкрутили цифры у ChatGPT вниз - так вот по результатам исследований других команд разработчиков у Чатгпт либо 95 либо 97% точности (смотря какой промтинг используется)
3. В науке сравнение делается именно на тестовом датасете, именно эти цифры везде в научных статьях в таблицах (в том числе это публикации Хабра). Но вопрос сам по себе верный и правильный - мы не стали составлять сами датасет вне распределения (чтобы не сказали опять же "а что это вы тут составили, наверное черипикинг"), а сделали даже сильнее - опубликовали бота в Телеграм с это системой, где каждый человек может сам протестить наши заявления - как проверить по датасету, так и дать свои задачи, уж точно тогда вопросов не будет.
Этот тест провели конечно же и мы сами как разработчики, и также десятки тех кто прочитал статью - и работает довольно хорошо на задачах которые модель никогда не видела, точность понятное дело быть 100% уже не может, но она довольно высокая и стабильная, по нашим наблюдениям порядка 95-98%
Если вам кажется, что какое-то чудо в числе 100% то уверяю это не так, задачи ОЧЕНЬ простые, их дети 5 лет решают безошибочно стабильно, ну то есть тоже 100% решат. И вот "стабильно" ключевое слово
Попробуйте позадавать задачи 3го класса школы из этого датасета, видоизменяя в них имена, предметы, увеличив числа до сотен тысяч, введя повторные действия и увидите ужас))
А задачки ОЧЕНЬ простые, их дети 5 лет щелкают легко, но Чатгпт посыпется, и это прям удручает.
Более подробно в чем фишка можно почитать в статье или можно посмотреть видео Автономные AI агенты: тренды индустрии и почему промты не всесильны с ИИ конференции Ai Journey (Сбера кстати)
Я вас немного огорчу, мы сделали довольно интересную разработку FractalMath в которой сравнили мультиагентную систему с ChatGPT и обошли ее по качеству и самое главное по стабильности в решении задачек арифметик ризонинг - у нас 100% на тестовом датасете, у Чатгпт 97% (тоже неплохо, но у нас больше)
Вот тут можно подробно в статье почитать с разбором конкретных кейсов.
Чатгпт в любыми промтами тотально проигрывает агентному подходу, не стоит ее использовать для задач, требующих точности.
И самое главное - почему мы этот рисеч сделали: чтобы показать, что стабильности в решении задач математики добиться на LLM невозможно, и не важно сколько в ней параметров и какая цифра стоит после слов GPT, хоть GPT4 возьмите - она будет все равно плохо работать.
На самом деле идей с промтингом очень много и есть более 10 уже проектов, которые лучше по бенчмаркам самому очевидному - CoT - это например работа Promptbreeder - где предлагается использовать генетический алгоритм для отбора не только промтов, но и самого способа отбора промтов - что шаг к самоолучшению.
Есть еще работа Generative Agents: Interactive Simulacra of Human Behavior https://arxiv.org/abs/2304.03442 - к сожалению тоже все сделано на промтах, с точки зрения разработки тут не описано никакого эффекта, но вот что интересно у них в статье, это то что они дали график на котором видно с какого момента у системы возникают эмерджентные свойства - и там видно что скажем убирая память у агентов (там это человечки с ролями), убирая рефлексию, кооперацию и тп - как сильно падает их способность договориться друг с другом чтобы скажем созвать вечеринку в доме.
Без этих способностей там просто тотально начинаются галлюцинации и промты уже не помогают.
А в прошлом году была работа про Цицерона, правда она что-то не имела популярности - но там было прикольно что они, как заявляют, смогли поставить цели и понимание чужих целей агентам.
Если интересно есть вот такой наш доклад на ИИ конференции Ai Journey где я немного рассказал про наш подход к созданию агентов в рамках мультиагентной системы - у нас это показано на решении математических задач, и там результат получается 99.8% точность, то есть число правильных ответов, что недостижимо на LLM
Да, обучили свою модель, там несколько хаков есть, и в модели и в других местах. Но конечно не хочется их раскрывать - наверное небольшие компании не смогут это повторить, а вот большие, с кем мы и конкурируем могут попробовать, а нам бы этого не хотелось)
Ваш вопрос в целом об ответах по табличным данным - при этом не очень важно как они выражены, в виде разделителей как в csv, или визуальными границами как в docx.
Сейчас официально поддержки ответов по таблицам нет - эта фича может работать, но нестабильно, и лучше на простых таблицах, чем на сложных (с большим числом колонок, пустыми ячейками иногда и тп.)
В течение трех месяцев планируется выпуск VisualQA agent - и там ответ по таблицам будет, и не только.
По поддержке промтинга: вообще ваш кейс лучше работает если обучить свою модель, тогда модель будет понимать стиль.
Без обучения это тоже будет работать, но хуже - потому что собственно модель не знает что такое "оператор службы поддержки" - отчасти она будет считать этим стилем те ответы, которые в файле уже есть, тогда ок.
Я согласен в целом с вашей аргументацией.
А сегодня OpenAi выпустил на своем DevDay еще и обновление модели и поддержку RAG официально (хотя она там была и ранее).
Но все же наше решение лучше минимум по тонкости настройки под клиента и установке в контур заказчика без утечек данных.
Можно ответить так: скорее средний бизнес будет выбирать качество и цену, а крупный - надежность. Далее, если нам удастся вырасти в клиентах, в медиа, репутации - то и крупный подтянется и перестанет бояться.
Примеров этому много, и в ИТ индустрии, и в других