Pull to refresh
9
0

Ai, Data-science

Send message

Войны правок являются следствием того, что принципиально огромное количество информации не является проверяемым на момент написания статьи СМИ - то есть не соблюдается правило журналистики.
А есть еще научные проблемы: фейки в статьях, бред из Чатгпт в статьях и пр - которые вообще мало людей способны проверить.

В чем у нас спор - не вижу его. Просто Википедия изменится сильнее -в ней и так уже есть механизм когда разные версии событий изложены со ссылками. А можно это распространить и автоматизировать еще круче.
Условно читатель статьи в Вики имеет только лишь один шаг для аналитики - он идет по ссылке в другой материал. Но вот тот материал СМИ он уже не в состоянии проверить физически - нет времени и желания, есть куча сми о которых мы не знаем кто там владельцы, как они аффилированы с компаниями и пр - и почему у них есть причины врать по тому или иному поводу.
Можно внедрить систему, которая и сами источники Вики будет верифицировать - круто же

Статья от января.
Вообще идея прозрачности и подтверждаемости источников - давняя проблема. Чего стоят войны правок в Википедии.
Я даже похожую идею продукта высказывал и на ФБ делал пост что вот бы было круто если б был некий сервис который сразу бы к любой речи политика или эксперта делал в риал-тайм выжимку правду он говорит или нет со списком источников и перекрестным анализом надежности каждого.
Но тут нужна мат модель анализа достоверности, которая сама должна хорошо контролироваться, т.к. на ее основе будет получен ИИ, определяющий ложь или правда сказана в определенном культурном контексте - а это и есть главная проблема. Ведь в разных культурах недосказанность информации не является ложью

Да я б рад, но это месяц работы)

Есть наша работа в FractalGPT, есть статья на Хабре про Алгоритм фрактального синтеза - описано концептуально, без кода и важных деталей. В основном крутость этого подхода в том, что он универсален и скейлится как по тематикам, так и по сложности текста. Как следствие - в отличие от других подходов нарезки на чанки, поиска релевантных заголовков, реранкеров релевантных чанков и тп у нас подход не требует сильной кастомизации под конкретную доменную область, а в других подходах это нужно делать и возникает проблема типа "проклятия размерности" - есть 10 настроек у каждой 15 параметров, и есть 50 типов бизнеса и вам надо подобрать оптимальные настройки под каждый бизнес - типы вопросов, длина и структура ответов, что делать если юзер неполный вопрос задает и тп - комбинаторно придется перебирать сотни комбинаций и донастраивать векторный поиск.

Есть вот такой обзор:
Retrieval-Augmented Generation for Large Language Models: A Survey
https://arxiv.org/abs/2312.10997v1

Например, в курсе https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/ сооснователь Ламаиндекс - Jerry Liu Co-founder and CEO of LlamaIndex рассказывает про метод Auto-merging_Retrieval - который и является наивным, эвристическим подходом к проблеме разрозненной нарезки на чанки.
Собственно ауто-мерджинг это сборка маленьких чанков в большие с иерархией - ведь это и есть граф связей между ними. Это в их курсе в видео будет на 4й минуте: leaf node, intermidiate node, parent node

Это подход мы например попробовали одним из первых еще год назад(их курс новый), и потом докрутили. Очевидно, что описанный ими подход многократно можно улучшать, добавляя больше связей, более глубоких, сложных по структуре, что конечно же даст более высокое качество ответа и более гибкий реранкер - а значит под конечный бизнес легче заточить.

У нас как разработчиков часто спрашивают доказательства, что наш подход к RAG с помощью построения графа структуры текста лучше наивного RAG с разбиением на чанки.

В связи с этим просят бенчмарк - знаете ли вы датасет на русском для RAG, на котором можно было бы адекватно сравнить качество retrieval augmented generation систем, такой, чтобы в нем был баланс тематик по топикам и сложности (новости и конструкторская документация это разные по сложности тексты), типов вопросов, длин контекстов, типов ответов (инструкции, научные ответы, консультации и тп), ответов по типу разрозненности: ответ собирается из разных частей документа (а не находится в в одном абзаце), темпоральные (по времени происходящих событий), по жаргонности(юзеры задают вопрос а жаргоном, а система должна иметь векторный движок понимающий жаргон) ?

Цитата:

"SBS (Side-By-Side)
Результаты SBS (52%) GigaChat Pro [25.01.2024] vs ChatGPT [gpt-3.5-turbo-0613] (48%)"

преимущество не тотальное, а совсем небольшое, в 4%, и это обращу внимание сайд бай сайд SBS (Side-By-Side), то есть попарное сравнение, которое может быть конечно субъективным - потому что оценку делают люди.
НО: ничего лучше оценки людьми пока нет, можно конечно GPT4 использовать но тоже будут вопросы к этому.

Цитата из другой статьи Сбера:
"
У SBS есть минусы и поэтому мы дополняем его с помощью автоматических метрик — задач, ответы на которые можно проверить без участия людей. Такие метрики позволяют получать оценку модели очень быстро, а также оценивать Pretrain'ы, которые еще не научились следовать инструкциям.
"

Далее, сразу уберу критику что подгоняли под бенчмарки: в комментах С. Марков ответил что нет (не доверять нет оснований).

И все же в комментах ниже погладили против шерсти 😂 Естественно покидали плохие кейсы и попытались это обобщить чуть ли не до обвинения в лжи)) Типичная ошибка, обобщения нельзя делать - контрпримеры не опровергают бенчмарки, они и являются объективной метрикой. Конечно, очень важна гладкость качества - и она тоже есть, на диаграммах мы видим близкие цифры качества по разным категориям теста - если бы это было не так, а скажем категория ответов на вопросы была сильно лучше, а другие категории проседали - тогда да, можно было бы обвинить в подгонке результатов, и то смотря какая % разницы.

Итого: почему людям может не нравиться результат, и почему может быть иллюзия непаритетности по качеству. Я бы объяснил это тем, что бенчмарк все же не совсем полностью показывает широту и разнообразие кейсов, в которых люди тестируют обе модели - они берут кейсы более широкие, чем те, что в бенчмарке. А ведь помимо MMLU есть еще много других бенчмарков, в которых разница может быть уже видна. Есть эта разница или нет - мы не знаем, до тех пор, пока нет проверки на них. А это значит трудно сказать - является ли мнение "не обогнали" субъективным, выбросом из выборки, или оно является отражением кейсов, которые люди брали для сравнения - и если эти кейсы выходили за рамки MMLU то все равно в статье написана правда - там утверждается "получили более высокую оценку, чем ChatGPT (gpt-3.5-turbo-0613) на бенчмарке MMLU" и все, ничего про другие типы задач не говорится.

Думаю вы перепутали нашу разработку с Гигачатом - я лично не работаю в Сбере) Поэтому скриншот их продукта - это не к нам вопрос, это не наш продукт.
Нет, ту вашу задачу наш FractalMath не решит, так же как и квадратные уравнения, задачи на вероятности, лжецов-правдецов, колпаки, взвешивания и еще сотни задач на смекалку, шахматные этюды и тп. - потому, что мы не учили этому нашу систему.

Это вопрос-троллинг.
Ответ на него не имеет смысла в контексте нашего разговора. Не важно решит или нет - если решит вы скажете, что "вы решение заготовили заранее в коде", а если не решит - "ахаха чепуха у вас система, не решает мою задачу".
Поэтому вместо троллинг вопросов, которые на Хабре не приняты (это не Пикабу) лучше реально почитайте статью - будет интересно)
И да, мы сделали публичное демо, где любой может протестить, что заявленный функционал действительно работает.

Просьба прочитать статью по ссылке, там есть ответ на ваш вопрос, который типовой и очень частый.

1. Тестовые данные не "наши", а взяты из публичного датасета, составленного также не нами https://huggingface.co/datasets/ChilleD/MultiArith
2. В статье также приведены бенчмарки ChatGPT на этом же датасете, поэтому мы его и взяли, чтобы не зависимо сравнить и нас бы не могли обвинить в том, что мы подкрутили цифры у ChatGPT вниз - так вот по результатам исследований других команд разработчиков у Чатгпт либо 95 либо 97% точности (смотря какой промтинг используется)
3. В науке сравнение делается именно на тестовом датасете, именно эти цифры везде в научных статьях в таблицах (в том числе это публикации Хабра). Но вопрос сам по себе верный и правильный - мы не стали составлять сами датасет вне распределения (чтобы не сказали опять же "а что это вы тут составили, наверное черипикинг"), а сделали даже сильнее - опубликовали бота в Телеграм с это системой, где каждый человек может сам протестить наши заявления - как проверить по датасету, так и дать свои задачи, уж точно тогда вопросов не будет.
Этот тест провели конечно же и мы сами как разработчики, и также десятки тех кто прочитал статью - и работает довольно хорошо на задачах которые модель никогда не видела, точность понятное дело быть 100% уже не может, но она довольно высокая и стабильная, по нашим наблюдениям порядка 95-98%

Если вам кажется, что какое-то чудо в числе 100% то уверяю это не так, задачи ОЧЕНЬ простые, их дети 5 лет решают безошибочно стабильно, ну то есть тоже 100% решат. И вот "стабильно" ключевое слово

Попробуйте позадавать задачи 3го класса школы из этого датасета, видоизменяя в них имена, предметы, увеличив числа до сотен тысяч, введя повторные действия и увидите ужас))
А задачки ОЧЕНЬ простые, их дети 5 лет щелкают легко, но Чатгпт посыпется, и это прям удручает.

Более подробно в чем фишка можно почитать в статье или можно посмотреть видео Автономные AI агенты: тренды индустрии и почему промты не всесильны с ИИ конференции Ai Journey (Сбера кстати)

Я вас немного огорчу, мы сделали довольно интересную разработку FractalMath в которой сравнили мультиагентную систему с ChatGPT и обошли ее по качеству и самое главное по стабильности в решении задачек арифметик ризонинг - у нас 100% на тестовом датасете, у Чатгпт 97% (тоже неплохо, но у нас больше)
Вот тут можно подробно в статье почитать с разбором конкретных кейсов.

Чатгпт в любыми промтами тотально проигрывает агентному подходу, не стоит ее использовать для задач, требующих точности.
И самое главное - почему мы этот рисеч сделали: чтобы показать, что стабильности в решении задач математики добиться на LLM невозможно, и не важно сколько в ней параметров и какая цифра стоит после слов GPT, хоть GPT4 возьмите - она будет все равно плохо работать.

На самом деле идей с промтингом очень много и есть более 10 уже проектов, которые лучше по бенчмаркам самому очевидному - CoT - это например работа Promptbreeder - где предлагается использовать генетический алгоритм для отбора не только промтов, но и самого способа отбора промтов - что шаг к самоолучшению.

Есть еще работа Generative Agents: Interactive Simulacra of Human Behavior https://arxiv.org/abs/2304.03442 - к сожалению тоже все сделано на промтах, с точки зрения разработки тут не описано никакого эффекта, но вот что интересно у них в статье, это то что они дали график на котором видно с какого момента у системы возникают эмерджентные свойства - и там видно что скажем убирая память у агентов (там это человечки с ролями), убирая рефлексию, кооперацию и тп - как сильно падает их способность договориться друг с другом чтобы скажем созвать вечеринку в доме.
Без этих способностей там просто тотально начинаются галлюцинации и промты уже не помогают.

А в прошлом году была работа про Цицерона, правда она что-то не имела популярности - но там было прикольно что они, как заявляют, смогли поставить цели и понимание чужих целей агентам.

Если интересно есть вот такой наш доклад на ИИ конференции Ai Journey где я немного рассказал про наш подход к созданию агентов в рамках мультиагентной системы - у нас это показано на решении математических задач, и там результат получается 99.8% точность, то есть число правильных ответов, что недостижимо на LLM

Да, обучили свою модель, там несколько хаков есть, и в модели и в других местах. Но конечно не хочется их раскрывать - наверное небольшие компании не смогут это повторить, а вот большие, с кем мы и конкурируем могут попробовать, а нам бы этого не хотелось)

Ваш вопрос в целом об ответах по табличным данным - при этом не очень важно как они выражены, в виде разделителей как в csv, или визуальными границами как в docx.

Сейчас официально поддержки ответов по таблицам нет - эта фича может работать, но нестабильно, и лучше на простых таблицах, чем на сложных (с большим числом колонок, пустыми ячейками иногда и тп.)
В течение трех месяцев планируется выпуск VisualQA agent - и там ответ по таблицам будет, и не только.

По поддержке промтинга: вообще ваш кейс лучше работает если обучить свою модель, тогда модель будет понимать стиль.
Без обучения это тоже будет работать, но хуже - потому что собственно модель не знает что такое "оператор службы поддержки" - отчасти она будет считать этим стилем те ответы, которые в файле уже есть, тогда ок.

Я согласен в целом с вашей аргументацией.
А сегодня OpenAi выпустил на своем DevDay еще и обновление модели и поддержку RAG официально (хотя она там была и ранее).
Но все же наше решение лучше минимум по тонкости настройки под клиента и установке в контур заказчика без утечек данных.

Можно ответить так: скорее средний бизнес будет выбирать качество и цену, а крупный - надежность. Далее, если нам удастся вырасти в клиентах, в медиа, репутации - то и крупный подтянется и перестанет бояться.
Примеров этому много, и в ИТ индустрии, и в других

Это потому, что мы сидим в Телеграм в одном чате, мы там его и увидели)

AutoGPT страдает от фундаментальной проблемы: каждое действие это некая усредненная с помощью LLM "жвачка" - то есть действие не оптимальное, а то, которое статистически было чаще в датасете (например поиск установленной библиотеки в определенной папке - а если ии там нет не ищет дальше, точнее не может понять что надо искать).

Поэтому у AutoGPT будет происходить так называемое "катастрофическое накопление ошибок" - как ответ на комбинаторную сложность задачи, называют "комбинаторный взрыв" и при этом проблема не может быть решена улучшение языковой модели, даже если GPT-4 взять проблема останется.

Ведь в задаче ан каждом шаге возникает по 5-100 развилок и способов как ее можно сделать, с учетом вашей цели, ресурсов, времени, размеров, сроков и тп свойств объектов которыми он манипулирует. И поскольку такими свойствами GPT модель не может манипулировать с помощью промтов, тк они динамические (возникают в рантайме - то есть заранее нельзя предсказать их, слишком много вариантов) - то и возникает эффект "сваливания" - через 3 шага модель либо впадает в цикл бреда, из которого неизвестно когда будет выход (тк нельзя задать критерий отсечений - ведь что такое "хорошая, популярная новость - это зависит от десятка факторов цели юзера, и их модель не получала") либо просто ломается, не переходит далее по задачам.
Поэтому мы делаем FractalGPT.

Я должен запостить что я все это предсказывал еще в 2019м году в своем докладе на ИИ конфе DataStart, прям на первых минутах доклада: Прозрачный и безопасный искусственный интеллект: подходы к технологическому решению.
И далее весь доклад предлагались решения этой проблемы.
Ну вот этот час и настал.
https://www.youtube.com/watch?v=3WAVQ4ABaPo

Покажу пример нашей QA системы 202го года на скрине, у нее конечно же было большое число проблем: начиная от объясняющей стилистики ответа, и до невозможности сравнивать предметы, также она не могла обработать ложную посылку, неполный вопрос:
(Как работает мозг? - мы как люди предполагаем что речь о мозге человека, а модель находит в Википедии 15 кусочков про мозги животных, про человека там тоже есть, но статья скорее всего будет только одна. Это значит что 90% вероятности, что ответ будет про мозг какого-то животного, при том сборная солянка и рандом. Этот ответ точно будет засчитан человеком как нерелевантный.)

Объясняющая Question-answering система (сентябрь 2021)
Объясняющая Question-answering система (сентябрь 2021)

Ваш вопрос очень обширный, я бы его обобщил.
Во-первых ваш алгоритм далеко не единственный, его можно существенно видоизменять, меняя параметры. Проведение текстов может занять недели 3, достаточно большое время.
К тому же мы еще в сентябре 2021го уже выпускали Объясняющую Question-answering систему, которая отвечала на русском по Википедии.
У нас есть опыт работы с ретривал QA системами, и там несколько проблем:
1. Обучить нужно retriBERT чтобы он доставал нужные сниппеты
2. Обучить также нужно и BART что он умел потом из них составлять ответ.
3. Повторять это нужно каждый раз, когда образ ответа (стилистика, его длина и тп) меняется в зависимости от бизнес задачи.
Но проблема же также и в том, что можно модели заменить - например взять T5 и прочие, вдруг они будут лучше. Мы плавно пришли к достаточно большому рисечу, который делают топ компании.

Во-вторых это вопрос о бенчмарках: то есть в целом конечно нужно сравнивать эффективность методов, и эта работа в прогрессе сейчас. Но тут в нашем примере некорректно сравнивать ретривал систему и фрактальную тк они решают разные задачи: по сути более правильно сравнивать фрактальную систему в завершенном виде - когда по ней будет сделана генерация с помощью LLM и далее приведена статистика, что в таком сеттинге галлюцинаций в итоге меньше, чем в LLM которая генерировала по векторной базе.
В итоге вопрос сводится к продолжению разработки системы, тк мы рассматриваем по сути компонент пока что, а не полную систему.
Это мы опишем позже.

В-третьих, я соглашусь, что нужны численные бенчмарки, также они в процессе.

Information

Rating
5,077-th
Location
Россия
Registered
Activity