Медиана показывает не саму зп, а границу, где 50% выборки меньше, а 50% больше. Поэтому в плане зарплат это хорошая метрика при любом распределении. Хз в чём бугурт в целом.
Дальше уже можно всякие моды в подвыборках указывать и прочее, но в целом медиана норм тема и если не знаешь о распределении
Внедрение ии повышает когнитивную нагрузку, в этом же смысл по идее. Снять рутину и механику. Например я не кодер, и когда пользуюсь иишкой, то меня на 2 часа работы хватает из-за большой нагрузки когнитивной
Опять же. Вы же не можете сказать прийти, что 10 - это много. 10 миллиметров - много - ну тоже сомнительно. Модель может выдавать около-юридическую кашу из домена нужного и давать F1 меру такую же, как средняя F1 мера по выборке. А такая мера и 0.9 может быть по выборке, типа.
Это известная проблема, как бы. Не совсем понимаю о чём беседа идёт и с чем Вы не согласны
Галюцинации - да, можно вычислить. Но это только говорит о глюках, качество работы не показывает.
Посимвольное сопоставление не сильно отличается в своей сути от косинусного сходства (в контексте текущей задачи, так-то сходство хотя бы как-то контекст и смысл уловить пытается). Можно и расстояния всякие считать. Просто такие оценки ещё хуже, ибо они контекст совсем игнорируют. И всё равно нужно привести сначала такое сравнение текстов между собой, чтобы был ориентир.
Опять же, расстояние Левенштейна, например, будет, вероятно, больше между текстами по математике и какой-то доверенностью, чем между двумя доверенностями, так вы, может быть, галюн и поймаете, и то не факт (если разные длины текстов, то и метрика скачет). А какое расстояние между исходными текстами вообще? Отличается ли ответ ллм от этого расстояния и в какую сторону? Насколько?
По сути тебе чтоб определить точность нужно понять как отличается извлеченный текст от идеального. Для полноты таже тема. А поскольку они особо то и не отличаются между собой, то и оценка точности и полноты заведомо высокая будет. Поэтому сначала нужно оценить базовую планку, а потом уже смотреть изменение от неё, а авторы просто вкинули голые цифры
Давайте скооперируемся и сделаем бенчмарк метрик оценивания? У нас есть более 400 валидированных экстракций от экспертов (с нахлёстом валидация). За счёт этого можно сделать оценку эффективности различных метрик. И вам польза, и нам польза. Пишите в тг @TryDotAtwo
Задание роли точность не повышает. Проверка точности кривая. Вы же в курсе, что косинусное сходство в целом под 80-90%, по сути любая экстракция будет приемлемой для метрик похожих на косинусное сходство.
Ещё такой вопрос, если не брать раг, а дообученную модель, Ваша система справляется с таким, я правильно понимаю? Ведь в дообученной модели нет никаких управлений доступами, в модели уже есть всё внутри
Ну точно не. Автор в целом тему говорит, просто бугурт не туда
Медиана показывает не саму зп, а границу, где 50% выборки меньше, а 50% больше. Поэтому в плане зарплат это хорошая метрика при любом распределении. Хз в чём бугурт в целом.
Дальше уже можно всякие моды в подвыборках указывать и прочее, но в целом медиана норм тема и если не знаешь о распределении
Точна?
Внедрение ии повышает когнитивную нагрузку, в этом же смысл по идее. Снять рутину и механику. Например я не кодер, и когда пользуюсь иишкой, то меня на 2 часа работы хватает из-за большой нагрузки когнитивной
Есть пример как применять?
Прикольно, то есть ставим на комп и зарабатываем или как?
Опять же. Вы же не можете сказать прийти, что 10 - это много. 10 миллиметров - много - ну тоже сомнительно. Модель может выдавать около-юридическую кашу из домена нужного и давать F1 меру такую же, как средняя F1 мера по выборке. А такая мера и 0.9 может быть по выборке, типа.
Это известная проблема, как бы. Не совсем понимаю о чём беседа идёт и с чем Вы не согласны
Галюцинации - да, можно вычислить. Но это только говорит о глюках, качество работы не показывает.
Посимвольное сопоставление не сильно отличается в своей сути от косинусного сходства (в контексте текущей задачи, так-то сходство хотя бы как-то контекст и смысл уловить пытается). Можно и расстояния всякие считать. Просто такие оценки ещё хуже, ибо они контекст совсем игнорируют. И всё равно нужно привести сначала такое сравнение текстов между собой, чтобы был ориентир.
Опять же, расстояние Левенштейна, например, будет, вероятно, больше между текстами по математике и какой-то доверенностью, чем между двумя доверенностями, так вы, может быть, галюн и поймаете, и то не факт (если разные длины текстов, то и метрика скачет). А какое расстояние между исходными текстами вообще? Отличается ли ответ ллм от этого расстояния и в какую сторону? Насколько?
По сути тебе чтоб определить точность нужно понять как отличается извлеченный текст от идеального. Для полноты таже тема. А поскольку они особо то и не отличаются между собой, то и оценка точности и полноты заведомо высокая будет. Поэтому сначала нужно оценить базовую планку, а потом уже смотреть изменение от неё, а авторы просто вкинули голые цифры
Ф1 метрика это примерно косинусное сходство
Давайте скооперируемся и сделаем бенчмарк метрик оценивания? У нас есть более 400 валидированных экстракций от экспертов (с нахлёстом валидация). За счёт этого можно сделать оценку эффективности различных метрик. И вам польза, и нам польза. Пишите в тг @TryDotAtwo
Задание роли точность не повышает. Проверка точности кривая. Вы же в курсе, что косинусное сходство в целом под 80-90%, по сути любая экстракция будет приемлемой для метрик похожих на косинусное сходство.
Опять же, посмотрите бенчмарк https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark
Есть такой момент. Не хочешь в качестве эксперта присоединиться к нашей опенсорс команде? Мы вот, например, бенчмарк делали https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark
Это хуже делает
Часто да
https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark
У вас результат сильно превосходит бенчмарк. Не совсем понял что вы тут делаете, но верится с трудом
Всё верно, плюсую
Такие цепочки самопроверки обычно ухудшают качество генерации. Косинусное сходство плохая метрика. Стабилизация ответа - тоже плохая метрика
Ещё такой вопрос, если не брать раг, а дообученную модель, Ваша система справляется с таким, я правильно понимаю? Ведь в дообученной модели нет никаких управлений доступами, в модели уже есть всё внутри
Буду тестить, спасибо. Очень не хватало такого решения. Как раз если пилить нейронку для российского права - это всё критичным очень становится