Search
Write a publication
Pull to refresh
1
0.4
Иван @TryDotAtwo

Физик. Аналитические модели

Send message

Ну точно не. Автор в целом тему говорит, просто бугурт не туда

Медиана показывает не саму зп, а границу, где 50% выборки меньше, а 50% больше. Поэтому в плане зарплат это хорошая метрика при любом распределении. Хз в чём бугурт в целом.

Дальше уже можно всякие моды в подвыборках указывать и прочее, но в целом медиана норм тема и если не знаешь о распределении

Внедрение ии повышает когнитивную нагрузку, в этом же смысл по идее. Снять рутину и механику. Например я не кодер, и когда пользуюсь иишкой, то меня на 2 часа работы хватает из-за большой нагрузки когнитивной

Прикольно, то есть ставим на комп и зарабатываем или как?

Опять же. Вы же не можете сказать прийти, что 10 - это много. 10 миллиметров - много - ну тоже сомнительно. Модель может выдавать около-юридическую кашу из домена нужного и давать F1 меру такую же, как средняя F1 мера по выборке. А такая мера и 0.9 может быть по выборке, типа.

Это известная проблема, как бы. Не совсем понимаю о чём беседа идёт и с чем Вы не согласны

Галюцинации - да, можно вычислить. Но это только говорит о глюках, качество работы не показывает.

Посимвольное сопоставление не сильно отличается в своей сути от косинусного сходства (в контексте текущей задачи, так-то сходство хотя бы как-то контекст и смысл уловить пытается). Можно и расстояния всякие считать. Просто такие оценки ещё хуже, ибо они контекст совсем игнорируют. И всё равно нужно привести сначала такое сравнение текстов между собой, чтобы был ориентир.

Опять же, расстояние Левенштейна, например, будет, вероятно, больше между текстами по математике и какой-то доверенностью, чем между двумя доверенностями, так вы, может быть, галюн и поймаете, и то не факт (если разные длины текстов, то и метрика скачет). А какое расстояние между исходными текстами вообще? Отличается ли ответ ллм от этого расстояния и в какую сторону? Насколько?

По сути тебе чтоб определить точность нужно понять как отличается извлеченный текст от идеального. Для полноты таже тема. А поскольку они особо то и не отличаются между собой, то и оценка точности и полноты заведомо высокая будет. Поэтому сначала нужно оценить базовую планку, а потом уже смотреть изменение от неё, а авторы просто вкинули голые цифры

Давайте скооперируемся и сделаем бенчмарк метрик оценивания? У нас есть более 400 валидированных экстракций от экспертов (с нахлёстом валидация). За счёт этого можно сделать оценку эффективности различных метрик. И вам польза, и нам польза. Пишите в тг @TryDotAtwo

Задание роли точность не повышает. Проверка точности кривая. Вы же в курсе, что косинусное сходство в целом под 80-90%, по сути любая экстракция будет приемлемой для метрик похожих на косинусное сходство.

Опять же, посмотрите бенчмарк https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark

Есть такой момент. Не хочешь в качестве эксперта присоединиться к нашей опенсорс команде? Мы вот, например, бенчмарк делали https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark

https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark

У вас результат сильно превосходит бенчмарк. Не совсем понял что вы тут делаете, но верится с трудом

Такие цепочки самопроверки обычно ухудшают качество генерации. Косинусное сходство плохая метрика. Стабилизация ответа - тоже плохая метрика

Ещё такой вопрос, если не брать раг, а дообученную модель, Ваша система справляется с таким, я правильно понимаю? Ведь в дообученной модели нет никаких управлений доступами, в модели уже есть всё внутри

Буду тестить, спасибо. Очень не хватало такого решения. Как раз если пилить нейронку для российского права - это всё критичным очень становится

Information

Rating
9,147-th
Location
Москва и Московская обл., Россия
Registered
Activity

Specialization

Физик
Middle