Обновить
2
0
Иван @TryDotAtwo

Физик. Аналитические модели

Отправить сообщение

Прикольно, но текста очень много, а суть короткая

Берт это не ллм типа. Щас ллм это декодеры типа жпт. А берт -тупа трансформер, при чём энкодер. Не знаю что ещё совал туда в итоге, но в целом идея старая довольно. Ты хочешь вытянуть статистику, вот только котировки - это шум чисто, поэтому там не будет трансформер работать обычный. Либо ты должен инсайдерской торговлей заниматься

Ну точно не. Автор в целом тему говорит, просто бугурт не туда

Медиана показывает не саму зп, а границу, где 50% выборки меньше, а 50% больше. Поэтому в плане зарплат это хорошая метрика при любом распределении. Хз в чём бугурт в целом.

Дальше уже можно всякие моды в подвыборках указывать и прочее, но в целом медиана норм тема и если не знаешь о распределении

Внедрение ии повышает когнитивную нагрузку, в этом же смысл по идее. Снять рутину и механику. Например я не кодер, и когда пользуюсь иишкой, то меня на 2 часа работы хватает из-за большой нагрузки когнитивной

Есть пример как применять?

Прикольно, то есть ставим на комп и зарабатываем или как?

Опять же. Вы же не можете сказать прийти, что 10 - это много. 10 миллиметров - много - ну тоже сомнительно. Модель может выдавать около-юридическую кашу из домена нужного и давать F1 меру такую же, как средняя F1 мера по выборке. А такая мера и 0.9 может быть по выборке, типа.

Это известная проблема, как бы. Не совсем понимаю о чём беседа идёт и с чем Вы не согласны

Галюцинации - да, можно вычислить. Но это только говорит о глюках, качество работы не показывает.

Посимвольное сопоставление не сильно отличается в своей сути от косинусного сходства (в контексте текущей задачи, так-то сходство хотя бы как-то контекст и смысл уловить пытается). Можно и расстояния всякие считать. Просто такие оценки ещё хуже, ибо они контекст совсем игнорируют. И всё равно нужно привести сначала такое сравнение текстов между собой, чтобы был ориентир.

Опять же, расстояние Левенштейна, например, будет, вероятно, больше между текстами по математике и какой-то доверенностью, чем между двумя доверенностями, так вы, может быть, галюн и поймаете, и то не факт (если разные длины текстов, то и метрика скачет). А какое расстояние между исходными текстами вообще? Отличается ли ответ ллм от этого расстояния и в какую сторону? Насколько?

По сути тебе чтоб определить точность нужно понять как отличается извлеченный текст от идеального. Для полноты таже тема. А поскольку они особо то и не отличаются между собой, то и оценка точности и полноты заведомо высокая будет. Поэтому сначала нужно оценить базовую планку, а потом уже смотреть изменение от неё, а авторы просто вкинули голые цифры

Ф1 метрика это примерно косинусное сходство

Давайте скооперируемся и сделаем бенчмарк метрик оценивания? У нас есть более 400 валидированных экстракций от экспертов (с нахлёстом валидация). За счёт этого можно сделать оценку эффективности различных метрик. И вам польза, и нам польза. Пишите в тг @TryDotAtwo

Задание роли точность не повышает. Проверка точности кривая. Вы же в курсе, что косинусное сходство в целом под 80-90%, по сути любая экстракция будет приемлемой для метрик похожих на косинусное сходство.

Опять же, посмотрите бенчмарк https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark

Есть такой момент. Не хочешь в качестве эксперта присоединиться к нашей опенсорс команде? Мы вот, например, бенчмарк делали https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark

https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark

У вас результат сильно превосходит бенчмарк. Не совсем понял что вы тут делаете, но верится с трудом

Информация

В рейтинге
Не участвует
Откуда
Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

Физик
Средний