Ну вообще на рынке всегда продают "лекарства от боли". И новые успешные продукты обычно именно решают чью-то "боль". И у инвесторов тоже довольно часто возникает вопрос "а чью боль это решает и сколько у него денег"?
И это мы ещё не пошли в медицину, где денег на боль дают и очень даже много.
Вопрос не в том, кто быстрее, а кто смог или не смог решить задачу. Вы превзойдете калькулятор в сложении больших чисел, он не превзойдет вас ни в чём.
Если F1 считается по точному совпадению с эталонной разметкой (тексту того, что надо выделить), то на каше будет нулевая оценка. В этом плане попугаи этой меры вполне понятны. Да, обычно извлекаются какие-то уникальные для документа поля, поэтому знание о мире тут не помогает LLM'ке выдумать правильный ответ.
Для оценки качества извлечения используются значение поля, извлечённого LLM, и эталонное значение поля, написанное вручную. При этом ручная разметка делается с исправлением OCR-артефактов, так что текст эталона может отличаться от текста поля из документа,идущего в LLM. Я не понимаю, к чему тут расстояния между текстами по математике и договорами, можете, пожалуйста, другими словами это пояснить? Имеется в виду какой-то вариант автоматической оценки качества без написания эталонов полей?
Считать эф-меру по порогу косинусного расстояния действительно не показательно, но так и не делают для простых полей. А для сложных типа "условия поставки" можно использовать другую LLM с вопросом "соответствует ли найденное эталону".
Контексты извлеченных полей в рамках работы с реальными документами оказываются не нужны. Клиенту без разницы, с какой именно страницы будет извлечена дата договора (если она находится в хедере каждой страницы), равно как и без разницы, откуда возьмутся стороны договора - из преамбулы или реквизитов. Вопрос про контексты был в другом Вашем комментарии, я объединил ответы.
Если сеть сгаллюцинировала ответ, то отличаться будут сильно. А сопоставлять эталон и извлечённые поля можно и посимвольно, сеть же попросили в именительном падеже вернуть ответ.
Обычно "посчитать на пальцах" означает "записать в унарной системе счисления с помощью пальцев". А мой комментарий к тому, что на любого зануду найдется зануда покрупнее.
А как вы оцениваете это время? У меня, например, фиксированная зарплата, и если я на несколько часов задержусь на работе - получу ноль дополнительных рублей. Я не подрабатываю на шабашках, не таксую, не хожу на сторону фриланса. Даже если бы ходил, то с огромной долей вероятности стоимость часа была бы на порядок меньше текущей. Таким образом моё нерабочее время стоит ровно ноль рублей в час.
Git сохраняет новые версии бинарных файлов как отдельные копии, не показывая подробные различия между ними, что затрудняет отслеживание изменений с течением времени.
А DVC разве умеет показывать diff для хранимых в нём файлов?
И да, и нет. Если бы было по-вашему, то пакетизация (batch) запросов не имела бы смысла, но она довольно часто полезна. Зависит всё от модельки и соотношения flops/bandwidth. При инференсе надо многократно прогонять всю модельку от GPU RAM до вычислительных ядер и, если их в избытке, память становится бутылочным горлышком. Но я встречал и случаи, batch size = 1 работал так же хорошо. Вот есть неплохая статья на эту тему https://www.artfintel.com/p/how-does-batching-work-on-modern
В последнем случае не столько объем памяти сыграл, наверное, сколько её скорость (разрядность шины). В 5080 обещают больше памяти, чем в 5090, но медленнее, и там придется подумать.
Ну так-то да, блоки разного размера, каждый под свою задачу. Например, извлечь список сторон контракта из документа, написанного в произвольной форме, Питоном достаточно сложно, а вот с помощью LLM справится даже ребенок. Или вот задача от Базелевса, про которую еще лет десять назад написали - по сценарию фильма нарисовать примерную раскадровку, чтобы съемочной группе упростить задачу (не помню уже, в чем, но нужна вот такая серия картинок или мультиков). На питоне её решить очень сложно, мультимодальной сетью - уже реально.
Моя мысль в том, что кирпичи надо выбирать под задачу. Пока во всех этих тестах из железобетонных плит пытаются сложить печку - получается довольно странно. Хотя в целом это вполне себе способ и порой это может оказаться дешевле, чем позвать мастера-печника.
Замените в вашем тексте "питон" на "ассемблер", а "человеческий язык" на тот же C++. Довольно неплохо получается, особенно если "EULA" заменить на "стандарт". Плотность передачи мысли в естественном языке выше, чем в питоне. Поэтому ряд программистких активностей смогут перекочевать в эти чат-боты. Но, если продолжить мою аналогию выше, профессионалы, знающие, как сделать быструю низкоуровневую библиотеку, останутся нужны ещё очень долго.
Ну я-то картинку удалил, а сервер Макса продолжает распространять. А повлиять на это я никак больше не могу.
То есть можно понаотправлять разных картинок, потом удалить их, а потом пожаловаться в РКН на распространение Максом всякого запрещённого?
Стояла "стандартная", попробуем "турбо", спасибо. Возможно, "проблема" в четырех детях и трёх котах)
Увы, нет. Может и сильно меньше, но всё равно наматывает.
Ну вообще на рынке всегда продают "лекарства от боли". И новые успешные продукты обычно именно решают чью-то "боль". И у инвесторов тоже довольно часто возникает вопрос "а чью боль это решает и сколько у него денег"?
И это мы ещё не пошли в медицину, где денег на боль дают и очень даже много.
Вопрос не в том, кто быстрее, а кто смог или не смог решить задачу. Вы превзойдете калькулятор в сложении больших чисел, он не превзойдет вас ни в чём.
Если F1 считается по точному совпадению с эталонной разметкой (тексту того, что надо выделить), то на каше будет нулевая оценка. В этом плане попугаи этой меры вполне понятны. Да, обычно извлекаются какие-то уникальные для документа поля, поэтому знание о мире тут не помогает LLM'ке выдумать правильный ответ.
Для оценки качества извлечения используются значение поля, извлечённого LLM, и эталонное значение поля, написанное вручную. При этом ручная разметка делается с исправлением OCR-артефактов, так что текст эталона может отличаться от текста поля из документа,идущего в LLM. Я не понимаю, к чему тут расстояния между текстами по математике и договорами, можете, пожалуйста, другими словами это пояснить? Имеется в виду какой-то вариант автоматической оценки качества без написания эталонов полей?
Считать эф-меру по порогу косинусного расстояния действительно не показательно, но так и не делают для простых полей. А для сложных типа "условия поставки" можно использовать другую LLM с вопросом "соответствует ли найденное эталону".
Контексты извлеченных полей в рамках работы с реальными документами оказываются не нужны. Клиенту без разницы, с какой именно страницы будет извлечена дата договора (если она находится в хедере каждой страницы), равно как и без разницы, откуда возьмутся стороны договора - из преамбулы или реквизитов. Вопрос про контексты был в другом Вашем комментарии, я объединил ответы.
Если сеть сгаллюцинировала ответ, то отличаться будут сильно.
А сопоставлять эталон и извлечённые поля можно и посимвольно, сеть же попросили в именительном падеже вернуть ответ.
F1 метрика это про другое.
А где в тексте проверка точности по косинусному расстоянию? Несколько раз перечитал, не увидел.
Обычно "посчитать на пальцах" означает "записать в унарной системе счисления с помощью пальцев". А мой комментарий к тому, что на любого зануду найдется зануда покрупнее.
Накладывает. Число атомов во Вселенной нельзя посчитать на пальцах рук.
А как вы оцениваете это время? У меня, например, фиксированная зарплата, и если я на несколько часов задержусь на работе - получу ноль дополнительных рублей. Я не подрабатываю на шабашках, не таксую, не хожу на сторону фриланса. Даже если бы ходил, то с огромной долей вероятности стоимость часа была бы на порядок меньше текущей. Таким образом моё нерабочее время стоит ровно ноль рублей в час.
А как у вас? Как именно вы его считаете?
А DVC разве умеет показывать diff для хранимых в нём файлов?
И да, и нет. Если бы было по-вашему, то пакетизация (batch) запросов не имела бы смысла, но она довольно часто полезна. Зависит всё от модельки и соотношения flops/bandwidth. При инференсе надо многократно прогонять всю модельку от GPU RAM до вычислительных ядер и, если их в избытке, память становится бутылочным горлышком. Но я встречал и случаи, batch size = 1 работал так же хорошо. Вот есть неплохая статья на эту тему https://www.artfintel.com/p/how-does-batching-work-on-modern
В последнем случае не столько объем памяти сыграл, наверное, сколько её скорость (разрядность шины). В 5080 обещают больше памяти, чем в 5090, но медленнее, и там придется подумать.
Ну так-то да, блоки разного размера, каждый под свою задачу. Например, извлечь список сторон контракта из документа, написанного в произвольной форме, Питоном достаточно сложно, а вот с помощью LLM справится даже ребенок. Или вот задача от Базелевса, про которую еще лет десять назад написали - по сценарию фильма нарисовать примерную раскадровку, чтобы съемочной группе упростить задачу (не помню уже, в чем, но нужна вот такая серия картинок или мультиков). На питоне её решить очень сложно, мультимодальной сетью - уже реально.
Моя мысль в том, что кирпичи надо выбирать под задачу. Пока во всех этих тестах из железобетонных плит пытаются сложить печку - получается довольно странно. Хотя в целом это вполне себе способ и порой это может оказаться дешевле, чем позвать мастера-печника.
Замените в вашем тексте "питон" на "ассемблер", а "человеческий язык" на тот же C++. Довольно неплохо получается, особенно если "EULA" заменить на "стандарт".
Плотность передачи мысли в естественном языке выше, чем в питоне. Поэтому ряд программистких активностей смогут перекочевать в эти чат-боты. Но, если продолжить мою аналогию выше, профессионалы, знающие, как сделать быструю низкоуровневую библиотеку, останутся нужны ещё очень долго.
Ох уж эти десктопные программисты. Тут беззнакового байта хватит. А если не хватит, то можно решить проблему аппаратно.
Всё это уже сделано в хороших институтах (МФТИ, например). Просто у нас ещё много плохих осталось.