Ну вообще на рынке всегда продают "лекарства от боли". И новые успешные продукты обычно именно решают чью-то "боль". И у инвесторов тоже довольно часто возникает вопрос "а чью боль это решает и сколько у него денег"?
И это мы ещё не пошли в медицину, где денег на боль дают и очень даже много.
Вопрос не в том, кто быстрее, а кто смог или не смог решить задачу. Вы превзойдете калькулятор в сложении больших чисел, он не превзойдет вас ни в чём.
Если F1 считается по точному совпадению с эталонной разметкой (тексту того, что надо выделить), то на каше будет нулевая оценка. В этом плане попугаи этой меры вполне понятны. Да, обычно извлекаются какие-то уникальные для документа поля, поэтому знание о мире тут не помогает LLM'ке выдумать правильный ответ.
Для оценки качества извлечения используются значение поля, извлечённого LLM, и эталонное значение поля, написанное вручную. При этом ручная разметка делается с исправлением OCR-артефактов, так что текст эталона может отличаться от текста поля из документа,идущего в LLM. Я не понимаю, к чему тут расстояния между текстами по математике и договорами, можете, пожалуйста, другими словами это пояснить? Имеется в виду какой-то вариант автоматической оценки качества без написания эталонов полей?
Считать эф-меру по порогу косинусного расстояния действительно не показательно, но так и не делают для простых полей. А для сложных типа "условия поставки" можно использовать другую LLM с вопросом "соответствует ли найденное эталону".
Контексты извлеченных полей в рамках работы с реальными документами оказываются не нужны. Клиенту без разницы, с какой именно страницы будет извлечена дата договора (если она находится в хедере каждой страницы), равно как и без разницы, откуда возьмутся стороны договора - из преамбулы или реквизитов. Вопрос про контексты был в другом Вашем комментарии, я объединил ответы.
Если сеть сгаллюцинировала ответ, то отличаться будут сильно. А сопоставлять эталон и извлечённые поля можно и посимвольно, сеть же попросили в именительном падеже вернуть ответ.
Технологии так быстро развиваются, потому что кто-то учит в институте матан и потом двигает эти технологии. Те же нейросети вначале придумали, а потом начали учить в университетах, но те, кто стоял у их истоков, без фундаментального образования ничего бы не смогли.
Обычно "посчитать на пальцах" означает "записать в унарной системе счисления с помощью пальцев". А мой комментарий к тому, что на любого зануду найдется зануда покрупнее.
А как вы оцениваете это время? У меня, например, фиксированная зарплата, и если я на несколько часов задержусь на работе - получу ноль дополнительных рублей. Я не подрабатываю на шабашках, не таксую, не хожу на сторону фриланса. Даже если бы ходил, то с огромной долей вероятности стоимость часа была бы на порядок меньше текущей. Таким образом моё нерабочее время стоит ровно ноль рублей в час.
Git сохраняет новые версии бинарных файлов как отдельные копии, не показывая подробные различия между ними, что затрудняет отслеживание изменений с течением времени.
А DVC разве умеет показывать diff для хранимых в нём файлов?
И да, и нет. Если бы было по-вашему, то пакетизация (batch) запросов не имела бы смысла, но она довольно часто полезна. Зависит всё от модельки и соотношения flops/bandwidth. При инференсе надо многократно прогонять всю модельку от GPU RAM до вычислительных ядер и, если их в избытке, память становится бутылочным горлышком. Но я встречал и случаи, batch size = 1 работал так же хорошо. Вот есть неплохая статья на эту тему https://www.artfintel.com/p/how-does-batching-work-on-modern
В последнем случае не столько объем памяти сыграл, наверное, сколько её скорость (разрядность шины). В 5080 обещают больше памяти, чем в 5090, но медленнее, и там придется подумать.
Ну так-то да, блоки разного размера, каждый под свою задачу. Например, извлечь список сторон контракта из документа, написанного в произвольной форме, Питоном достаточно сложно, а вот с помощью LLM справится даже ребенок. Или вот задача от Базелевса, про которую еще лет десять назад написали - по сценарию фильма нарисовать примерную раскадровку, чтобы съемочной группе упростить задачу (не помню уже, в чем, но нужна вот такая серия картинок или мультиков). На питоне её решить очень сложно, мультимодальной сетью - уже реально.
Моя мысль в том, что кирпичи надо выбирать под задачу. Пока во всех этих тестах из железобетонных плит пытаются сложить печку - получается довольно странно. Хотя в целом это вполне себе способ и порой это может оказаться дешевле, чем позвать мастера-печника.
Замените в вашем тексте "питон" на "ассемблер", а "человеческий язык" на тот же C++. Довольно неплохо получается, особенно если "EULA" заменить на "стандарт". Плотность передачи мысли в естественном языке выше, чем в питоне. Поэтому ряд программистких активностей смогут перекочевать в эти чат-боты. Но, если продолжить мою аналогию выше, профессионалы, знающие, как сделать быструю низкоуровневую библиотеку, останутся нужны ещё очень долго.
Софт, который используется для географического разнесения сервисов по разным ДЦ обязан быть обратносовместимым, потому как нельзя одновременно обновлять два ДЦ (пытаться можно, но часто будет очень грустно). Но выше уже разобрались, конкретно эта пара версий имеет право не работать вместе.
Ну вообще на рынке всегда продают "лекарства от боли". И новые успешные продукты обычно именно решают чью-то "боль". И у инвесторов тоже довольно часто возникает вопрос "а чью боль это решает и сколько у него денег"?
И это мы ещё не пошли в медицину, где денег на боль дают и очень даже много.
Вопрос не в том, кто быстрее, а кто смог или не смог решить задачу. Вы превзойдете калькулятор в сложении больших чисел, он не превзойдет вас ни в чём.
Если F1 считается по точному совпадению с эталонной разметкой (тексту того, что надо выделить), то на каше будет нулевая оценка. В этом плане попугаи этой меры вполне понятны. Да, обычно извлекаются какие-то уникальные для документа поля, поэтому знание о мире тут не помогает LLM'ке выдумать правильный ответ.
Для оценки качества извлечения используются значение поля, извлечённого LLM, и эталонное значение поля, написанное вручную. При этом ручная разметка делается с исправлением OCR-артефактов, так что текст эталона может отличаться от текста поля из документа,идущего в LLM. Я не понимаю, к чему тут расстояния между текстами по математике и договорами, можете, пожалуйста, другими словами это пояснить? Имеется в виду какой-то вариант автоматической оценки качества без написания эталонов полей?
Считать эф-меру по порогу косинусного расстояния действительно не показательно, но так и не делают для простых полей. А для сложных типа "условия поставки" можно использовать другую LLM с вопросом "соответствует ли найденное эталону".
Контексты извлеченных полей в рамках работы с реальными документами оказываются не нужны. Клиенту без разницы, с какой именно страницы будет извлечена дата договора (если она находится в хедере каждой страницы), равно как и без разницы, откуда возьмутся стороны договора - из преамбулы или реквизитов. Вопрос про контексты был в другом Вашем комментарии, я объединил ответы.
Если сеть сгаллюцинировала ответ, то отличаться будут сильно.
А сопоставлять эталон и извлечённые поля можно и посимвольно, сеть же попросили в именительном падеже вернуть ответ.
F1 метрика это про другое.
А где в тексте проверка точности по косинусному расстоянию? Несколько раз перечитал, не увидел.
Технологии так быстро развиваются, потому что кто-то учит в институте матан и потом двигает эти технологии. Те же нейросети вначале придумали, а потом начали учить в университетах, но те, кто стоял у их истоков, без фундаментального образования ничего бы не смогли.
Обычно "посчитать на пальцах" означает "записать в унарной системе счисления с помощью пальцев". А мой комментарий к тому, что на любого зануду найдется зануда покрупнее.
Накладывает. Число атомов во Вселенной нельзя посчитать на пальцах рук.
А как вы оцениваете это время? У меня, например, фиксированная зарплата, и если я на несколько часов задержусь на работе - получу ноль дополнительных рублей. Я не подрабатываю на шабашках, не таксую, не хожу на сторону фриланса. Даже если бы ходил, то с огромной долей вероятности стоимость часа была бы на порядок меньше текущей. Таким образом моё нерабочее время стоит ровно ноль рублей в час.
А как у вас? Как именно вы его считаете?
А DVC разве умеет показывать diff для хранимых в нём файлов?
И да, и нет. Если бы было по-вашему, то пакетизация (batch) запросов не имела бы смысла, но она довольно часто полезна. Зависит всё от модельки и соотношения flops/bandwidth. При инференсе надо многократно прогонять всю модельку от GPU RAM до вычислительных ядер и, если их в избытке, память становится бутылочным горлышком. Но я встречал и случаи, batch size = 1 работал так же хорошо. Вот есть неплохая статья на эту тему https://www.artfintel.com/p/how-does-batching-work-on-modern
В последнем случае не столько объем памяти сыграл, наверное, сколько её скорость (разрядность шины). В 5080 обещают больше памяти, чем в 5090, но медленнее, и там придется подумать.
Ну так-то да, блоки разного размера, каждый под свою задачу. Например, извлечь список сторон контракта из документа, написанного в произвольной форме, Питоном достаточно сложно, а вот с помощью LLM справится даже ребенок. Или вот задача от Базелевса, про которую еще лет десять назад написали - по сценарию фильма нарисовать примерную раскадровку, чтобы съемочной группе упростить задачу (не помню уже, в чем, но нужна вот такая серия картинок или мультиков). На питоне её решить очень сложно, мультимодальной сетью - уже реально.
Моя мысль в том, что кирпичи надо выбирать под задачу. Пока во всех этих тестах из железобетонных плит пытаются сложить печку - получается довольно странно. Хотя в целом это вполне себе способ и порой это может оказаться дешевле, чем позвать мастера-печника.
Замените в вашем тексте "питон" на "ассемблер", а "человеческий язык" на тот же C++. Довольно неплохо получается, особенно если "EULA" заменить на "стандарт".
Плотность передачи мысли в естественном языке выше, чем в питоне. Поэтому ряд программистких активностей смогут перекочевать в эти чат-боты. Но, если продолжить мою аналогию выше, профессионалы, знающие, как сделать быструю низкоуровневую библиотеку, останутся нужны ещё очень долго.
Ох уж эти десктопные программисты. Тут беззнакового байта хватит. А если не хватит, то можно решить проблему аппаратно.
Всё это уже сделано в хороших институтах (МФТИ, например). Просто у нас ещё много плохих осталось.
На "дефолтной", x86. Мы про какую предвыборку говорим - которая от спекулятивного выполнения?
Предвыборка данных процессора на это рассчитана. Собственно meltdown это и эксплуатировал
Софт, который используется для географического разнесения сервисов по разным ДЦ обязан быть обратносовместимым, потому как нельзя одновременно обновлять два ДЦ (пытаться можно, но часто будет очень грустно). Но выше уже разобрались, конкретно эта пара версий имеет право не работать вместе.