Тут мы на самом деле ушли довольно далеко от изначальной идеи. А идея была простой: дёшево и быстро получить инструмент. В плане цен gpt4o-mini нас устраивал ещё до кэширования промптов, а потом и подавно. В плане скорости реализации, тут тоже всё очень классно выходило. Но в ходе проработки выяснились ограничения на передачу персоналки... С ребятами, которые делают OCR мы говорили, даже с их компетенциями это дело не быстрое, тем более много разных форматов. Поэтому, действительно, выбор был не велик.
Спасибо! Qwen2.5VL-32B глянем С провайдером все те же проблемы с трансграничной передачей персданных. Что касается Elma, все эти решения построены на базе классического OCR и распознавания четких форматов документов (например, УПД). Половину того что у нас есть они не прочитают (хотя конкретно их решение мы не рассматривали).
Выглядит неплохо, да, но когда начинаешь собирать статистику хоть на какой-то выборке начинает всплывать неудобная правда (как мы в статье и написали). Т.ч. лучше делать выборку хотя бы в 100 разнородных картинок.
Спасибо, посмотрим. Не пробовали.
Да, думали взять это в проработку в следующем этапе проработки, спасибо за совет.
Тут мы на самом деле ушли довольно далеко от изначальной идеи.
А идея была простой: дёшево и быстро получить инструмент. В плане цен gpt4o-mini нас устраивал ещё до кэширования промптов, а потом и подавно. В плане скорости реализации, тут тоже всё очень классно выходило. Но в ходе проработки выяснились ограничения на передачу персоналки...
С ребятами, которые делают OCR мы говорили, даже с их компетенциями это дело не быстрое, тем более много разных форматов. Поэтому, действительно, выбор был не велик.
Спасибо, взяли в проработку!
Спасибо! Qwen2.5VL-32B глянем
С провайдером все те же проблемы с трансграничной передачей персданных.
Что касается Elma, все эти решения построены на базе классического OCR и распознавания четких форматов документов (например, УПД). Половину того что у нас есть они не прочитают (хотя конкретно их решение мы не рассматривали).
Выглядит неплохо, да, но когда начинаешь собирать статистику хоть на какой-то выборке начинает всплывать неудобная правда (как мы в статье и написали). Т.ч. лучше делать выборку хотя бы в 100 разнородных картинок.