Обновить
7
0
Андрей@aak204

Пользователь

Отправить сообщение

Время покажет. На таблицах paddle, всё остальное — VL-модели какие-то, с хорошими промтами. Если задача чисто OCR без проверки и всего остального, можно и что-то попроще. Qwen8b VL отлично справлялся.

Тестировали, конечно. Просто в данной статье это не было указано :)

Да, знаем об этом решении, но нам нужны были решения с открытым исходным кодом)

Тут данные из интернета, но в нашем проде важно было решение из коробки, так как данных даже для теста не так много, не говоря уж про дообучение.

Это да, но мощности были ограничены на нашей серверной машине, и не все могут запустить 235 кВ локально. Тут рассмотрены модели, которые используются у нас.

Верно, это был инференс, все модели были на vLLM развёрнуты)

Я думаю, что qwen3 VL большой, например, 235Б, либо же, если касаться только таблиц, paddle VL умеет их отлично распознавать. Там есть настройки, чтобы он понимал ориентацию их, да и вообще довольно гибок в этом плане.

Я думаю, либо лучшие модели, которые сейчас есть, как, например, Квен 235Б или Gemini. Ну, либо какие-то коммерческие решения.

Сейчас вышла версия GGUF формата для квена, поэтому да, может. Мы запускали всё на ГПУ. У нас серверная машина, 3xA4000, 256 ОЗУ плюс Xeon. Высокая скорость у нас - это меньше секунды на изображение, квенчик сильно дольше, лайтоср из-за этого выигрывает, конечно.

Хорошее уточнение ! Обязательно его рассмотрим в будущем)

Информация

В рейтинге
6 591-й
Зарегистрирован
Активность

Специализация

ML разработчик
Средний
Git
SQL
PostgreSQL
Docker
Python
ООП
Английский язык
C++
Visual Studio