Pull to refresh
3
0
Send message

Сравните, пожалуйста, ещё Codex от OpenAI и Gemini 3 Pro от Google.

Возможно тут надо создать MCP тулы, которые будут вызывать простые действия для разбора и уже их сможет вызывать ллм и получать от них информацию?

Не удивительно, там уже больше 600 000 аккаунтов в списке подключившихся.

Почему не выбрать лучшее из обоих миров и нанять двух?

Для теста можно попробовать эти модели в приложении LM Studio. В нём можно скачать все те-же модели и давно добавили поддержку мульти-модальных моделей и загрузку картинок в чат.

А по поводу компьютера - тут важна не столько скорость видеокарты, сколько объем видеопамяти и чем больше тем лучше.

Ещё пару дней назад появилась

HunyuanOCR - обещают топ по бенчмаркам и размер меньше.

Согласен, статья как будто написана ChatGPT. Ничего конкретного, только базовые вещи. А проблемы как раз кроются в деталях.

Начиная с того что: Чем парсить и OCRить документы и pdf. Как разбивать на чанки и как доставать семантические связи. Нужны ли графы. Чем делать эмбеддинги, как оптимизировать их размер и где хранить для быстрого поиска. Как и чем ранжировать чанки. В каком формате отдавать их ллм. Какой длинны отдавать чтобы ллм не путалась в большом количестве информации. И какой промпт написать чтобы не галюцинировала и ответы были полезными. (Тут в промпте много мелких нюансов). И какой ответ ожидает юзер короткий и быстрый или длинный и подробный, это тоже надо в промпте для ллм прописать.

Посмотрел что написал. Получился прям промпт для ChatGPT для новой статьи.)

Тоже заметил что переключение между моделями помогает. Если одна модель зацикливается или не может за несколько шагов починить ошибку, то перекдючение на другую модель с тем же промптом помогает двигаться дальше.

Пробовал несколько открытых моделей пол года назад, но у всех у них были проблемы с распознаванием таблиц в сканах печатных документом. И самая большая проблема была с определением направления таблицы - то есть горизонтальная она или вертикальная. (Ну и да ещё с вертикальным текстом в колонках.) Как сейчас с этим обстаят дела? Какие модели сейчас лучше всего распознают документы с таблицами? Qwen3 Omni ?

Syncthing давно перестал использовать. Он бьёт файлы при синхронизации 3х устройств и теряет данные что не допустимо) Remotly Save использую через облако и проблем нет. 3 устройства а одну папку. Только надо сразу после правок на одном устройстве синхронизировать или настроить автосинхронизацию. Ещё использую Self-hosted LiveSync на свой сервер, с ним проблем нет. На сервере нужна только CouchDB. Ещё для посика использую плагин Omni Search, удобный и быстрый поиск.

Или на SWE-Rebench. Если они добавили задач из SWE, то на Rebench будет видно.

На реддите читал отзывы, говорят эта поделка сделана на Qwen3 1.5B и просто дообучена на бенчмарках чтобы красивые цифры в них показывать.

ColbertV2 как раз не большого размера, но принцип работы у неё немного другой.

А модель ColbertV2 не пробовали для эмбеддингов? Я получил для себя лучше результаты чем на обычных dense моделях. Её можно подключить через библиотеку fastembed.

Codex же можно использовать ещё из VSCode есть для этого отдельный плагин Codex от Open AI. Это намного удобней и можно править код в редакторе и запускать команды он может локально. Это тоже входит в подписку, но есть лимиты 5 часовые и недельные.

Просто надо мечтать о Монолите и тогда не будет расхождения мечт с реальностью )

Ждём разработчиков уровня: Mega Extra Super Junior Pro Max Ultra )

Coding бы ещё выпустили такого размера на замену Qwen3-30B-A3B

Information

Rating
4,493-rd
Registered
Activity