Можно почитать про архитектуру JEPA от Яна Лекуна, с помощью которой он хочет приблизить модели к человеческому мышление.
Если вкратце, то животные, и человек в том числе, рождаются с "предобученной моделью", с базовыми знаниями о законах мира, которая "быстро дообучается".
Если почитать оригинальную статью, то там не совсем про форму. Просто раньше не было датасетов, которые бы могли научить модели отличать "живое" от "неживого", растения от животных, сухопутное от морского и т.д. А за счет нового датасета модели могут это понять, что делает их восприятие близким к человеческому.
До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias). Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка.
Почитал оригинальную статью, и это не совсем про texture bias и форму объекта. Это про то, что модели не обладают знаниями о природе вещей, поэтому не могут понять разницу между сковородкой и собакой. В статье приводится пример, что модель скорее отнесет ящерицу к растениям, а не к животным. Потому что из снимков невозможно понять, что ящерица - это живое, подвижное существо.
Суть статьи - авторы создали синтетический датасет, который дает моделям некоторое представление о природе вещей, что позволяет им классифицировать объекты по высокоуровневым признакам, как это делает человек.
Была статья - достаточно давняя, где изучалось, что видят сверточные модели, в зависимости от применённых аугментаций. И только использование специальных шумов приводило к тому, что модели начинали фокусироваться на силуэте объектов.
Это скорее типичная ситуация в ML - две модели имеют, условно, accuracy 90%, но у них может различаться точность по отдельным классам, будут разные precision и recall.
Во-вторых, могу делать много рутинных задач параллельно. При этом фокусируюсь на действительно сложных вещах — производительности, архитектуре, дизайне, абстракциях, правильной доменной модели для бизнеса
сеньоры создали что-то сложное, потом уволились, пришли другие сеньоры и сказали: "Тут надо всё переписывать"»
Сквозь текст как будто проходит тонкая нить иронии.
трудоемкость проектов далеко за пределами того, что рынок может предложить
Сейчас у крупных корпораций бюджеты серьезно подрезаны. ... Идет серьезнейшая конкуренция за эффективность разработки. ... сейчас люди начинают серьезно думать, прежде чем вкладываться»
Так количество проектов (и общая трудоемкость it-сферы) растет или снижается? Потому что абзацы следуют друг за другом и при этом противоречат друг другу.
Для меня, как для computer vision инженера, в секции «вопрос-ответ» прозвучало важное наблюдение: индустрия постепенно уходит от чисто свёрточных архитектур в сторону гибридных решений и трансформеров, которые сегодня становятся новым стандартом для мультимодальных моделей.
Мне кажется, это стало очевидным ещё несколько лет назад, когда мультимодальные модели начали побеждать во всех бенчмарках, включая тот же ImageNet
OCR-продукты состоят из нескольких моделей, потому что это позволяет им обрабатывать документы в высоком разрешении. Детектор сжимает изображение, находит области текста, после чего строит ббоксы для оригинального разрешения. Модель-распознаватель получает на вход кусочки с текстом из изображения с оригинальным разрешением. Таким образом и качество текста сохраняется, и модель не захлёбывается при обработке высокого разрешения.
Как вы обошли (если обошли) это ограничение, если у вас одна модель? Вот я подаю на вход скан страницы с разрешением 1200*2400, условно, как вы его обработаете?
Выигрыш в скорости: Наша модель обрабатывает документ за 752 мс, тогда как конкуренты — почти в два раза дольше (~1400-1500 мс).
На одном и том же железе? А под документом подразумевается страница? А какое разрешение у документа, что его можно трансформерами с такой скоростью обработать?
Ответ простой: нашелся другой человек, который тоже ответил на 5+, и у него либо больше стаж в резюме, либо он работал с технологиями из вакансии (не надо учить).
Можно почитать про архитектуру JEPA от Яна Лекуна, с помощью которой он хочет приблизить модели к человеческому мышление.
Если вкратце, то животные, и человек в том числе, рождаются с "предобученной моделью", с базовыми знаниями о законах мира, которая "быстро дообучается".
Тут скорее про то, что не существовало объемных датасетов, размеченных под такую задачу. Авторы в статье описывают, как они создали такой датасет.
Если почитать оригинальную статью, то там не совсем про форму. Просто раньше не было датасетов, которые бы могли научить модели отличать "живое" от "неживого", растения от животных, сухопутное от морского и т.д. А за счет нового датасета модели могут это понять, что делает их восприятие близким к человеческому.
Почитал оригинальную статью, и это не совсем про texture bias и форму объекта. Это про то, что модели не обладают знаниями о природе вещей, поэтому не могут понять разницу между сковородкой и собакой. В статье приводится пример, что модель скорее отнесет ящерицу к растениям, а не к животным. Потому что из снимков невозможно понять, что ящерица - это живое, подвижное существо.
Суть статьи - авторы создали синтетический датасет, который дает моделям некоторое представление о природе вещей, что позволяет им классифицировать объекты по высокоуровневым признакам, как это делает человек.
Была статья - достаточно давняя, где изучалось, что видят сверточные модели, в зависимости от применённых аугментаций. И только использование специальных шумов приводило к тому, что модели начинали фокусироваться на силуэте объектов.
PaddleOCR вы можете дообучить и он будет отлично распознавать, а вот LLMки дообучать проблематично
А вы указывали, какой язык собираетесь распознавать?
Это скорее типичная ситуация в ML - две модели имеют, условно, accuracy 90%, но у них может различаться точность по отдельным классам, будут разные precision и recall.
Так, а почему нет идеальной метрики? HOTA выглядит всеобъемлющей, регулирует все части процесса трекинга. Какие у нее явные недостатки?
Asyncio - single-threaded (однопоточный), поэтому он всяко дешевле, но он и не обладает способностью к параллелизму.
Сквозь текст как будто проходит тонкая нить иронии.
Обязательно начинать речь с обозначения своей синьорности? Без обид, но это попахивает мегаломанией.
Что-то я не понял
Так количество проектов (и общая трудоемкость it-сферы) растет или снижается? Потому что абзацы следуют друг за другом и при этом противоречат друг другу.
Мне кажется, это стало очевидным ещё несколько лет назад, когда мультимодальные модели начали побеждать во всех бенчмарках, включая тот же ImageNet
OCR-продукты состоят из нескольких моделей, потому что это позволяет им обрабатывать документы в высоком разрешении. Детектор сжимает изображение, находит области текста, после чего строит ббоксы для оригинального разрешения. Модель-распознаватель получает на вход кусочки с текстом из изображения с оригинальным разрешением. Таким образом и качество текста сохраняется, и модель не захлёбывается при обработке высокого разрешения.
Как вы обошли (если обошли) это ограничение, если у вас одна модель? Вот я подаю на вход скан страницы с разрешением 1200*2400, условно, как вы его обработаете?
На одном и том же железе? А под документом подразумевается страница? А какое разрешение у документа, что его можно трансформерами с такой скоростью обработать?
Для EasyOCR надо было подобрать подходящее разрешение входного изображения, потому что "из коробки" он обучен под определенный масштаб.
Так обычно отвечают в духе: "очень жаль, вы нам не подошли". Никто не скажет, что взяли другого человека, потому что у него больше стаж в резюме.
Ответ простой: нашелся другой человек, который тоже ответил на 5+, и у него либо больше стаж в резюме, либо он работал с технологиями из вакансии (не надо учить).
Не думали, что дообучение PaddleOCR могло бы быть более эффективным решением в плане общих затрат и скорости инференса?