Ну вот давайте углубимся в "обобщенное визуальное понимание" - моя мысль была о том, что YOLO накаплиавют бОльший базис в backbone, чтобы их модель работала с реальным миром, где могут быть разнообразные визуальные искажения. Если при обучении меняли цвета или добавляли шум, то их backbone умеет с этим работать и удовлетворит больше пользователей в иотге. Но ценой бОльшего размера / сложности. Но в тестах COCO это по сути не нужно, и этой разницы не будет видно.
Насчет перекладывания заботы об аугментации на пользователя - это вы зря. Собирать большие датасеты - это тяжелая работа, и если есть возможность автоматизировать хотя бы базовые вариации, нужно это использовать. А мой скептицизм вызван способом сравнения моделей по разным метрикам. У вас пайплайн очень туманный (вы работаете не с пикселями а с каким-то TAPE), модель закрытая, непонятно как вы считаете параметры. Единственная метрика, которую вы показали - это mAP90 , но цели обучения у YOLO и вас разные.
Кроме доказать что можно, какая практическая польза то? Заплатите 20$ и пользуйтесь облаком сколько-то лет. Ваша локальная модель все равно больше не нагенерирует чем в ультра-бюджетных тарифах.
О боже, вы не используете аугментацию? То есть ваша модель заточена чисто под датасет с его идеальной разметкой, и не в курсе что в реальном мире картинка может быть искажена, уменьшена в 100x раз, заблюрена, обрезана и т.д. А вот в YOLO об этом подумали при разработке своего фрейворка обучения. Может, поэтому им и нужно столько параметров, и такая сложная архитектура? Все же заявляться на SATA рановато, там много параметров кроме успешных тестов COCO val.
Даже читать не нужно, все статьи примерно одинаково начинаются: "бюджетно запустим на одном CPU" и кончаются: "не получилось: ограниченный контекст и черепашья скорость генерации, практической пользы 0, но для исследования полезно". Вот полезный инсайт: не инвестируйте в локальный запуск моделей на GPU, это будет либо непрактично либо ооочень не бюджетно. Подождите специализированных NPU, сейчас много компаний работает над этим и это самый логичный шаг развития железа под ИИ. Универсальность GPU нужна только исследователям для обучения моделей, а инференс можно делать гораздо дешевле.
Просто до бизнеса дошла наконец обратная связь по цепочке "Вау как классно ИИ делает работу, за которую мы платили такие бабки, сейчас всех уволим и будем экономить", а оказалось, что это тоже стоит больших денег. Да, я как разработчик, вижу огромный потенциал, ИИ - это будущее. Но это не бесплатно, как нам казалось в начале. Классический вариант "подсадить на иглу" не прошел, деньги и ресурсы кончились быстрее, чем все подсели. Теперь система развернется в сторону поиска путей снижения стоимости за токен и экономии токенов, чтоб не жечь их впустую. Это все решаемо, и думаю что очень быстро.
О каком запредельном железе речь? YOLO это модели, оптимизированные для edge / mobile, то есть они работают на самом простом железе и там далеко не сотни миллионов параметров. На моем Samsung S23 время инференса средней модели на HD картинке ~10..15ms и это вполне себе реалтайм. И поэтому они так всем нравятся - хорошо масштабируются под разное железо, удобный сервис для обучения на своем датасете, условно бесплатные (если не для бизнеса). Ну и архитектура там не самая простая, компания вложила много сил в ее разработку. У вас 100 тыс. параметров, это конечно круто, 100x меньше, но это не главный показатель. Что с оптимизацией под простые NPU у которых набор операций сильно урезан? В общем, хочется демонстраций. Где на входе jpeg, на выходе detection/segmentation/keypoints с хорошей точностью и крутится на любом GPU.
Вот именно. Люди не готовы платить за одноразовые сервисы. Там максимум рекламу можно продавать или продвигать другие свои продукты, используя сервис как фильтр целевой аудитории. Вы то сами сколько раз платили, когда вам нужно разовое действие, а ставить тяжелый софт и разбираться лень?
Интересная статья, думаю многим пригодится. Встроенный NPU звучит красиво, но реальная польза для персоналки пока сомнительна, да и если простой GPU справится не хуже, лучше выбрать его. Наверное более-менее полезной станет повышение мощности NPU раз в 10, но все равно все упирается в память (очень недешевую на данный момент) и это надо решать, например нейроморфные ахитектуры все-в-одном. А польза от NPU ~40 TOPS будет только для простых носимых устройств, где на первом плане энергоэффективность и цена.
Я как раз про это - вы же не жалеете деньги на другие развлечения, например поесть в ресторане, поехать в путешествие. Тогда в чем тут разница, почему стоимость материалов играет такую большую роль? Это меня удивляет во многих статьях про DIY.
Почему так часто привлекательность DIY-проекта оценивается в деньгах? Вы делаете гигантский акцент на том, что собрали нечто рабочее "за копейки", как будто есть разница, потратите вы на свой пет-проект 700 руб или 7000 или даже 70000. Вы свое время оцениваете в 0 руб? Электроника - это лишь малая часть вего проекта. То, что смартфон (даже очень старый и никому не нужный) очень крут и это все еще сложнейшее устройство, которое вы никогда не сделаете из простых компонент, это же очевидно. Смысл DIY - собрать что-то сложное из простых компонент, а не взять вершину инженерной мысли и залить туда написанный ИИшкой софт.
Вы скорее всего жалуетесь на рекламу в БЕСПЛАТНОЙ версии? Ну а что вы ожидали, вполне очевидно что бесплатным будет только пробный период, люди поймут надо им это или нет, а дальше - монетизация. Да и денег пока много не просят, чего уж тут жаловаться. "Лить воду" им не очень то и выгодно, генерация токенов не бесплатная. В общем, высосали страшилки из пальца.
Тогда рекомендую "Анафем", там с самого начала похожий бред. Те, кто не бросил читать, обычно не жалеют. Насчет минусов, предположу что людей раздражает потерянное время. Нужно четко обозначить суть публикации в эпиграфе.
Да и правильно, новая идея и даже опытный образец не дает вам право застолбить ее за собой на веки вечные. ИМХО, патентная система должна защищать действительно сложные и дорогостоящие исследования и разработки, когда компания вкладывает в них большие средства, и конкуренты получат необоснованное преимущество, если используют результат, не тратя свои ресурсы. А 99% патентов и вообще вся суть этой системы - это простые идеи, которые любой хороший инженер придумает, не особо напрягаясь. Реально стоящие изобретения, которые вышли в массы и стали стандартов де-факто - это же не только голая идея, но и компания, которая ее реализовала, вывела на массовый рынок, развивала и дорабатывала. Гений-одиночка на такое не способен, так что чисто идея без продукта не имеет особой ценности.
" 4 Концентрация на одной парадигме: Визуальное формошлепство. " - после прочтения статьи как раз сложилось ощущение, что все наоборот. Если бы они и дальше все силы вкладывали в мега-популярный Delphi, который их по сути и кормил, а не пытались конкурировать со всеми подряд. Визуальный IDE - это ж золотое дно, и если у тебя он лучший в мире. Переписывай компилятор под другие языки (не меняя базы), - опыт уже был, сделали же C++ Builder. Далее добавили бы C#, Java - и опять на коне. Можно быть в тренде, просто поддерживая новые технологии в старом продукте.
" это двухканальный фотодатчик, предназначенный для высокоточного измерения углового положения, скорости и направления вращения " - ну это вы слишком оптимистичны, 16 импульсов на оборот даже с большой натяжкой нельзя назвать "высокой точностью". Для демо-стенда в школу пойдет, но куда-то серьезнее вряд ли. Для меня высокая точность начинается с 20bit на круг. Да даже 3$ магнитные энкодеры дают 14bit, и зачем спрашивается изобретать велосипед?
Мне кажется, что такой режим производители и рады бы сделать. Стоп, да он был - простой сон без пробуждений со стороны системы (когда-то их можно было легко запретить). Но потом появились бредовые идеи от Microsoft о connected standby, которые они "спустили" производителям как обязаловку, и видимо производители имели трудности с реализацией, или с поддержкой со стороны ОС, в общем выпустили свои сырые аппаратные решения, которые теперь обновлениями не лечатся, режим настройкой не отключаются. Да, гибернация все еще работает, и для переноски в рюкзаке лучше ее выбирать. Только она каждый раз съедает 10-12 Gb ресурса записи SSD, и ее просто забываешь выбрать когда большую часть используешь сон.
LG Gram - классный ноут, но с уходом в сон там жуткие баги, по которым вообще никаких решений не предлагается. Самый неприятный - может из сна проснуться в какой-то режим со 100% нагрузкой на проц (экран так и не включается), высаживает батарею за 20 минут и если лежит где-то в рюкзаке, то прогревается как печка. А простой сброс после сна - это не страшно - просто вырабатывается привычка сохранять все документы. PS: весь треш был год назад. Тогда изучал этот момент, и пришел к выводу, что это связано с модным нововведением Windows "Connected standby", и настройкой Bios способа отключения не было. Сейчас такие случаи почти прекратились, может пофиксили. Но раздражает, что ноут полностью никогда не засыпает и может проснуться, когда ему вздумается, и отключить нельзя.
Ну вот давайте углубимся в "обобщенное визуальное понимание" - моя мысль была о том, что YOLO накаплиавют бОльший базис в backbone, чтобы их модель работала с реальным миром, где могут быть разнообразные визуальные искажения. Если при обучении меняли цвета или добавляли шум, то их backbone умеет с этим работать и удовлетворит больше пользователей в иотге. Но ценой бОльшего размера / сложности. Но в тестах COCO это по сути не нужно, и этой разницы не будет видно.
Насчет перекладывания заботы об аугментации на пользователя - это вы зря. Собирать большие датасеты - это тяжелая работа, и если есть возможность автоматизировать хотя бы базовые вариации, нужно это использовать.
А мой скептицизм вызван способом сравнения моделей по разным метрикам. У вас пайплайн очень туманный (вы работаете не с пикселями а с каким-то TAPE), модель закрытая, непонятно как вы считаете параметры. Единственная метрика, которую вы показали - это mAP90 , но цели обучения у YOLO и вас разные.
Кроме доказать что можно, какая практическая польза то? Заплатите 20$ и пользуйтесь облаком сколько-то лет. Ваша локальная модель все равно больше не нагенерирует чем в ультра-бюджетных тарифах.
О боже, вы не используете аугментацию? То есть ваша модель заточена чисто под датасет с его идеальной разметкой, и не в курсе что в реальном мире картинка может быть искажена, уменьшена в 100x раз, заблюрена, обрезана и т.д. А вот в YOLO об этом подумали при разработке своего фрейворка обучения. Может, поэтому им и нужно столько параметров, и такая сложная архитектура? Все же заявляться на SATA рановато, там много параметров кроме успешных тестов COCO val.
Даже читать не нужно, все статьи примерно одинаково начинаются: "бюджетно запустим на одном CPU" и кончаются: "не получилось: ограниченный контекст и черепашья скорость генерации, практической пользы 0, но для исследования полезно". Вот полезный инсайт: не инвестируйте в локальный запуск моделей на GPU, это будет либо непрактично либо ооочень не бюджетно. Подождите специализированных NPU, сейчас много компаний работает над этим и это самый логичный шаг развития железа под ИИ. Универсальность GPU нужна только исследователям для обучения моделей, а инференс можно делать гораздо дешевле.
Просто до бизнеса дошла наконец обратная связь по цепочке "Вау как классно ИИ делает работу, за которую мы платили такие бабки, сейчас всех уволим и будем экономить", а оказалось, что это тоже стоит больших денег. Да, я как разработчик, вижу огромный потенциал, ИИ - это будущее. Но это не бесплатно, как нам казалось в начале. Классический вариант "подсадить на иглу" не прошел, деньги и ресурсы кончились быстрее, чем все подсели. Теперь система развернется в сторону поиска путей снижения стоимости за токен и экономии токенов, чтоб не жечь их впустую. Это все решаемо, и думаю что очень быстро.
О каком запредельном железе речь? YOLO это модели, оптимизированные для edge / mobile, то есть они работают на самом простом железе и там далеко не сотни миллионов параметров. На моем Samsung S23 время инференса средней модели на HD картинке ~10..15ms и это вполне себе реалтайм. И поэтому они так всем нравятся - хорошо масштабируются под разное железо, удобный сервис для обучения на своем датасете, условно бесплатные (если не для бизнеса). Ну и архитектура там не самая простая, компания вложила много сил в ее разработку. У вас 100 тыс. параметров, это конечно круто, 100x меньше, но это не главный показатель. Что с оптимизацией под простые NPU у которых набор операций сильно урезан? В общем, хочется демонстраций. Где на входе jpeg, на выходе detection/segmentation/keypoints с хорошей точностью и крутится на любом GPU.
Вот именно. Люди не готовы платить за одноразовые сервисы. Там максимум рекламу можно продавать или продвигать другие свои продукты, используя сервис как фильтр целевой аудитории. Вы то сами сколько раз платили, когда вам нужно разовое действие, а ставить тяжелый софт и разбираться лень?
Интересная статья, думаю многим пригодится. Встроенный NPU звучит красиво, но реальная польза для персоналки пока сомнительна, да и если простой GPU справится не хуже, лучше выбрать его. Наверное более-менее полезной станет повышение мощности NPU раз в 10, но все равно все упирается в память (очень недешевую на данный момент) и это надо решать, например нейроморфные ахитектуры все-в-одном. А польза от NPU ~40 TOPS будет только для простых носимых устройств, где на первом плане энергоэффективность и цена.
Я как раз про это - вы же не жалеете деньги на другие развлечения, например поесть в ресторане, поехать в путешествие. Тогда в чем тут разница, почему стоимость материалов играет такую большую роль? Это меня удивляет во многих статьях про DIY.
Почему так часто привлекательность DIY-проекта оценивается в деньгах? Вы делаете гигантский акцент на том, что собрали нечто рабочее "за копейки", как будто есть разница, потратите вы на свой пет-проект 700 руб или 7000 или даже 70000. Вы свое время оцениваете в 0 руб? Электроника - это лишь малая часть вего проекта. То, что смартфон (даже очень старый и никому не нужный) очень крут и это все еще сложнейшее устройство, которое вы никогда не сделаете из простых компонент, это же очевидно. Смысл DIY - собрать что-то сложное из простых компонент, а не взять вершину инженерной мысли и залить туда написанный ИИшкой софт.
Вы скорее всего жалуетесь на рекламу в БЕСПЛАТНОЙ версии? Ну а что вы ожидали, вполне очевидно что бесплатным будет только пробный период, люди поймут надо им это или нет, а дальше - монетизация. Да и денег пока много не просят, чего уж тут жаловаться. "Лить воду" им не очень то и выгодно, генерация токенов не бесплатная. В общем, высосали страшилки из пальца.
Тогда рекомендую "Анафем", там с самого начала похожий бред. Те, кто не бросил читать, обычно не жалеют. Насчет минусов, предположу что людей раздражает потерянное время. Нужно четко обозначить суть публикации в эпиграфе.
Вдохновлялись Нилом Стивенсоном? Для шуточной статьи ооочень длинно.
Да и правильно, новая идея и даже опытный образец не дает вам право застолбить ее за собой на веки вечные. ИМХО, патентная система должна защищать действительно сложные и дорогостоящие исследования и разработки, когда компания вкладывает в них большие средства, и конкуренты получат необоснованное преимущество, если используют результат, не тратя свои ресурсы. А 99% патентов и вообще вся суть этой системы - это простые идеи, которые любой хороший инженер придумает, не особо напрягаясь. Реально стоящие изобретения, которые вышли в массы и стали стандартов де-факто - это же не только голая идея, но и компания, которая ее реализовала, вывела на массовый рынок, развивала и дорабатывала. Гений-одиночка на такое не способен, так что чисто идея без продукта не имеет особой ценности.
" 4 Концентрация на одной парадигме: Визуальное формошлепство. " - после прочтения статьи как раз сложилось ощущение, что все наоборот. Если бы они и дальше все силы вкладывали в мега-популярный Delphi, который их по сути и кормил, а не пытались конкурировать со всеми подряд. Визуальный IDE - это ж золотое дно, и если у тебя он лучший в мире. Переписывай компилятор под другие языки (не меняя базы), - опыт уже был, сделали же C++ Builder. Далее добавили бы C#, Java - и опять на коне. Можно быть в тренде, просто поддерживая новые технологии в старом продукте.
" это двухканальный фотодатчик, предназначенный для высокоточного измерения углового положения, скорости и направления вращения " - ну это вы слишком оптимистичны, 16 импульсов на оборот даже с большой натяжкой нельзя назвать "высокой точностью". Для демо-стенда в школу пойдет, но куда-то серьезнее вряд ли. Для меня высокая точность начинается с 20bit на круг. Да даже 3$ магнитные энкодеры дают 14bit, и зачем спрашивается изобретать велосипед?
Мне кажется, что такой режим производители и рады бы сделать. Стоп, да он был - простой сон без пробуждений со стороны системы (когда-то их можно было легко запретить). Но потом появились бредовые идеи от Microsoft о connected standby, которые они "спустили" производителям как обязаловку, и видимо производители имели трудности с реализацией, или с поддержкой со стороны ОС, в общем выпустили свои сырые аппаратные решения, которые теперь обновлениями не лечатся, режим настройкой не отключаются.
Да, гибернация все еще работает, и для переноски в рюкзаке лучше ее выбирать. Только она каждый раз съедает 10-12 Gb ресурса записи SSD, и ее просто забываешь выбрать когда большую часть используешь сон.
LG Gram - классный ноут, но с уходом в сон там жуткие баги, по которым вообще никаких решений не предлагается. Самый неприятный - может из сна проснуться в какой-то режим со 100% нагрузкой на проц (экран так и не включается), высаживает батарею за 20 минут и если лежит где-то в рюкзаке, то прогревается как печка. А простой сброс после сна - это не страшно - просто вырабатывается привычка сохранять все документы.
PS: весь треш был год назад. Тогда изучал этот момент, и пришел к выводу, что это связано с модным нововведением Windows "Connected standby", и настройкой Bios способа отключения не было. Сейчас такие случаи почти прекратились, может пофиксили. Но раздражает, что ноут полностью никогда не засыпает и может проснуться, когда ему вздумается, и отключить нельзя.
Именно эту двойку использую уже очень давно. Notepad++ - шикарный.